当前位置: 首页 > article >正文

NVIDIA JetPack 6.2 为 NVIDIA Jetson Orin Nano 和 Jetson Orin NX 模块带来了超级模式

介绍 NVIDIA Jetson Orin Nano 超级开发工具包 的上市为小型边缘设备的 生成式人工智能 开启了一个新时代。新的 超级模式 给予了开发工具包高达 1.7 倍的前所未有的生成式人工智能性能提升,使其成为最具性价比的生成式人工智能超级计算机。

JetPack 6.2 现已推出,以支持Jetson Orin Nano和Jetson Orin NX生产模块的超级模式,提供高达 2 倍的生成 AI 模型性能。现在您可以为新的和现有的机器人及边缘 AI 应用程序释放更大的价值,并降低总体拥有成本。

本文讨论了超级模式的细节,包括新的功率模式、针对 Jetson Orin Nano 和 Orin NX 模块的流行生成 AI 模型的基准测试、文档更新以及支持超级模式的 NPN 合作伙伴的见解。

Jetson Orin Nano 和 Jetson Orin NX 系列的新参考电源模式

JetPack 6.2 通过解锁 GPU、DLA 内存和 CPU 时钟的更高频率,为 Jetson Orin Nano 和 Jetson Orin NX 系列提供了性能提升。

MODULE现有参考电源模式
(可用与现有的闪烁配置)
新电源模式
(仅在新的闪烁配置下可用)
NVIDIA Jetson Orin Nano 4GB7W, 10W10W, 25W,MAXN超级
NVIDIA Jetson Orin Nano 8GB7W, 15W15W, 25W,MAXN超级
NVIDIA Jetson Orin NX 8GB10W, 15W, 20W, MAXN10W, 15W, 20W, 40W,MAXN SUPER 
NVIDIA Jetson Orin NX 16GB10W, 15W, 25W, MAXN10W, 15W, 25W, 40W,MAXN超级

表 1. Jetson Orin Nano 和 Jetson Orin NX 模块的新参考功率模式

Jetson Orin Nano 模块现在有一个 25W 模式和一个新的无上限 MAXN SUPER 模式。同样,Jetson Orin NX 模块现在可以使用一个新的更高的 40W 参考功率模式以及一个无上限 MAXN SUPER 模式。

MAXN SUPER 是一种不受限制的电源模式,允许 CPU、GPU、DLA、PVA 和 SOC 引擎使用最高数量的核心和时钟频率。如果在此模式下模块的总功率超过了热设计功率(TDP)预算,则模块将被限制到较低的频率,从而在保持在热预算内的同时提供较低的性能。

我们强烈建议您构建自己的自定义电源模式,以找到适合您应用和需求的功耗或热稳定性与性能之间的合适平衡。

表 2 比较了 Jetson Orin Nano 4GB 和 8GB 以及 Jetson Orin NX 8GB 和 16GB 在其原始模式和超模式下的详细规格。

ORIN NANO 4GB​ORIN NANO 4GB 
(SUPER)
ORIN NANO 8GBORIN NANO 8GB
(SUPER)
ORIN NX 8GBORIN NX 8GB
(SUPER)
ORIN NX 16GBORIN NX 16GB
(SUPER)
峰值人工智能性能INT820 TOPS (稀疏)​

10 TOPS (Dense)​
34 TOPS(稀疏)

17 TOPS (Dense)
40 TOPS(稀疏)

20 TOPS(密集)
67 TOPS (Sparse)

33 TOPS (Dense)
70 TOPS (稀疏)​

35 TOPS(密集)​
117 TOPS (稀疏)

58 TOPS (Dense)
100 TOPS (稀疏)

50 TOPS (Dense)
157 TOPS (稀疏)

78 TOPS (Dense)
NVIDIA AMPERE GPU 512 CUDA 核心

16 个张量核心

625 MHz 

20/10 INT8 TOPs (S/D)

5 FP16 TFLOPs
512 CUDA 核心

16 张量核心

1020 MHz 

34/17 INT8 TOPs (S/D)

8.5 FP16 TFLOPs
1024 CUDA 核心

32 个张量核心

625 MHz

40/20 INT8 TOPs (S/D)

10 FP16 TFLOPs
1024 个 CUDA 核心

32 个张量核心

1020 MHz 

67/33  INT8 TOPs (S/D)

17 FP16 TFLOPs
1024 CUDA 核心
请提供需要翻译的文本
32 个 Tensor Cores

765 MHz 

50/25 INT8 TOPs (S/D) ​

13 FP16 TFLOPs
1024 CUDA 核心

32 个张量核心

1173 MHz 

77/38 INT8 TOPs (S/D)

19 FP16 TFLOPs
1024 CUDA 核心
请提供要翻译的文本
32 个张量核

918 MHz

60/30 INT8 TOPs (S/D) 

15 FP16 TFLOPs
1024 CUDA 核心

32 个张量核心
请提供需要翻译的文本
1173 MHz

77/38 INT8 TOPs (S/D)

19 FP16 TFLOPs
CPU6X A78​

1.5 GHz
6X A78​

1.7 GHz
6X A78​

1.5 GHz
6X A78

1.7 GHz
6X A78​

2.0 GHz​
6X A78

2.0 GHz
8X A78​2

.0 GHz
8X A78

2.0 GHz
DLA (S/D)NA​NANANA20/10 INT8 TOPs40/20 INT8 TOPs40/20 INT8 TOPs​80/40 INT8 TOPs
DRAM BW34 GB/s51 GB/s68 GB/s102 GB/s102 GB/s102 GB/s102 GB/s102 GB/s
模块电源7W
10W
7W
10W
25W
7W
15W
7W
15W
25W
10W
15W
20W
10W
15W
25W
40W
10W
15W
25W
10W
15W
25W
40W

表 2. Jetson Orin Nano 和 Jetson Orin NX 的原始规格以及超级模式下的规格

在使用新的电源模式时,请确保您产品现有或新的热设计能够满足电源模式的新规格。有关更多信息,请参阅更新的热设计指南。

更新的功率估算工具

功率估算工具是 NVIDIA 提供的一个强大工具,通过修改系统参数(如核心、最大频率和 GPU、CPU、DLA 等的负载水平)来创建自定义功率配置文件和nvpmodel配置文件。该工具提供了在各种设置下的估算功耗,并可用于创建最佳参数设置,以实现性能与功耗之间的理想平衡。

我们已经更新了超级模式的电力估算工具。我们强烈建议您使用电力估算工具,并在高性能应用部署之前进行实际验证。

随着 JetPack 6.2 引入超级模式,Jetson Orin Nano 和 Jetson Orin NX 模块提供高达 2 倍的推理性能提升。我们基准测试了最流行的大型语言模型 (LLMs)、视觉语言模型 (VLMs) 和视觉transformer (ViTs)。

大型语言模型

以下图表和表格显示了流行的 LLMs 的超级模式性能基准,如 Llama3.1 8B、Qwen2.5 7B 和 Gemma2 2B。

A bar chart summarizes the performance improvements of seven LLMs when run using Super Mode on the Orin Nano 4GB, Orin Nano 8GB, Orin NX 8GB, and Orin NX 16GB modules. 

图 1. 使用超级模式的 LLMs 性能提升

DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到限制行为的影响。

在下表中,LLM 生成性能(每秒令牌数)在使用 MLC API 的 INT4 量化下进行了测量。

表 3 显示了在 JetPack 6.2 下,Jetson Orin Nano 4GB 上LLM的性能提升。

ModelOrin Nano 8GB(原版)Orin Nano 8GB(超模式)性能提升 (x)
Gemma 2 2B11.4018.601.64
SmolLM2 1.7B23.0035.801.56

表 3. Jetson Orin Nano 4GB 上流行LLMs的基准性能(以令牌/秒计)

表 4 显示了在 JetPack 6.2 下 Jetson Orin Nano 8GB 上LLM的性能提升。

ModelOrin Nano 8GB(原版)Orin Nano 8GB(超模式)性能提升 (x)
Llama 3.1 8B14.0019.101.37
Llama 3.2 3B27.7043.101.55
Qwen 2.5 7B14.2021.801.53
Gemma 2 2B21.535.01.63
Gemma 2 9B7.209.201.28
Phi-3.5 3.8B24.7038.101.54
SmolLM2 1.7B41.0064.501.57

表 4. 在 Jetson Orin Nano 8GB 上流行LLMs的基准性能(以每秒令牌数计)

表 5 显示了在 JetPack 6.2 下,Jetson Orin NX 8GB 上LLM的性能提升。

ModelOrin NX 8GB(原版)Orin NX 8GB(超级模式)性能提升 (x)
Llama 3.1 8B15.9023.101.46
Llama 3.2 3B34.5046.501.35
Qwen 2.5 7B17.1023.801.39
Gemma 2 2B26.6039.301.48
Gemma 2 9B8.8013.381.52
Phi-3.5 3.8B30.8041.301.34
SmolLM2 1.7B51.5069.801.35

表 5. Jetson Orin NX 8GB 上流行LLMs的标杆性能(以每秒令牌数计算)

表 6 显示了在 JetPack 6.2 下,Jetson Orin NX 16GB 上的LLM性能提升。

ModelOrin NX 16GB(原版)Orin NX 16GB(超级模式)性能提升 (x)
Llama 3.1 8B20.5022.801.11
Llama 3.2 3B40.4045.801.13
Qwen 2.5 7B20.8023.501.13
Gemma 2 2B31.6039.001.23
Gemma 2 9B10.5613.261.26
Phi-3.5 3.8B35.9040.901.14
SmolLM2 1.7B59.5068.801.16

表 6. Jetson Orin NX 和 Orin Nano 模块上流行 LLMs 的基准性能(以每秒 tokens 计)

视觉语言模型

以下图表和表格显示了如 VILA1.5 8B、LLAVA1.6 7B 和 Qwen2 VL 2B 等流行 VLM 的超级模式性能基准。

A bar chart summarizes the performance improvements of seven VLMs when run using Super Mode on the Orin Nano 4GB, Orin Nano 8GB, Orin NX 8GB, and Orin NX 16GB modules.

图 2. 在使用超级模式运行时 VLM 的性能提升

DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到限制行为的影响。

表 7 显示了在 JetPack 6.2 下,Jetson Orin Nano 4GB 上的 VLM 性能提升。

ModelOrin Nano 4GB(原版)Orin Nano 4GB(超级模式)性能提升 (x)
PaliGemma2 3B7.211.21.56

表 7. Jetson Orin Nano 4GB 上流行 VLM 的基准性能(以令牌/秒为单位)

表 8 显示了在 JetPack 6.2 下,Jetson Orin Nano 8GB 上 VLM 性能的提升。

ModelOrin NX 16GB(原版)Orin NX 16GB(超级模式)性能提升 (x)
VILA 1.5 3B0.71.11.51
VILA 1.5 8B0.60.81.45
LLAVA 1.6 7B0.40.61.38
Qwen2 VL 2B2.84.41.57
InternVL2.5 4B2.55.12.04
PaliGemma2 3B13.721.61.58
SmolVLM 2B8.112.91.59

表 8. Jetson Orin Nano 8GB 上流行 VLM 的基准性能(以令牌/秒计)

表 9 显示了在 JetPack 6.2 下,Jetson Orin NX 8GB 上的 VLM 性能提升。

ModelOrin NX 16GB(原版)Orin NX 16GB(超级模式)性能提升 (x)
VILA 1.5 3B0.811.25
VILA 1.5 8B0.71.041.50
LLAVA 1.6 7B0.51.22.54
Qwen2 VL 2B3.44.81.41
InternVL2.5 4B34.11.37
PaliGemma2 3B17.123.91.40
SmolVLM 2B9.714.41.48

表 9. Jetson Orin NX 16GB 上流行 VLM 的基准性能(以每秒令牌数计)

表 10 显示了使用 JetPack 6.2 的 Jetson Orin NX 16GB 上的 VLM 性能提升。

ModelOrin NX 16GB(原版)Orin NX 16GB(超级模式)性能提升 (x)
VILA 1.5 3B11.31.23
VILA 1.5 8B0.811.25
LLAVA 1.6 7B0.60.71.07
Qwen2 VL 2B44.81.20
InternVL2.5 4B2.84.41.57
PaliGemma2 3B2023.81.19
SmolVLM 2B11.714.31.22

表 10. Jetson Orin NX 和 Orin Nano 模块上流行 VLM 的基准性能(每秒令牌数)

所有 VILA 和 LLAVA 模型使用 MLC 以 INT4 精度运行,而其余模型使用 Hugging Face Transformers 以 FP4 精度运行。

视觉transformer

以下图表和表格展示了流行的 ViTs(如 CLIP、DINO 和 SAM2)的超级模式性能基准。

A bar chart summarizes the performance improvements of seven ViTs when run using Super Mode on the Orin Nano 4GB, Orin Nano 8GB, Orin NX 8GB and Orin NX 16GB modules.

图 3. 在使用超级模式运行时,ViTs 的性能提升

DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到限制行为的影响。

表 11 显示了在 JetPack 6.2 下,ViT 在 Jetson Orin Nano 4GB 上的性能提升。

ModelOrin Nano 4GB(原版)Orin Nano 4GB(超级模式)性能提升 (x)
clip-vit-base-patch32126.8189.51.49
clip-vit-base-patch1663.2112.41.78
DINOv2-base-patch1449.379.31.61
SAM2 基础2.53.81.54
vit-base-patch16-22462.4103.31.66

表 11. Jetson Orin Nano 4GB 上流行 ViT 的基准性能(以 token/秒为单位)

表 12 显示了在 JetPack 6.2 下,ViT 在 Jetson Orin Nano 8GB 上的性能提升。

ModelOrin Nano 8GB(原版)Orin Nano 8GB(超模式)性能提升 (x)
clip-vit-base-patch321963141.60
clip-vit-base-patch16951611.69
DINOv2-base-patch14751261.68
SAM2 基础4.46.31.43
Grounding DINO4.16.21.52
vit-base-patch16-224981581.61
vit-base-patch32-2241712731.60

表 12. Jetson Orin Nano 8GB 上流行 ViTs 的每秒标记基准性能

表 13 显示了在 JetPack 6.2 下,ViT 在 Jetson Orin NX 8GB 上的性能提升。

ModelOrin NX 8GB(原版)Orin NX 8GB(超级模式)性能提升 (x)
clip-vit-base-patch32234.0361.11.54
clip-vit-base-patch16101.7204.32.01
DINOv2-base-patch1481.4160.31.97
SAM2 基础3.97.41.92
Grounding DINO4.27.41.75
vit-base-patch16-22498.6192.51.95
vit-base-patch32-224193.1313.51.62

表 13. Jetson Orin NX 8GB 上流行 ViT 的基准性能(以每秒令牌数为单位)

表 14 显示了在 JetPack 6.2 下,ViT 在 Jetson Orin NX 16GB 上的性能提升。

ModelOrin NX 16GB(原版)Orin NX 16GB(超级模式)性能提升 (x)
clip-vit-base-patch32323.2356.71.10
clip-vit-base-patch16163.5193.61.18
DINOv2-base-patch14127.5159.81.25
SAM2 基础6.27.31.18
Grounding DINO6.27.21.16
vit-base-patch16-224158.6190.21.20
vit-base-patch32-224281.2309.51.10

表 14. Jetson Orin NX 16GB 上流行 ViT 的基准性能(帧/秒)

所有的 ViT 模型均使用 NVIDIA TensorRT 以 FP16 精度运行,测量单位为 FPS。

开始使用 NVIDIA Jetson Orin Nano 和 Jetson Orin NX 及 JetPack 6.2

NVIDIA Jetson 生态系统提供了多种方法让您使用 JetPack 镜像为开发者套件和生产模块刷机。

要在 Jetson Orin Nano 开发套件或模块上安装 JetPack 6.2,请使用以下方法之一:

  • SD-Card 镜像 来自 JetPack SDK 页面。
  • SDK Manager 用于根据 下载和安装说明 进行刷机。
  • 为引导程序、内核和根文件系统的刷写脚本,参考刷写支持。

新的闪光配置

新的电源模式仅在新的闪烁配置下可用。默认的闪烁配置没有改变。要启用新的电源模式,您必须在闪烁时使用新的闪烁配置。

这是用于刷写的新闪存配置:

jetson-orin-nano-devkit-super.conf

在闪存或更新到 JetPack 6.2 后,运行以下命令以启动新可用的超级模式。

MAXN SUPER 模式在 Jetson Orin Nano 模块上:

sudo nvpmodel -m 2

MAXN SUPER 模式在 Jetson Orin NX 模块上:

sudo nvpmodel -m 0

您还可以从页面右上角的电源模式菜单中选择 MAXN SUPER 和其他电源模式。

Four screenshots show the expanded Power mode menu on the Jetson Orin Nano and Jetson Orin NX modules.

图 4. 功率模式选择菜单


http://www.kler.cn/a/518410.html

相关文章:

  • macOS使用LLVM官方发布的tar.xz来安装Clang编译器
  • Kafka常见问题之 `javax.management.InstanceAlreadyExistsException`
  • JVM学习指南(48)-JVM即时编译
  • 安宝特方案 | AR在供应链管理中的应用:提升效率与透明度
  • 专为课堂打造:宏碁推出三款全新耐用型 Chromebook
  • AWScurl笔记
  • NIO | 什么是Java中的NIO —— 结合业务场景理解 NIO (二)
  • FPGA实现光纤通信(3)——光纤8b/10b编码数据回环
  • [C++技能提升]类注册
  • 大数据k-means聚类算法:基于k-means聚类算法+NLP微博舆情数据爬虫可视化分析推荐系统
  • FireCrawl开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
  • JVM面试题解,垃圾回收之“分代回收理论”剖析
  • Day109 MySQL深入及优化
  • 前端三件套之CSS
  • 基于机器学习链家网房屋数据分析预测系统的设计与实现
  • 基于 Node.js 的天气查询系统实现(附源码)
  • SSM电子商城系统
  • 第20篇:Python 开发进阶:使用Django进行Web开发详解
  • rust如何定义全局对象变量
  • 如何成为一名LLM(大语言模型)工程师
  • 基于Flask的哔哩哔哩评论数据可视化分析系统的设计与实现
  • 亲测有效!解决PyCharm下PyEMD安装报错 ModuleNotFoundError: No module named ‘PyEMD‘
  • C++----STL(list)
  • C语言复习
  • 今何在:“思索答案就是一种对虚无的战斗”
  • 基于Springboot + vue实现的民俗网