网易首页 > 网易号 > 正文 申请入驻

使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度学习性能

0
分享至

NVIDIA Jetson Orin 是同类嵌入式人工智能平台中的翘楚。Jetson Orin SoC 模块NVIDIA Ampere 架构 GPU 为核心,但 SoC 上还有更多的计算功能:

  • 深度学习加速器(DLA)中用于深度学习工作负载的专用深度学习推理引擎
  • 用于图像处理和计算机视觉算法的可编程视觉加速器(PVA)引擎
  • 多标准视频编码器(NVENC)和多标准视频解码器(NVDEC)

NVIDIA Orin SoC 的功能非常强大,拥有 275 个峰值 AI TOPs,是最佳的嵌入式和汽车 AI 平台。您知道吗,这些 AI TOPs 中近 40% 来自 NVIDIA Orin 上的两个 DLA?NVIDIA Ampere GPU 拥有同类产品中最佳的吞吐量,而第二代 DLA 则拥有同类产品中最佳的能效。近年来,随着 AI 应用的快速增长,对更高效计算的需求也在不断增长。在能效始终是关键 KPI 的嵌入式方面尤其如此。

这就是 DLA 的用武之地。DLA 专门为深度学习推理而设计,可以比 CPU 更有效地执行卷积等计算密集型深度学习操作。

当集成到 SoC(如 Jetson AGX OrinNVIDIA DRIVE Orin)中时, GPU 和 DLA 的组合可以为您的嵌入式 AI 应用程序提供一个完整的解决方案。我们将在这篇文章中讨论深度学习加速器,让您不再错过。我们将介绍涵盖汽车和机器人领域的几个案例研究,以展示 DLA 如何帮助 AI 开发者为其应用程序添加更多功能和性能。最后,我们将介绍视觉 AI 开发者如何使用 DeepStream SDK 构建应用工作流,使用 DLA 和整个 Jetson SoC 实现最佳性能。

以下是 DLA 会产生重大影响的一些关键性能指标。

关键性能指标

在设计应用程序时,您需要满足一些关键性能指标或 KPI。例如最大性能和能效之间的设计权衡,这需要开发团队仔细分析和设计应用程序,以便在 SoC 上使用不同的 IP。

如果应用程序的关键 KPI 是延迟,则必须在一定的延迟预算下在应用程序中安排任务。您可以将 DLA 作为加速器,用于与运行在 GPU 上的计算密集型任务并行的任务。DLA 峰值性能对 NVIDIA Orin 整体深度学习(DL)性能的贡献率在 38% 至 74% 之间,具体取决于电源模式。

表 1. DLA 吞吐量

Jetson AGX Orin 64GB 上 30W 和 50W 功率模式的 DLA TOPs 与 NVIDIA DRIVE Orin 汽车平台上的最大时钟相当。

如果功耗是您的关键 KPI 之一,那么就应该考虑使用 DLA 来利用其功耗效率方面的优势。与 GPU 相比,每瓦 DLA 的性能平均高出 3–5 倍,这具体取决于电源模式和工作负载。以下图表显示了代表常见用例的三个模型的每瓦性能。

图 1. DLA 能效

图 2. 结构化稀疏性和每瓦性能优势

换句话说,如果没有 DLA 的能效,就不可能在给定的平台功率预算下在 NVIDIA Orin 上实现高达 275 个峰值的 DL TOPs。想要了解更多信息和更多型号的测量结果,请参阅 DLA-SW GitHub 库。

以下是 NVIDIA 内部如何在汽车和机器人领域使用 DLA 提供的 AI 计算的一些案例研究。

案例研究:汽车

NVIDIA DRIVE AV 是端到端的自动驾驶解决方案堆栈,可帮助汽车原始设备制造商在其汽车产品组合中添加自动驾驶和映射功能。它包括感知层、映射层和规划层,以及基于高质量真实驾驶数据训练的各种 DNN。

NVIDIA DRIVE AV 团队的工程师致力于设计和优化感知、映射,并通过利用整个 NVIDIA Orin SoC 平台规划工作流。考虑到自动驾驶堆栈中需要处理大量的神经网络和其他非 DNN 任务,它们会依靠 DLA 作为 NVIDIA Orin SoC 上的专用推理引擎来运行 DNN 任务。这一点至关重要,因为 GPU 计算能力是为处理非 DNN 任务而保留的。如果没有 DLA 计算,团队将无法达到 KPI。

图 3. 感知管线的一部分

想要了解更多信息,请访问 Near-Range Obstacle Perception with Early Grid Fusion:https://developer.nvidia.cn/zh-cn/blog/near-range-obstacle-perception-with-early-grid-fusion/

例如,在感知工作流中,它们有来自八个不同相机传感器的输入,整个工作流的延迟必须低于某个阈值。感知堆栈是 DNN 的重头戏,占所有计算的 60% 以上。

为了达到这些 KPI,并行工作流任务被映射到 GPU 和 DLA,其中几乎所有的 DNN 都在 DLA 上运行,而非 DNN 任务则在 GPU 上运行,以实现总体工作流的延迟目标。然后,其他 DNN 在映射和规划等其他工作流中按顺序或并行消耗输出。您可以将工作流视为一个巨大的图形,其中的任务在 GPU 和 DLA 上并行运行。通过使用 DLA,该团队将延迟降低了 2.5 倍。

图 4. 作为感知堆栈一部分的对象检测

NVIDIA 自动驾驶团队工程经理 Abhishek Bajarger 表示:“利用整个 SoC,特别是 DLA 中专用的深度学习推理引擎,使我们能够在满足延迟要求和 KPI 目标的同时,为软件堆栈添加重要功能。只有 DLA 才能做到这一点。”

案例研究:机器人

NVIDIA Isaac 是一个功能强大的端到端平台,用于开发、仿真和部署机器人开发者使用的 AI 机器人。特别是对于移动机器人来说,可用的 DL 计算、确定性延迟和电池续航能力是非常重要的因素。这就是为什么将 DL 推理映射到 DLA 非常重要的原因。

NVIDIA Isaac 团队的一组工程师开发了一个使用 DNN 进行临近分割的库。邻近分割可用于确定障碍物是否在邻近场内,并避免在导航过程中与障碍物发生碰撞。他们在 DLA 上实现了 BI3D 网络,该网络可通过立体摄像头执行二进制深度分类。

图 5. 近距离分割流水线

一个关键的 KPI 是确保从立体摄像头输入进行 30 帧/秒的实时检测。NVIDIA Isaac 团队将这些任务分配到 SoC 上,并将 DLA 用于 DNN,同时为在 GPU 上运行的硬件和软件提供功能安全多样性。想要了解更多信息,请访问 NVIDIA Isaac ROS 邻近分割:https://github.com/NVIDIA-ISAAC-ROS/isaac_ros_proximity_segmentation

图 6. 使用 BI3D 对立体输入进行邻近分割

将 NVIDIA DeepStream 用于 DLA

探索 DLA 最快捷的方式是通过 NVIDIA DeepStream SDK,一个完整的流分析工具包。

如果你是一名视觉 AI 开发者,正在构建 AI 驱动的应用程序来分析视频和传感器数据,那么 DeepStream SDK 可以帮助您构建最佳的端到端工作流。对于零售分析、停车管理、物流管理、光学检测、机器人技术和体育分析等云端或边缘用例,DeepStream 可让您不费吹灰之力就能使用整个 SoC,特别是 DLA。

例如,您可以使用下表中突出显示的 Model Zoo 中的预训练模型在 DLA 上运行。在 DLA 上运行这些网络就像设置一个标志一样简单。想要了解更多信息,请访问如何使用 DLA 进行推理:https://docs.nvidia.com/metropolis/deepstream/dev-guide/text/DS_Quickstart.html#using-dla-for-inference

表 2. Model Zoo 网络样本 及其在 DLA 上的吞吐量

开始使用深度学习加速器

准备好深入了解了吗?有关详细信息,请参阅以下资源:

  • Jetson DLA 教程演示了基本的 DLA 工作流,帮助您开始将 DNN 部署到 DLA:https://github.com/NVIDIA-AI-IOT/jetson_dla_tutorial

  • DLA-SW GitHub 存储库中有一系列参考网络,您可以使用它们来探索在 Jetson Orin DLA 上运行 DNN:https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/tree/main/scripts/prepare_models

  • 示例页面提供了关于如何使用 DLA 充分利用 Jetson SoC 的其他示例和资源:https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/

  • DLA 论坛有其他用户的想法和反馈:https://forums.developer.nvidia.com/tag/dla

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子路口遇老头乐房车,看尺寸惊呆,网友:再不管都能造航母了

女子路口遇老头乐房车,看尺寸惊呆,网友:再不管都能造航母了

看晓天下事
2024-06-30 11:12:00
坚持三年,每年拍一百部作品的岛国片女星,补贴家用却惨遭家暴

坚持三年,每年拍一百部作品的岛国片女星,补贴家用却惨遭家暴

不二砖家
2024-07-01 13:34:55
太惊艳!曾黎闪现西安,穿拖鞋南门排队买小吃,蹲地吃饭无人识!

太惊艳!曾黎闪现西安,穿拖鞋南门排队买小吃,蹲地吃饭无人识!

花花lo先森
2024-07-02 16:32:48
网友刷漆把自己家,一间刷成了派出所,一间刷成了土地庙

网友刷漆把自己家,一间刷成了派出所,一间刷成了土地庙

新动察
2024-07-01 09:35:49
人老了,没有这3种病,多半可以活过90岁,并不是迷信!

人老了,没有这3种病,多半可以活过90岁,并不是迷信!

杨哥历史
2024-07-02 16:46:13
福特CEO警告:如果不能制造盈利的电动汽车,市场将被局限在北美

福特CEO警告:如果不能制造盈利的电动汽车,市场将被局限在北美

金融界
2024-07-01 20:58:27
国家移民管理局新闻发言人就打击有组织的偷私渡活动发表谈话

国家移民管理局新闻发言人就打击有组织的偷私渡活动发表谈话

界面新闻
2024-07-02 20:32:51
俄副部长舍夫佐娃逃到法国,还带走俄重要机密,普京下令绝不放过

俄副部长舍夫佐娃逃到法国,还带走俄重要机密,普京下令绝不放过

朗威游戏说
2024-07-02 18:14:48
连迎3大噩耗,普京终于明白,必须打痛美国,俄罗斯才能松一口气

连迎3大噩耗,普京终于明白,必须打痛美国,俄罗斯才能松一口气

康浔说
2024-07-03 08:46:21
朱丹周一围带女儿面试小学!家住7万一平小区,选普通公办惹争议

朱丹周一围带女儿面试小学!家住7万一平小区,选普通公办惹争议

古希腊掌管月桂的神
2024-06-30 09:05:45
乌军第25旅俘虏首位俄罗斯从监狱招募的女囚犯,俄女囚小队被摧毁

乌军第25旅俘虏首位俄罗斯从监狱招募的女囚犯,俄女囚小队被摧毁

山河路口
2024-06-30 23:16:25
勇士消息:1换2交易达成,防守悍将加盟,勇管决定曝光

勇士消息:1换2交易达成,防守悍将加盟,勇管决定曝光

冷月小风风
2024-07-02 12:55:37
为何女人一般不会拒绝男人提出啪啪的请求?

为何女人一般不会拒绝男人提出啪啪的请求?

桃小夭
2024-06-18 17:31:19
韦东奕假期放飞自我,上楼梯走出S形,被网友看出里面大有学问

韦东奕假期放飞自我,上楼梯走出S形,被网友看出里面大有学问

育学笔谈
2024-07-02 16:33:03
3000万镑,切尔西官宣夏窗第5签:新帅爱徒!夏窗已怒砸1亿欧!

3000万镑,切尔西官宣夏窗第5签:新帅爱徒!夏窗已怒砸1亿欧!

风过乡
2024-07-02 23:03:04
上海知青抛丈夫和女儿回城,走前解开衣扣:让我们为过去画上句号

上海知青抛丈夫和女儿回城,走前解开衣扣:让我们为过去画上句号

华人星光
2024-06-26 16:43:48
引发巨大争议!BBC回放C罗失点时字幕:丢里斯蒂亚诺-点纳尔多

引发巨大争议!BBC回放C罗失点时字幕:丢里斯蒂亚诺-点纳尔多

直播吧
2024-07-02 09:25:05
2-1!皇马天才闪耀,一战4纪录,黑马被终结,土耳其约战荷兰

2-1!皇马天才闪耀,一战4纪录,黑马被终结,土耳其约战荷兰

我的护球最独特
2024-07-03 04:58:59
王海曝周氏纯藕粉里没有藕后,不少网友开始囤货准备索要赔偿

王海曝周氏纯藕粉里没有藕后,不少网友开始囤货准备索要赔偿

映射生活的身影
2024-07-02 11:06:13
70年代,演员蒋雯丽和姥爷的珍贵留影

70年代,演员蒋雯丽和姥爷的珍贵留影

视点历史
2024-07-02 21:11:49
2024-07-03 10:18:44
NVIDIA英伟达中国
NVIDIA英伟达中国
英伟达(中国)官方账号
2438文章数 1295关注度
往期回顾 全部

科技要闻

交付量下滑却好于预期,特斯拉股价飙升10%

头条要闻

中企高管在菲律宾遇绑架罹难:有同行已取消考察行程

头条要闻

中企高管在菲律宾遇绑架罹难:有同行已取消考察行程

体育要闻

世界第二打第三,成了一场英格兰模仿秀

娱乐要闻

未火先塌?流量的路子不好走啊

财经要闻

张军:房地产是经济收缩的受害者而非原因

汽车要闻

18.96万 奕派eπ007 540纯电四驱Pro上市

态度原创

手机
本地
亲子
家居
公开课

手机要闻

小米MIX Fold 4外观设计渲染图曝光 雷军换设计师了?

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

亲子要闻

网友给侄女绘脸,刚刚开始十分钟就下雨了

家居要闻

江畔雅居 石质与木色的现代风

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版