网易首页 > 网易号 > 正文 申请入驻

英伟达高管谈NVL72 机架的新设计

0
分享至

来源:内容由半导体行业观察(ID:icbank)编译自hpcwire,谢谢。

如果您希望可以时常见面,欢迎标星收藏哦~

GTC 展厅上的 Nvidia 新款旗舰级大型服务器 DGX GB200 的照片因其为人工智能带来的强大计算能力而在社交媒体上获得了好评。

Nvidia 的 DGX GB200(也称为 NVL72 机架服务器)可在 NVLink 域内配置多达 576 个 GPU。除此之外,DGX 系统还可以通过 SuperPOD 配置和 InfiniBand 网络扩展到数以万计的其他 GB200 系统,以实现长距离通信。

HPCwire 采访了 Nvidia DGX 系统部门副总裁兼总经理 Charlie Boyle,了解该系统的设计和底层技术。这是经过编辑的文字记录。

HPCwire:新的 DGX 系统是什么?

Boyle:2016 年,当我们在 GTC 上推出原始平台时,我们推出了一些世界前所未见的东西。这是我们第一次拥有 NVLink、GPU 和 SXM。我们经历了多代 DGX 系统,从 Pascal 到 Volta 和 Hopper,显然在全球客户和各种形式的企业中都取得了非常成功的成果。

我们宣布了一种新型系统,就像八年前我们宣布了一种新型系统一样。这个新系统是机架级计算机,我们称之为DGX GB200系统。它拥有 72 个 Blackwell 和 36 个 Grace GPU,全部集成到单个 NVLink 域中。

HPCwire:显然,更大强的动力,您能否分享更多关于采用该配置的决定?

Boyle:最初的 DGX 自诞生以来一直是单个机箱中的 NVLink 域。DGX-2 有一段时间有 16 路变体,但即使在那之后,我们又回到了 8 路域。随着人工智能模型变得越来越复杂,特别是在称为专家混合的新型模型中,多个人工智能模型一起工作来回答单个问题或生成单个输出,我们在实践中看到了一个限制因素。

在 MLPerf 示例中,限制因素之一是非常大的模型花费大约 60% 的时间在实际模型内相互通信。我们意识到,如果我们能够构建一个更大的 NVLink 域,就可以缓解通信问题,因为 NVLink 甚至比最快的 InfiniBand 还要快得多。

借助这个新系统,您可以在单个机架中获得 72 个 GPU、36 个 CPU 和 9 个 NVSwitch 单元,所有这些都作为单个 DGX 单元交付给客户。新的机架系统也是液冷的,非常节能,并且可以利用环境水和输入水来节省数据中心的费用。

HPCwire:您可以扩展到超出 GB200 系统多远?

Boyle:我们将这个单一系统称为 DGX GB200 系统(您也可能会看到它称为 NVL-72),可以与任意数量的机架连接,在 DGX SuperPOD 配置中可连接多达数万个 GPU 。

SuperPOD 产品是 Nvidia 的交钥匙产品。我们构建它,将其运送给客户,并安装一切,包括客户验收测试。

这款 SuperPOD 的一大新特点是,上一代 SuperPOD 是在客户所在地使用您习惯看到的经典 DGX 系统进行现场组装的。

这款新的 SuperPOD 将完全在工厂制造,通过所有老化测试,拆除一半电缆,然后将机架运送给客户。一旦到达那里,电缆将重新插入,最终客户将接受验收,以更快地实现价值。

HPCwire:NVLink 和 InfiniBand 之间有什么区别?

Boyle:NVLink 是一种芯片间通信技术,其运行方式类似于内存系统。从语义和执行操作的方式来看,它的功能类似于内存总线。

由于其专业性,NVLink 比 InfiniBand 快得多,但由于速度和延迟最大值而存在距离限制。NVLink 具有使其能够同时与所有芯片快速通信的功能。相比之下,InfiniBand 等传统网络技术以经典的数据源-目标方式发送信息。

在 72 GPU 机架配置中,任何 GPU 都可以直接访问任何其他 GPU 的内存,就好像它是本地的一样。NVLink 和 InfiniBand 是互补技术。此前,最大的 NVLink 域位于名为 HGX 板的物理板上,该板有 8 个 GPU 和几个 NVSwitch 单元,所有 NVLink 连接均在 PCB 走线上完成。

在新一代中,我们能够从计算芯片本身(即 Grace-Hopper 超级芯片)扩展 NVLink 领域。

当您看到系统图片并查看其背面时,您会注意到计算托盘。每个计算托盘都有两个 Grace CPU 模块和四个 Hopper 模块。每个托盘的背面都有外部 NVLink 连接器。您将看到一个完全布线的背板。计算架背面的每个 NVLink 端口都直接连接到同一机架中的外部 NVSwitch,所有连接都发生在系统背面。

在系统的正面,您会发现所有正常的网络连接。每个托盘都有四个 InfiniBand 端口,并包含我们用于南北通信的 BlueField-3 技术。BlueField 可以在 InfiniBand 或以太网模式下运行。该托盘还具有所有标准管理和以太网端口。机架本身包括用于机架内管理的网络基础设施。

HPCwire:新系统会改变 CUDA 程序员为 Nvidia 系统编写代码的方式吗?

Boyle:NVL72 是新系统更常见的配置,其中所有内容都设计为无缝协作。非常重要的核心库之一是 NCCL(NVIDIA Collective Communications Library)。多年来,我们改进了 NCCL,并增强了它理解系统中不同元素的能力。

在这个新系统中,作为 CUDA 程序员或更高级的程序员,您可以从任何应用程序访问所有 GPU 内存。与上一代产品相比,Hopper 的训练性能提高了 4 倍,推理能力提高了 30 倍以上。最好的部分是,它运行与 A100 上相同的软件,无需任何特殊的编程语义即可利用新系统的强大功能。

我们在软件方面所做的一件大事就是,如果人们不想要的话,就不会将这种复杂性暴露给他们。当然,如果需要,您仍然可以直接在较低级别进行编程。但是,您也可以运行一个简单的 [PyTorch] 命令……系统将自动将所有工作放置在机架中运行的所有操作系统映像上,确保以最佳位置完成工作。

考虑到通常购买大量 DGX 系统的企业越来越多地进入这一领域,我们已经从软件中消除了很多复杂性。他们有数据科学家和想要运行人工智能的人,但他们不一定有想要直接在低水平上对芯片进行编程的人。显然,我们有一些客户这样做,我们完全为他们启用该技术。

HPCwire:您如何看待未来的 DGX 设计?您从过去的设计中学到了什么?

Boyle:当我们将 GB200 系统视为未来的旗舰产品时,我们在系统中放入的很多内容都是希望客户永远不会看到的东西。我们从构建超大型集群中学到了很多东西,因为 NVIDIA 为研究人员独立完成了这项工作。

我们在系统中添加了大量的预测性维护、工作自动化和遥测功能,以便系统能够自行管理。随着系统变得越来越复杂,用户群越来越多地扩展到企业的其他方面,许多企业没有数据中心来放置这些系统,因此它们将被放置在我们的数据中心提供商之一。我们为此制定了完整的 DGX 计划。

未来,客户将运行极其复杂的作业,整个集群中的任何小问题都可能导致作业中断。然而,客户只想完成工作。

我们在这个平台上所取得的进步之一是硬件和软件的结合……芯片中有特定的新 RAS(可靠性、可用性和可服务性)功能,可以帮助我们预测正在发生的情况。

我们有一个预测性维护人工智能,我们在集群级别运行,以查看哪些节点健康,哪些节点不健康。我们不仅仅是一个二进制文件“这个是健康的,这个不是”,我们正在查看来自所有这些 GPU 的数据轨迹,每秒监控数千个数据点,以了解如何以最佳方式完成工作。

从系统设计的角度来看,我们最初的 DGX 目标是构建当时无法构建的东西。2016 年,8 路 NVLink 系统闻所未闻,但现在它已成为标准,每个 CSP 都在构建它们。然而,我们仍然构建它们,当我们展望未来时,我们会构建越来越大的集群,同时使集群足够智能来执行客户希望它做的工作,处理所有经常发生的小事情在集群中。

如果您正在运行大型系统,总会发生一些事情。我们希望将智能构建到集群本身中,以便它可以执行主要指令(如果您愿意):完成工作。如果作业终止,我们希望最小化重新启动时间。对于一项非常大的工作,过去需要几分钟甚至几个小时,我们正在努力将其缩短到几秒钟。

HPCwire:云提供商拥有与您的系统类似的多路 DGX 配置。是这样的吗?

Boyle:这就是我们 DGX 的目标。我们将其构建为设计参考并在内部使用,但我们也与所有合作伙伴广泛共享该信息。

许多采用 GB200 GPU 的云提供商都从该参考设计开始,因为它为他们节省了大量的研发时间和金钱。

他们查看参考设计并说:“这很棒,但我需要它更高一点,我需要不同的流形,并且我想使用我自己的系统管理。”这就是其背后的想法。我们已经向所有合作伙伴发布了 GB200 架构,他们都在基于它构建系统。

https://www.hpcwire.com/2024/03/27/qa-with-nvidias-chief-of-dgx-systems-on-the-dgx-gb200-rack-scale-system/

点这里加关注,锁定更多原创内容

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3718期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本本州东部附近海域地震致6人受伤

日本本州东部附近海域地震致6人受伤

新京报
2026-04-21 15:20:25
原来如此!张雪峰去世当天吃午饭和抢救画面流出!更多细节曝光

原来如此!张雪峰去世当天吃午饭和抢救画面流出!更多细节曝光

华人星光
2026-04-21 11:58:09
哈登场均25分,米切尔31分!季后赛的骑士,越来越像当初的火箭

哈登场均25分,米切尔31分!季后赛的骑士,越来越像当初的火箭

老梁体育漫谈
2026-04-22 00:03:22
太棒了!苹果推出基带大更新,iPhone 信号显著增强

太棒了!苹果推出基带大更新,iPhone 信号显著增强

XCiOS俱乐部
2026-04-21 11:20:14
真实的酒吧夜店女孩,只是看起来很漂亮

真实的酒吧夜店女孩,只是看起来很漂亮

微微热评
2026-04-13 12:18:55
5月1日医保新规落地!62种慢病纳入报销,最高报销 90%快看自查

5月1日医保新规落地!62种慢病纳入报销,最高报销 90%快看自查

芳姐侃社会
2026-04-21 21:43:12
不愧是嫁给上海首富的美女主持人,54岁了还像30出头的

不愧是嫁给上海首富的美女主持人,54岁了还像30出头的

旧时光老师
2026-04-19 19:08:29
四川突放大招!27家银行同一天解散,储户存款怎么办?

四川突放大招!27家银行同一天解散,储户存款怎么办?

说故事的阿袭
2026-04-21 16:56:44
TVB老戏骨忍无可忍含泪再揭家丑,每月给大儿子五万,仍不知足

TVB老戏骨忍无可忍含泪再揭家丑,每月给大儿子五万,仍不知足

情感大头说说
2026-04-21 21:08:13
女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

i书与房
2026-03-25 16:30:22
长公主被家暴流产了

长公主被家暴流产了

毒舌扒姨太
2026-04-08 22:29:19
全球最快速度、满电6分钟:宁德时代发布第三代神行超充电池

全球最快速度、满电6分钟:宁德时代发布第三代神行超充电池

新京报
2026-04-21 20:17:18
阿斯:国际足联倾向于在马德里举办2030年世界杯决赛

阿斯:国际足联倾向于在马德里举办2030年世界杯决赛

懂球帝
2026-04-21 09:50:56
日本7.7 级强震后,高市得罪 4 邻国,谁还愿救日本核电站?

日本7.7 级强震后,高市得罪 4 邻国,谁还愿救日本核电站?

眼界看视野
2026-04-21 09:49:11
砸了耶稣像,真相就藏不住了!以军士兵一锤下去,打碎的是什么?

砸了耶稣像,真相就藏不住了!以军士兵一锤下去,打碎的是什么?

深析古今
2026-04-21 17:10:53
苹果藏着不说!iPhone11-14信号暴涨50%,3分钟设置,亲测有效

苹果藏着不说!iPhone11-14信号暴涨50%,3分钟设置,亲测有效

辉哥说动漫
2026-04-21 17:57:19
对话挪用1700万的“榜一大姐”:已自首等待警方调查,后来刷票已成任务负担

对话挪用1700万的“榜一大姐”:已自首等待警方调查,后来刷票已成任务负担

封面新闻
2026-04-21 20:38:10
一张“职高女生氛围照”火了,被全网嘲笑:别给学不明白找借口了

一张“职高女生氛围照”火了,被全网嘲笑:别给学不明白找借口了

世界圈
2026-04-07 13:11:51
突发!天津一地发生车祸!

突发!天津一地发生车祸!

天津族
2026-04-21 20:13:48
太凶残!苏州顶豪,突然卖疯了!

太凶残!苏州顶豪,突然卖疯了!

居者
2026-04-21 11:44:24
2026-04-22 03:15:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
13465文章数 34883关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

房产
艺术
本地
公开课
军事航空

房产要闻

年薪40-50万!海南地产圈还在猛招人

艺术要闻

任伯年写竹,真带劲

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普公开对伊开战真正原因

无障碍浏览 进入关怀版