网易首页 > 网易号 > 正文 申请入驻

阿里云与 NVIDIA 合作测试以太网络新架构

0
分享至

全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI 云底座

随着生成式 AI 的热潮席卷全球,用于训练生成式 AI 的大型高性能网络基础设施开始受到客户和行业的关注。这不仅仅是因为巨大的市场潜力,更因为生成式 AI 应用对当前网络的技术与产品带来的巨大挑战。

由于生成式 AI 训练任务的特性,其对网络的要求与传统的 DC 网络在多方面存在差异。主要体现在:

  • 性能至上,对于网络带宽及通信效率的要求高,需要实现从 GPU 到网络,再到其它 GPU 的端到端带宽平衡,从而达到最大化集群训练性能的目的。
  • AI 网络流量并发性高和突发性流量多,对于数据的完整性要求极高,依赖于 RDMA 转发保证带宽最大化和数据的完整性,降低对 CPU 资源消耗。
  • 模型并行加数据并行共存的通信机制导致对于网络时延敏感,网络中的任何额外的时延都可能影响数以百计的 GPU 之间的通信效率。
  • 需要无收敛的网络拓扑保证各种通信场景下的网络带宽没有瓶颈。

由于传统的网络解决方案无法满足这些需求,NVIDIA 依靠多年在 AI 和高速通信邻域的积累,推出了 Spectrum-X 以太网解决方案,以推动以太网技术可以更好的适配生成式 AI 基础设施的要求。

NVIDIA Spectrum™-X 是首个专为基于以太网的 AI 云提高性能和效率而设计的平台。NVIDIA Spectrum-X 依托于 NVIDIA Spectrum™-4 以太网交换机和 NVIDIA BlueField-3 DPU 的紧密结合,专为 AI 工作负载构建了端到端的创新网络平台,大幅提升了以太网在大规模、可扩展环境中的通信效率,并在多租户环境中实现了一致的、可预测的性能,提高了生成式 AI 云的性能和能效。NVIDIA Spectrum-X 网络平台还包括 Cumulus Linux、NetQ 、Air 和 DOCA 加速软件等,以及 NVIDIA 的 LinkX 系列线缆和光模块产品,共同助力该网络平台实现绝佳的性能。

NVIDIA Spectrum-X 网络平台集成了 NVIDIA Spectrum-4 以太网交换机、NVIDIA BlueField-3 DPU、NVIDIA LinkX 线缆及加速软件和 SDK,通过无损以太网的端到端动态路由、基于可编程拥塞控制的性能隔离技术等先进的 RoCE 扩展功能,构建了一个专为 AI 云而优化和加速的端到端 高性能 400GbE 以太网络。测试显示,与传统以太网相比,采用 NVIDIA Spectrum-X 网络平台可将大规模 AI 工作负载的性能提高到 1.7 倍,并将网络的有效通信带宽提升到 1.6 倍。

NVIDIA Spectrum-X 网络平台,实现了 GPU 到 GPU 直接的端到端加速和优化,大幅减少了大规模生成式 AI 模型的运行时间,提升了 GPU 的效率,优化了 AI 平台的总体拥有成本(TCO)和降低了基础设施的整体功耗。同时,它还具有高度的通用性,有力的支撑了各种生成式 AI 应用,由于它也是标准的以太网,实现了与已有的基于以太网堆栈的云架构和云服务互通。

阿里云作为全球领先的云供应商,拥有巨型的通用计算平台。同时,阿里云也持续向加速计算领域扩张,建成并持续扩张以 “PAI 灵骏” 算力服务为代表大型的 GPU 集群。阿里云基础设施网络团队从 2017 年开始构建端网融合的可预期高性能 RDMA 网络架构,过去几年已经在高性能存储领域实现了大规模部署,目前正在大规模 AI 计算领域持续创新迭代和规模部署,以适配 AI 计算对高性能网络的诉求。阿里云也充分认识到技术创新对以太网方案持续支持高性能网络,尤其是生成式 AI 基础设施的重要性。为此,阿里云联合 NVIDIA 对 Spectrum-X 解决方案进行测试,以评估新技术对高性能网络的适应能力。

测试的主要内容和结果

阿里云测试环境配置

测试环境使用了 2 台 Spine 交换机,4 台 ToR 交换机,16 台 HGX GPU 服务器并配置了 NVIDIA BlueField-3 DPU,基于NVIDIA 51.2T Spectrum-4 交换芯片的 SN5600,以太网交换机,支持 128*400G 或者 64*800G 端口。每台 GPU 服务器配置 8 张 BlueField-3 DPU,每 4 台 GPU 服务器为一组连接到一台 ToR 交换机,共 4 组连接到 4 台 ToR 交换机。ToR 交换机通过 200G 网络连接到 BlueField-3 DPU,4 台 ToR 交换机通过 2 台 Spine 交换机连接在一起,构成无阻塞胖树网络。

主要的测试内容

这些测试由多个级别的工作负载组成,从简单到复杂:

  • RDMA 基准性能测试,覆盖带宽和延迟。
  • 孤立场景下的 All to All 和 All Reduce 集合通信测试,专注于 NCCL 性能基准。
  • 在共享资源和有背景噪声环境下的性能测试。
  • 故障场景的测试。

测试结果显示,由于使用了端到端的逐包负载均衡优化技术(Adaptive Routing)和零配置 RoCE 拥塞控制(ZTR CC)使得网络利用率显著提升,并显著减少由于网络拥塞和 In-Cast 问题带来的时延和抖动。网络带宽利用率在各种测试场景下均可超过 90%。这种逐包负载均衡技术也可以对多种故障情况(本端和远端)做出响应,合理的利用网络内的带宽资源。在真实训练任务的测试过程中,Spectrum-X 可以降低 20% 以上的训练时间。在获得这一切收益的同时,网络的配置工作量大大降低,运维人员不再需要进行复杂的配置和频繁的调优工作。

这些测试结果表明 NVIDIA Spectrum-X 加速网络平台的突破性技术可大幅提升大规模生成式 AI 工作负载的性能,并大幅缩短生成式 AI 模型的运行时间。通过采用 NVIDIA Spectrum-X 网络平台,客户可进一步为千行百业的客户提供极具性能和成本优势的生成式 AI 云服务,将 AI 通用大模型和行业大模型赋能和融合各种应用场景。NVIDIA 和阿里云的开发人员将基于 NVIDIA Spectrum-X 网络平台的加速软件和 SDK 进一步在虚拟化、定制化可编程拥塞控制、遥测、快速故障响应等方面展开合作,推动这一新解决方案的进一步发展和应用。

针对这一联合测试,阿里云基础设施网络研发事业部总经理蔡德忠表示:“高性能网络技术是 AI 计算 Scaling Law 的关键所在,这个领域需要持续不断的创新迭代,阿里云始终坚持网络的开放性,也是网络开源生态的领导者和积极贡献者,阿里云与 NVIDIA 在 AI 计算和高性能存储领域合作多年,将持续探索创新基于 Open Ethernet 的高性能网络方案,助力 AI 计算集群的大规模高效扩展。”

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“生成式 AI(Generative AI)是面向下一代业务需求的典型代表,为了支撑成千上万的用户的需求,生成式 AI 云需要最先进及最可靠的网络基础架构满足各种 AI 业务的平滑增长。阿里云和 NVIDIA 在 Spectrum-X 以太网平台上的策略合作,可以充分利用 Spectrum-X 的先进路由技术和云上业务性能隔离技术,使阿里云及其广大用户可以尽情享受生成式 AI 的服务。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄总统普京今日访华,克里姆林宫:对此访充满期待

俄总统普京今日访华,克里姆林宫:对此访充满期待

上观新闻
2026-05-19 06:11:12
脱离董明珠十几年,格力遭遇百亿巨亏后,才明白她当初有多艰难

脱离董明珠十几年,格力遭遇百亿巨亏后,才明白她当初有多艰难

枫尘余往逝
2026-05-18 02:40:53
一张合影价值千万!黄仁勋到访老字号,老板娘情商格局直接拉满

一张合影价值千万!黄仁勋到访老字号,老板娘情商格局直接拉满

魔都姐姐杂谈
2026-05-18 12:56:52
“我要是他们,我也会这么干”!去了一趟中国,鲁比奥有些变了!

“我要是他们,我也会这么干”!去了一趟中国,鲁比奥有些变了!

阿龙聊军事
2026-05-17 12:04:52
活动紧急叫停,粉丝大喊“退钱”,“警方也来现场了”!演员工作室回应

活动紧急叫停,粉丝大喊“退钱”,“警方也来现场了”!演员工作室回应

南方都市报
2026-05-18 09:03:55
电商平台广为销售的“日本叮叮”为商标,和日本无关

电商平台广为销售的“日本叮叮”为商标,和日本无关

第一财经资讯
2026-05-18 23:05:40
面子给足了!张雪机车第五冠,央视3天5点名,瓦伦丁发言让人意外

面子给足了!张雪机车第五冠,央视3天5点名,瓦伦丁发言让人意外

寒士之言本尊
2026-05-18 14:26:42
布伦特福德有意2100万至2600万镑签下西汉姆前锋,降级危机或促交易

布伦特福德有意2100万至2600万镑签下西汉姆前锋,降级危机或促交易

竞技风云录
2026-05-18 01:49:54
姚晨道歉了,彻底与《监狱来的妈妈》切割,并表示将审慎自省。

姚晨道歉了,彻底与《监狱来的妈妈》切割,并表示将审慎自省。

贴小君
2026-05-19 00:06:58
专坑年轻人的“杀鱼盘”套路曝光 二手交易小心上当

专坑年轻人的“杀鱼盘”套路曝光 二手交易小心上当

上游新闻
2026-05-18 12:16:03
多名院士调查发现:吃一口久冻猪肉,就等于服一次毒?真假

多名院士调查发现:吃一口久冻猪肉,就等于服一次毒?真假

岐黄传人孙大夫
2026-05-18 21:25:03
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
男童小区玩耍坠入6米深竖井,颅脑损伤昏迷已达18天,家长:井口仅用薄板覆盖,物业只肯支付10万元抚慰金;当地人防办称已介入调查

男童小区玩耍坠入6米深竖井,颅脑损伤昏迷已达18天,家长:井口仅用薄板覆盖,物业只肯支付10万元抚慰金;当地人防办称已介入调查

扬子晚报
2026-05-18 22:20:50
手机壳正在悄悄吃掉你的电池寿命

手机壳正在悄悄吃掉你的电池寿命

全栈遛狗员
2026-05-18 04:51:52
许家印当年视察沈阳时奢靡到什么地步了?

许家印当年视察沈阳时奢靡到什么地步了?

维纳斯的眼泪
2026-05-18 12:22:27
他是水货状元?季后赛得分联盟第2,三分联盟第1,助攻联盟第3

他是水货状元?季后赛得分联盟第2,三分联盟第1,助攻联盟第3

球毛鬼胎
2026-05-18 19:52:21
南京学区房神话破灭:10万跌至2.1万,炒房客血亏60%

南京学区房神话破灭:10万跌至2.1万,炒房客血亏60%

科学发掘
2026-05-19 06:07:14
罗马诺:曼城早就决定让马雷斯卡接替瓜帅,合同可能是3年

罗马诺:曼城早就决定让马雷斯卡接替瓜帅,合同可能是3年

懂球帝
2026-05-19 07:46:32
福建漳州杨梅泡药风波持续发酵,无人收购,果农欲哭无泪,被害惨

福建漳州杨梅泡药风波持续发酵,无人收购,果农欲哭无泪,被害惨

魔都姐姐杂谈
2026-05-17 09:52:03
三名男子冒充纪委带走三甲医院院长,意外牵出医疗腐败大案

三名男子冒充纪委带走三甲医院院长,意外牵出医疗腐败大案

易玄
2026-05-18 18:33:20
2026-05-19 08:04:49
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3521文章数 1449关注度
往期回顾 全部

科技要闻

苹果WWDC26定档6月9日凌晨:iOS27将亮相

头条要闻

特朗普推迟打击但拒让步 伊朗最高领袖再提开辟新战线

头条要闻

特朗普推迟打击但拒让步 伊朗最高领袖再提开辟新战线

体育要闻

58顺位的保罗,最强第三中锋

娱乐要闻

票房会破14亿!口碑第一电影出现了

财经要闻

中国芯片,怎么突然不便宜了?

汽车要闻

40.98万起!充电5分钟纯电续航420km 腾势N9闪充版胜算有多少?

态度原创

房产
健康
教育
亲子
数码

房产要闻

突发!海口重磅调规!碧桂园要解套;新埠岛要起飞了!

专家揭秘干细胞回输的安全风险

教育要闻

帅得被质疑是AI!男生已保研同济大学,当事人:长相普通

亲子要闻

这几类药,不受一品两规限制

数码要闻

消息称Apple Watch Ultra 4将大改,苹果Ultra产品阵容正逐步成形

无障碍浏览 进入关怀版