网易首页 > 网易号 > 正文 申请入驻

智算中心网络架构设计实践

0
分享至

文档资料: wenku.itilzj.com


传统的云数据中心网络一般是基于对外提供服务的流量模型而设计的,流量主要是从数据中心到最终客户,即以南北向流量为主,云内部东西向流量为辅。承载 VPC 网络的底层物理网络架构,对于承载智算业务存在如下挑战。

本文选自“”,对传统网络与智算网络、两层胖树、三次胖树及全面的分析对比,并介绍了组网最佳实践。


有阻塞网络:考虑到并非所有服务器都会同时对外产生流量,为了控制网络建设成本, Leaf 交换机的下联带宽和上联带宽并非按照 1:1 设计,而是存在收敛比。一般上联带宽仅有下联带宽的三分之一。

云内部流量时延相对较高:跨 Leaf 交换机的两台服务器互访需要经过 Spine 交换机,转发路径有 3 跳。

带宽不够大:一般情况下单物理机只有一张网卡接入 VPC 网络,单张网卡的带宽比较有限,当前较大范围商用的网卡带宽一般都不大于 200Gbps。

对于智算场景,当前比较好的实践是独立建一张高性能网络来承载智算业务,满足大带宽,低时延,无损的需求。

大带宽的设计

智算服务器可以满配 8 张 GPU 卡,并预留 8 个 PCIe 网卡插槽。在多机组建 GPU 集群时,两个 GPU 跨机互通的突发带宽有可能会大于 50Gbps。因此,一般会给每个 GPU 关联一个至少 100Gbps 的网络端口。在这种场景下可以配置 4张 2*100Gbps 的网卡,也可以配置 8 张 1*100Gbps 的网卡,当然也可以配置 8 张单端口 200/400Gbps 的网卡。


无阻塞设计

无阻塞网络设计的关键是采用 Fat-Tree(胖树)网络架构。交换机下联和上联带宽采用 1:1 无收敛设计,即如果下联有64 个 100Gbps 的端口,那么上联也有 64 个 100Gbps 的端口。

此外交换机要采用无阻塞转发的数据中心级交换机。当前市场上主流的数据中心交换机一般都能提供全端口无阻塞的转发能力。

低时延设计 AI-Pool

在低时延网络架构设计方面,百度智能云实践和落地了基于导轨(Rail)优化的 AI-Pool 网络方案。在这个网络方案中,8 个接入交换机为一组,构成一个 AI-Pool。以两层交换机组网架构为例,这种网络架构能做到同 AI-Pool 的不同智算节点的 GPU 互访仅需一跳。

在 AI-Pool 网络架构中,不同智算节点间相同编号的网口需要连接到同一台交换机。如智算节点 1 的 1 号 RDMA 网口,智算节点 2 的 1 号 RDMA 网口直到智算节点 P/2 的 1 号 RDMA 网口都连到 1 号交换机。

在智算节点内部,上层通信库基于机内网络拓扑进行网络匹配,让相同编号的 GPU 卡和相同编号的网口关联。这样相同GPU 编号的两台智算节点间仅一跳就可互通。

不同GPU编号的智算节点间,借助NCCL通信库中的Rail Local技术,可以充分利用主机内GPU间的NVSwitch的带宽,将多机间的跨卡号互通转换为跨机间的同GPU卡号的互通。


对于跨 AI-Pool 的两台物理机的互通,需要过汇聚交换机,此时会有 3 跳。


网络可承载的 GPU 卡的规模和所采用交换机的端口密度、网络架构相关。网络的层次多,承载的 GPU 卡的规模会变大,但转发的跳数和时延也会变大,需要结合实际业务情况进行权衡。

两层胖树架构

8 台接入交换机组成一个智算资源池 AI-Pool。图中 P 代表单台交换机的端口数。单台交换机最大可下联和上联的端口为P/2 个,即单台交换机最多可以下联 P/2 台服务器和 P/2 台交换机。两层胖树网络可以接入 P*P/2 张 GPU 卡。


三层胖树架构

三层网络架构中会新增汇聚交换机组和核心交换机组。每个组里面的最大交换机数量为 P/2。汇聚交换机组最大数量为 8,核心交换机组的最大数量为 P/2。三层胖树网络可以接入 P*(P/2)*(P/2)=P*P*P/4 张 GPU 卡。

在三层胖树组网中,InfiniBand 的 40 端口的 200Gbps HDR 交换机能容纳的最多 GPU 数量是 16000。这个 16000GPU 卡的规模也是目前 InfiniBand 当前在国内实际应用的 GPU 集群的最大规模网络,当前这个记录被百度保持。


两层和三层胖树网络架构的对比

可容纳的 GPU 卡的规模

两层胖树和三层胖树最重要的区别是可以容纳的 GPU 卡的规模不同。在下图中 N 代表 GPU 卡的规模,P 代表单台交换机的端口数量。比如对于端口数为 40 的交换机,两层胖树架构可容纳的 GPU 卡的数量是 800 卡,三层胖树架构可容纳的 GPU 卡的数量是 16000 卡。


转发路径

两层胖树和三层胖树网络架构另外一个区别是任意两个节点的网络转发路径的跳数不同。

对于同智算资源池 AI-Pool 的两层胖树架构,智算节点间同 GPU 卡号转发跳数为 1 跳。智算节点间不同 GPU 卡号在没有做智算节点内部 Rail Local 优化的情况下转发跳数为 3 跳。

对于同智算资源池 AI-Pool 的三层胖树架构,智算节点间同 GPU 卡号转发跳数为 3 跳。智算节点间不同 GPU 卡号在没有做智算节点内部 Rail Local 优化的情况下转发跳数为 5 跳。


典型实践

不同型号的 InfiniBand/RoCE 交换机和不同的网络架构下所支持的 GPU 的规模不同。结合当前已成熟商用的交换机,我们推荐几种物理网络架构的规格供客户选择。

Regular:InfiniBand 两层胖树网络架构,基于 InfiniBand HDR 交换机,单集群最大支持 800 张 GPU 卡。

Large:RoCE 两层胖树网络架构,基于 128 端口 100G 数据中心以太交换机,单集群最大支持 8192 张 GPU 卡。

XLarge:InfiniBand 三层胖树网络架构,基于 InfiniBand HDR 交换机,单集群最大支持 16000 张 GPU 卡。

XXLarge: 基于 InfiniBand Quantum-2 交换机或同等性能的以太网数据中心交换机,采用三层胖树网络架构,单集群最大支持 100000 张 GPU 卡。


Large智算物理网络架构实践

支撑上层创新应用和算法落地的关键环节之一是底层的算力,而支撑智算集群的算力发挥其最大效用的关键之一是高性能网络。度小满的单个智算集群的规模可达 8192 张 GPU 卡,在每个智算集群内部的智算资源池 AI-Pool 中可支持 512张 GPU 卡。通过无阻塞、低时延、高可靠的网络设计,高效的支撑了上层智算应用的快速迭代和发展。

XLarge智算物理网络架构实践

为了实现更高的集群运行性能,百度智能云专门设计了适用于超大规模集群的 InfiniBand 网络架构。该网络已稳定运行多年,2021 年建设之初就直接采用了 200Gbps 的 InfiniBand HDR 交换机,单台 GPU 服务器的对外通信带宽为1.6Tbps。

IT架构师/技术大咖的交流圈子,为您提供架构体系知识、技术文章、流行实践案例、解决方案等,行业大咖分享交流/同行经验分享互动,期待你的加入!扫码即可加入哦,随着材料不断增多社群会不定期涨价早加入更优惠

免责声明:

本公众号部分分享的资料来自网络收集和整理,所有文字和图片版权归属于原作者所有,且仅代表作者个人观点,与本公众号无关,文章仅供读者学习交流使用,并请自行核实相关内容,如文章内容涉及侵权,请联系后台管理员删除。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一天三四次!56岁大妈患上肛门癌,丈夫痛哭道:根本不知道有害

一天三四次!56岁大妈患上肛门癌,丈夫痛哭道:根本不知道有害

奇妙的本草
2024-09-27 19:00:03
打蛇不打头!很多人都不懂,野外遇到蛇千万别打头

打蛇不打头!很多人都不懂,野外遇到蛇千万别打头

西方寻史
2024-09-28 18:53:57
前脚炸烂真主党,后脚千里奔袭胡塞,看以色列打出个新世界

前脚炸烂真主党,后脚千里奔袭胡塞,看以色列打出个新世界

近距离
2024-09-30 10:02:10
交易戈贝尔!再见唐斯!NBA最疯狂球队诞生,华子没有退路

交易戈贝尔!再见唐斯!NBA最疯狂球队诞生,华子没有退路

世界体育圈
2024-09-29 11:42:55
哪些歌词一听就知道作词人文化水平不高?网友:我说寒山别哭…

哪些歌词一听就知道作词人文化水平不高?网友:我说寒山别哭…

阿康四岁啦
2024-09-29 12:36:39
看了袁弘的42岁生日宴,才明白张歆艺,为何离开宠她8年的王志飞

看了袁弘的42岁生日宴,才明白张歆艺,为何离开宠她8年的王志飞

我是娱乐哥
2024-09-28 10:48:23
中国科技大学教授杨子江:现在特斯拉自动驾驶已经比人开车更安全!自动驾驶里程数特斯拉远超其它车企总和

中国科技大学教授杨子江:现在特斯拉自动驾驶已经比人开车更安全!自动驾驶里程数特斯拉远超其它车企总和

和讯网
2024-09-29 11:07:57
后劲太大,《黑神话》通关之后痿了,玩其他游戏都不香了

后劲太大,《黑神话》通关之后痿了,玩其他游戏都不香了

街机时代
2024-09-30 10:23:02
郑钦文VS波多罗斯卡,开球时间敲定,央视独宠她,晋级奖金有多少

郑钦文VS波多罗斯卡,开球时间敲定,央视独宠她,晋级奖金有多少

体育大学僧
2024-09-29 13:24:26
“严重异常排队”!网易故意的?关于暴雪游戏回归的最新回应……

“严重异常排队”!网易故意的?关于暴雪游戏回归的最新回应……

证券时报e公司
2024-09-30 12:36:26
大陆终于“摊牌”?解放军就收台时间交底,国务院宣布一重大决定

大陆终于“摊牌”?解放军就收台时间交底,国务院宣布一重大决定

精英出鞘官方
2024-09-26 21:00:17
惨烈!突然倒塌!事发北京一小区!

惨烈!突然倒塌!事发北京一小区!

美丽大北京
2024-09-29 14:59:39
三峡工程钉子户张秉爱:1992年全村搬迁她不走,如今过得怎么样?

三峡工程钉子户张秉爱:1992年全村搬迁她不走,如今过得怎么样?

农村教育光哥
2024-09-29 10:50:49
拆开了这台38万公里的纯电车之后,油车车主沉默了...

拆开了这台38万公里的纯电车之后,油车车主沉默了...

老郭机械局
2024-09-29 19:34:52
中国两代主战坦克同时亮相北非沙漠!与美国M1坦克比拼,一点不怂

中国两代主战坦克同时亮相北非沙漠!与美国M1坦克比拼,一点不怂

虹摄库尔斯克
2024-09-28 20:35:38
刚刚明确:暴雨,大暴雨!“山陀儿”连升7级成为超强台风!路径又调整!

刚刚明确:暴雨,大暴雨!“山陀儿”连升7级成为超强台风!路径又调整!

FM93浙江交通之声
2024-09-30 10:07:54
我国新型涡轴发动机研制成功,直9获新生,弥补大批战舰反潜不足

我国新型涡轴发动机研制成功,直9获新生,弥补大批战舰反潜不足

笑谈历史阿晡
2024-09-28 11:44:29
有些正史,让人不寒而栗

有些正史,让人不寒而栗

最爱历史
2024-09-28 21:01:42
三亚一空姐被农村小伙子追求,嫁给他半年后,才知丈夫真实身份

三亚一空姐被农村小伙子追求,嫁给他半年后,才知丈夫真实身份

五元讲堂
2024-09-30 09:54:07
内部兵变,全城被包围!只有死路一条,突围失败几百人纷纷投降

内部兵变,全城被包围!只有死路一条,突围失败几百人纷纷投降

美人茶话会
2024-09-30 11:09:07
2024-09-30 13:08:49
IT架构师联盟
IT架构师联盟
IT架构实战分享
706文章数 7654关注度
往期回顾 全部

科技要闻

六大车企围殴特斯拉Model Y 自己先打起来

头条要闻

女子称儿子在夏令营遭体罚致横纹肌溶解:等于残疾了

头条要闻

女子称儿子在夏令营遭体罚致横纹肌溶解:等于残疾了

体育要闻

布云朝克特:男网又多了一只鹰

娱乐要闻

王楚然,悄无声息中成了年度大赢家

财经要闻

创业板指涨超11% 两市成交超1.66万亿

汽车要闻

焕新上市 全新凯迪拉克XT5售26.59万起

态度原创

数码
房产
教育
时尚
旅游

数码要闻

联芸科技亮相第三届GMIF2024创新峰会,探讨消费类SSD方案与应用

房产要闻

史诗级利好来了!三亚一天卖地28亿!中旅、城投纷纷下场!

教育要闻

“你该不会不会吧?”这么说,我到底要会还是不会呢?

早秋九分裤穿搭技巧,不同的搭配彰显不同气质,真的是百搭神器

旅游要闻

这个黄金周哪里最热闹?哪天最不挤? 一图看懂

无障碍浏览 进入关怀版