网易首页 > 网易号 > 正文 申请入驻

AI Infra 现状:一边追求 10 万卡 GPU 集群,一边用网络榨取算力

0
分享至


作者 | Tina

云行业进入了生成式 AI 时代,除模型算法外,头部企业纷纷将大量精力投入到解决算力和互联问题上。然而,如果没有网络支持,计算的篇章就无法开启。

7 月 1 日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉 2.0 支持超 10 万卡大规模组网。借此机会,InfoQ 独家专访了腾讯云副总裁兼腾讯云网络总经理王亚晨,探讨了腾讯在改革算力互联方式方面的思考。

1 将整个数据中心变成一个“大芯片”?

前几天,百年风投机构 BVP 发布了一份云计算现状报告,副标题直接使用了这样一句话:“传统云已死,AI 云长存!(The Legacy Cloud is dead , long live AI Cloud!)”他们承认传统云仍然有重大发展机遇,但更震惊于 AI 带来技术变革加速,现如今我们已经很难找到一家不做 AI 的云计算企业了。该报告特别指出,“这是一场关键的‘地盘争夺战’,决定了未来几年哪些大型科技公司将在云和计算市场占据主导地位。”

AI 大模型靠的是大力出奇迹,注定了训练它的基础设施跟传统云不一样。

由于 AI 的大流行,数据中心也开始从以 CPU 计算为中心到以 GPU 计算为中心。在 CPU 环境中,大规模并行计算的任务可以被分割得很零散,以微信为例,虽然它也是一个庞大的业务,但它的任务是零散且琐碎的。每个用户和每个进程的任务都是不同的,因此可以将任务分散处理。然而,大模型不同,它依赖于强大的计算能力,通常使用 GPU 通过不同的模型或通信方式来处理同一个任务。大模型很难将任务分割得如此零散,希望开发下一代基础模型的企业就不得不投入越来越大的集群来对应挑战。


集群规模不断上涨,从千卡到千卡,再到十万卡,据王亚晨的描述,“去年大家都在谈论实现万卡集群,只在理论上讲如何实现十万卡。今年的情况有所不同,现在大家实际上已经在实践十万卡集群了。”

投入数以万计的 GPU,再通过网络将它们“粘合”起来,导致服务器的带宽接入比以前的服务器大了几十倍,网络设计也需要对应带宽的变化。以往云厂家的主流服务器通常以 100GB 带宽接入,而运营商的接入带宽可能更低。然而,两年前刚推出的 GPU 服务器带宽就达到了 800G 或 1.6T,甚至现在已经达到 3.2T。

大模型的训练和推理使得 GPU 卡之间的数据交换量非常大,因此要求数据中心的网络还要具备强大的处理能力。CPU 时代,通常情况下网络带宽利用率在 30% 到 40% 左右,不会让网络跑满,因为需要应对流量突发情况,比如春节或其他用户高峰情况。而当我们将 GPU 服务器做成一个很大的集群后,不再像以前那样以虚拟化单点运算为主,而是大量 GPU 服务器来共同处理一个任务。那么,对于 GPU 来说,由于当前的 AI 业务模型相对单一,尤其在大规模训练时,带宽利用率需要达到 90% 甚至更高,将带宽尽量撑满,GPU 一直忙着才能让训练效率更高。所以需要在硬件和网络协议各方面做出改变。

这些资源投入、物理设施和相关技术的巨大变化,使得大多数企业无法参与到竞争中来,王亚晨表示,“不是所有厂家都有能力卷大资源模型。”

由此可见,科技界并没有换人掌舵,反而成为云计算老将们的新战场。

2 集群算力瓶颈:“网络迭代速度没有算力增长速度快”

OpenAI 的 Jared Kaplan 在 2020 年首次提出了 Scaling Law,他指出模型大小和计算之间存在缩放关系。不少追随者认为,加以更多 GPU,投入更多数据,就能得到更好的智能。大量的计算意味着需要更大的计算集群,但实践中大家发现这并不简单。

第一个瓶颈是能耗,建设 10 万卡 GPU 集群大概需要 120 兆瓦甚至更多电力功耗。3.2 万卡曾被视为数据中心 GPU 数量的上限,一个说法是这是因为电网无法跟上 AI 发展带来的能源需求激增。

另外一个瓶颈是行业里运营手段需要提升。当你利用数万张 GPU,连续几十天不停地运行同一个任务时,可靠性和稳定性就成了重中之重。GPU 整个规模上去之后,GPU 故障率是逐渐上升的。

更重要的是,网络通信效率亟待提升。网络丢包、拥塞、时延都会导致集群利用率下降,有数据表明,1% 的丢包,GPU 利用率会下降 50%。所以,就算物理上建起来了一个 4 万、5 万、10 万的集群,但是真正能够带多大规模任务跑起来也需要逐步摸索和提升。怎么能够减少故障率,快速发现故障的同时能够让它快速恢复,让训练中断时间越短越好,这是确保大规模训练任务顺利进行的关键。

之前 Meta 也有过一个统计,在 AI 训练中网络通信时长占比平均占据了 35% 的时间(最高时 57%),一个直观的解释是:这等于花费数百万或数十亿美元购买的 GPU 有 35% 的时间是无所事事的。


这些年来,GPU 的迭代速度非常快,算力增长迅速。“网络迭代速度没有算力增长速度快,如何在网络速度相对滞后于 GPU 算力发展的情况下,确保 GPU 性能不降低,或者至少保持较强的发展势头,成为未来云基础设施在组网层面面临的一个重大挑战。”


为了能够把集群里 GPU 的性能发挥极致,腾讯这两年在网络里面,网络协议、网络软件、端网协同等各方面做了很多技术创新。

3 十万卡集群的网络技术壁垒,自研高性能网络

英伟达的网络连接主要有两种,实现卡间互联的 NVLinks,实现服务器间互联的 Infiniband。

InfiniBand 在 AI 训练低延迟网络领域拥有霸主地位,基于英伟达自己的一套协议,配合 GPU 运算特点自成一套体系。

虽然从以太网技术本身来讲,想超过 Infiniband 很难,但 infiniband 体系封闭,成本高昂。

早在两年前,腾讯就着手自研高性能网络。在大模型兴起之前,腾讯在广告场景中通过软件优化进行 AI 训练和推理时发现,以太网的性能可以达到与 Infiniband 相当的水平。

另外,InfiniBand 成本也比以太网技术高很多。在 HPC 和超大规模 AI 云市场中,网络占集群成本的 20% 或更多的情况并不少见。外媒 Nextplatform 根据英伟达的数据算了一笔账,如果你有 10 亿美元,那差不多需要分配 4 亿美元购买 16,000 台 H100 的 AI 服务器,还要再花 1 亿美元购买 Nvidia 的 InfiniBand 网络将它们全部连接在一起,剩下的 5 亿美元用于建设数据中心,并在四年内运营、供电和冷却。相比之下,用以太网来建设的成本基本不会超过以上金额的 10%。

“基于这几个因素,我们才敢在大模型出现时,选择以太网,并通过自研的方式来解决网络问题。”

如何用以太网技术解决拥塞问题,尤其是在拥塞时不丢包,这是星脉团队首先要解决的问题。

早期业界没有其他标杆,只能参照英伟达的 Benchmark。以此为基准,腾讯将星脉 1.0 在网络指标上提升至与 Infiniband 相同的水平,并努力做到更优。

Benchmark 里面有几个关键数据,第一个是训练过程中的通信时长占比,7%、8% 是目前业界较为领先的水平。而星脉团队将星脉的通信时长占比做到了 6%,这实际远低于 10% 的业界水平。

另一个很关键的是网络负载率,星脉优化到 90%,与 IB 网络(Infiniband)持平,相较于标准以太网提升 60%。

除了组网技术,更大的壁垒则转向了端网协同能力和运营能力上。这些壁垒,在自研以太网基础上,显然更灵活更容易实现。

星脉本身有一套自研协议。通过高性能通信库 TCCL,星脉能看到网络拓扑,能知道什么路径最短。路径最短,拥塞也会变少,丢包概率也会降低。通过自研端云协同协议 TiTa,星脉可以在网络拥塞的时候,将流量做调度,不会产生丢包,也能让网络负载跑得更均匀。

以前是依靠软件库与网络的配合,星脉进一步的在网卡层面与整个网络形成一个闭环的控制能力,这样可以实现更好的拥塞控制算法。

而快速定位和解决问题的运营能力,也能够在基础设施层面形成另一个非常强的差异化。星脉可以快速感知网络质量,定位因网络问题导致的训练中断等问题,故障时间在整个训练时间中的占比已经降到了一个相对较低的水平。

如今,这一决策被证明是正确的。英伟达最近也推出了自家的以太网解决方案,搭配网卡使用,其思路与腾讯的星脉 2.0 不谋而合。

行业里实际也已经有了不少使用以太网的企业,比如 Meta 的训练 Llama 3 的集群,一半使用的是 Infiniband,一半是以太网,并且他们宣称以太网集群的性能不比 Infiniband 差。

国内腾讯和阿里则都是纯以太网。这些企业也都加入了 Linux 基金会发起的超级以太网联盟 UEC(Ultra Ethernet Consortium),到今年 3 月总共有 55 家公司参与,共同为 AI 发展构建完整的基于以太网的通信堆栈架构。

4 从星脉 1.0 到星脉 2.0 的进阶:在工程上支持 10 万卡

腾讯最早于 2022 年就开始做星脉研发,当时主要是用于广告大模型训练。这个时间点比 OpenAI 推出 chatGPT 还要早上半年。也正是因为有了技术储备,所以能在初期快速构建起星脉 1.0,并将带宽利用率做到 90%,做到无丢包,保证算力不损失,另外还达到了极低时延的要求。

在这个背景下,星脉 1.0 实现了单个服务器 3.2T 的接入带宽,业界第一次提出多轨道大规模组网,让集群组网规模更大。同时打造了初步的运营系统平台,主要解决了应用系统中的网络上监控和故障修复问题。

星脉 2.0 则希望在工程上实际支持 10 万卡,实现训练推理一体化,进一步去解决推理的成本效率问题。


星脉 2.0 引入了自研交换机、自研光模块、自研网卡三套新的硬件。其中,网络交换芯片由 25.6T 升级到 51.2T, 这样对应的整个组网规模就会翻倍。

另一个重要方面是星脉 2.0 首次在业内采用了自研的 400G 单口硅光芯片。这一创新的最大特点在于显著降低了能耗、模块能耗以及成本。

为了解决 10 万卡集群的性能瓶颈问题,需要实现端和网的协同。因此,除了商业网卡,星脉也首次引入了自研的算力网卡,与自研的软件系统相结合,大幅提升整体性能。

在硬件层面,星脉 2.0 延续了多轨道设计,并且每个节点的容量都升级了,这样就足够支持到十万卡的集群规模的组网。同时未来也能满足 SORA 这种模型架构需要的在网计算(也叫算力卸载)能力。

在软件层面,TCCL 从路径规划变为了自适应性能加速,并打通了异构并行计算中的卡间互联网络,从而能够将 NVLinks 以及星脉两种网络在同一个任务中用起来:当机内带宽不足时,可以将外部带宽用起来,利用外部带宽弥补内部卡间互联速率的不足,同时也能够感知两种网络拓扑的使用状态,这种方式能让通信性能提升约 30%。

TiTa 在 1.0 阶段,拥塞发生后才会进行调整,而在 2.0 阶段,通过主动干预速度以避免发生拥塞。通过协议和硬件的端到端配合,可以有效地控制传输速率,使得网络从可能会产生拥塞但不会丢包,转变为根本不会产生拥塞的网络。目前来看,这种端网结合也是业界非常重要的发展方向。通过这种方式,能将通信性能再提升 30%,集群训练时长降低 10%。

另外,星脉 2.0 的运营系统也进行了升级,引入了仿真系统的概念。在训练过程中,在 GPU 训练中某个卡出了问题,或运算效率突然变慢,是经常出现的问题。尤其是变慢的这种情况下,服务器是不会没有报故障的,因为节点失速并不是故障。新的运营系统可以通过仿真模拟,再结合实际训练过程中产生的日志进行对比,就能知道到底这次训练中哪些 GPU 它到底是失速了,还是有故障节点了,然后快速找出这些节点,进行干预。在实践中,运营系统的升级能将训练问题定位时长从数小时缩短到 10 分钟内。

如今星脉在整个系统的层面上也形成了自己的独特优势,包括 GPU 拓扑感知能力、网络仿真系统能快速定位慢失速节点的能力。

现在这个技术体系不仅能十万卡集群的真正跑起来,还能做到更精细化运营,整体网络通信效率比上一代提升 60%,让大模型训练效率提升 20%。这意味着,如果原来训练中某个计算结果的同步需要花 100 秒完成,现在只需要 40 秒;原来需要花 50 天训练的模型,只需要花 40 天。

5 实现“算力供需平衡”的愿景

星脉网络作为底层技术支撑了腾讯混元大模型训练。今年,混元大模型的参数规模更是突破了万亿级别,而企业微信、腾讯会议及腾讯文档等都部署了生成式 AI 功能。过程中遇到各种问题,比如训练中断,星脉网络都能凭借强大的技术和稳定的性能,轻松应对。

现在,基础大模型还在卷,还在发展,GPT5 也将很快发布。各种应用也开始出现,这些都需要大量算力。大家希望未来算力要像电力一样无处不在,但现在算力短缺是整个人工智能行业面临的一道难题。

为应对算力紧缺,OpenAI 今年还出台计划,打算耗资 1150 亿美元,打造星际之门(Stargate)来支持大模型的发展。只是,除了不断扩张数据中心数量和规模之外,我们也应该有足够的技术去“榨取”已有 GPU 资源中的算力。

“我觉得未来算力供需要达到相对变化的平衡,很重要一点是能够提升 GPU 算力调度和利用率来缓解相应压力。我们也在讲算力网络,算力网络本身来讲就想让我们的算力调度能力以及算力利用率能够长的更好。”

“我们一直有一个愿景,希望算力网络能为大家提供服务,让大家‘用得更快,用得更好,用得更稳’。用得更快指的是算力调度、建设交付和供应响应更快,让大家能够第一时间获取所需资源。用得更好则是指性能更佳,体现在 GPU 利用率、网络各种指标和负载率等方面,性能达到最佳。用得更稳是指运营质量高,不出问题,或在出问题时能够快速定位和恢复,让运营更稳定。”

AICon 全球人工智能开发与应用大会,为资深工程师、产品经理、数据分析师等专业人群搭建深度交流平台。汇聚 AI 和大模型超全落地场景与最佳实践,期望帮助与会者在大模型时代把握先机,实现技术与业务的双重飞跃。在主题演讲环节,我们已经邀请到了「蔚来创始人 李斌」,分享基于蔚来汽车 10 年来创新创业过程中的思考和实践,聚焦 SmartEV 和 AI 结合的关键问题和解决之道。大会火热报名中,7 月 31 日前可以享受 9 折优惠,单张门票节省 480 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西方意识到可怕后果:若是中国愿意,可能让美军连仗都打不下去?

西方意识到可怕后果:若是中国愿意,可能让美军连仗都打不下去?

盒子里的密探
2024-07-06 21:58:09
民营企业与重庆北碚殡仪馆协议合伙经营60年,15年后企业代表被强制驱逐,双方对簿公堂

民营企业与重庆北碚殡仪馆协议合伙经营60年,15年后企业代表被强制驱逐,双方对簿公堂

极目新闻
2024-07-07 17:52:33
德转统计梅罗罚点数据:梅西154个罚丢33个,C罗206个罚丢32个

德转统计梅罗罚点数据:梅西154个罚丢33个,C罗206个罚丢32个

直播吧
2024-07-07 15:01:06
医生们为小学生4分错题“联名上书”,承载着“不套标准答案”的教育期待

医生们为小学生4分错题“联名上书”,承载着“不套标准答案”的教育期待

极目新闻
2024-07-07 13:05:18
钓鱼网红周翠翠夫妻溺水去世,朋友:两口子人很好,他们有两个年幼的女儿

钓鱼网红周翠翠夫妻溺水去世,朋友:两口子人很好,他们有两个年幼的女儿

极目新闻
2024-07-07 17:41:22
消息传来:喝农药的女大学生已身亡!生前曾下跪道歉!

消息传来:喝农药的女大学生已身亡!生前曾下跪道歉!

鲁中晨报
2024-07-07 09:51:07
7月7日俄乌最新:普京急于和谈?

7月7日俄乌最新:普京急于和谈?

西楼饮月
2024-07-07 15:02:24
2024年起,存款超过100万的家庭,将不得不面临4大难题

2024年起,存款超过100万的家庭,将不得不面临4大难题

老赵说房指南
2024-07-06 17:18:55
江青被捕后,组织问贺子珍有何要求,她说出了深埋30年的心愿

江青被捕后,组织问贺子珍有何要求,她说出了深埋30年的心愿

传说中的铲史官
2024-07-07 11:30:03
外国网红爆料内幕称:外国人根本不喜欢中餐,只是为流量逢场作戏

外国网红爆料内幕称:外国人根本不喜欢中餐,只是为流量逢场作戏

影孖看世界
2024-07-06 18:37:55
83万中医药大学遭遇就业难,本质上是为过去30年的错误做法买单

83万中医药大学遭遇就业难,本质上是为过去30年的错误做法买单

朗威谈星座
2024-07-07 15:42:35
历史进入垃圾时间,多数人的命运会“均值回归”!

历史进入垃圾时间,多数人的命运会“均值回归”!

鹿和犀
2024-07-06 20:32:58
飞机起飞,4名旅客被“遗忘”在贵宾室!东航致歉

飞机起飞,4名旅客被“遗忘”在贵宾室!东航致歉

都市快报橙柿互动
2024-07-07 15:44:46
美媒曝外国雇佣兵在乌克兰杀害俄战俘,扎哈罗娃指责基辅,俄称将调查

美媒曝外国雇佣兵在乌克兰杀害俄战俘,扎哈罗娃指责基辅,俄称将调查

环球网资讯
2024-07-07 17:31:34
上海徐家汇最高气温冲上39.6℃,建议尽量避免户外活动

上海徐家汇最高气温冲上39.6℃,建议尽量避免户外活动

澎湃新闻
2024-07-07 14:56:28
我不担心西方跟中国完全脱钩,因为很多中国老百姓在为他人做嫁衣

我不担心西方跟中国完全脱钩,因为很多中国老百姓在为他人做嫁衣

世态言凉
2024-07-06 09:53:53
当一个现代村落成为洪水中的孤岛

当一个现代村落成为洪水中的孤岛

上观新闻
2024-07-07 17:17:15
男篮第一控卫加盟广东队!再见了,徐杰!杜锋正式迎来最强一号位

男篮第一控卫加盟广东队!再见了,徐杰!杜锋正式迎来最强一号位

绯雨儿
2024-07-07 14:30:38
刘德华女儿首次公开露面,同妈妈看爸爸演出,高鼻梁大眼睛很漂亮

刘德华女儿首次公开露面,同妈妈看爸爸演出,高鼻梁大眼睛很漂亮

番茄说史聊
2024-07-07 16:12:50
最新宣布:上海浦东先开始!无人驾驶出租车免费试乘启用,路线直通浦东机场,这样呼叫→

最新宣布:上海浦东先开始!无人驾驶出租车免费试乘启用,路线直通浦东机场,这样呼叫→

上观新闻
2024-07-07 14:40:57
2024-07-07 19:52:49
InfoQ
InfoQ
有内容的技术社区媒体
9981文章数 50321关注度
往期回顾 全部

科技要闻

临时加关税 欧版"元PLUS"成本涨近8000欧元

头条要闻

女子在云南吃"见手青"中毒送医 1个多月后仍视力模糊

头条要闻

女子在云南吃"见手青"中毒送医 1个多月后仍视力模糊

体育要闻

转发这篇索斯盖特,你也能运气爆棚!

娱乐要闻

49岁林志玲在日本带娃被偶遇

财经要闻

齐创阶段新高 一线城市楼市又可以了?

汽车要闻

18.98万起 宝马新电动MINI COOPER上市

态度原创

亲子
旅游
家居
公开课
军事航空

亲子要闻

他打开手的那一刻,我小脑萎缩了,现在的小孩哥都这么猛吗?

旅游要闻

外国游客热门入境城市榜单出炉

家居要闻

自然韵律 木质家居的宁静美学

公开课

连中三元是哪三元?

军事要闻

被传"离开俄罗斯"的俄前副防长舍夫佐娃现身 否认传闻

无障碍浏览 进入关怀版