网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源周Day 2: DeepEP——解锁MoE模型通信瓶颈

0
分享至

作者|周一笑
邮箱|zhouyixiao@pingwest.com

DeepSeek开源周day2正式发布:DeepEP。

昨天的FlashMLA着眼于解决计算性能瓶颈,而今天发布的DeepEP则将目光投向了MoE模型训练与推理中的另一个关键环节——通信。DeepEP是一个面向MoE模型训练与推理的开源EP通信库,专门针对Hopper GPU(未来可能支持更多架构或设备)优化通信效率。

DeepSeek官方总结的DeepEP主要特点包括:

  • 高效优化的全对全通信

  • 通过 NVLink 和 RDMA 实现节点内与节点间支持

  • 用于训练和推理预填充的高吞吐量内核

  • 低延迟推理解码内核

  • 原生 FP8 调度支持

  • 计算与通信重叠的灵活 GPU 资源控制

在MoE模型中,由于专家数量众多且分布在不同设备上,专家之间的通信效率直接影响到整个模型的训练和推理速度。因此,一个高效的通信库对于MoE模型至关重要。

EP通信库,通常指的是用于高效数据传输和通信的协议或库,特别是在分布式计算环境中。在EP(Expert Parallel)模式是一种并行计算策略,能够有效地处理巨大的计算负载。

在使用MoE(Mixture of Experts)模型时,EP通信库可以帮助在不同设备之间实现专家并行,使每个设备只需处理其所负责的专家,从而减轻了单个设备的负担。

从 GitHub 页面提供的描述来看,DeepEP就像是为前面提到的专家团队提供了一种超快的“信使服务”,让这些专家之间的通信尽可能快速。

它优化了速度和效率,支持低精度操作如 FP8,这是一种计算更快但精度稍低的数字表示方式,类似于用更简单的工具完成任务。它还针对特定的硬件连接(如 NVLink 和 RDMA)进行了优化,这些是 GPU 之间的高速通信方式,确保在大规模 AI 项目中通信效率最高。

想象你有一个很大的团队,每个成员(我们称之为“专家”)负责不同的任务,比如一个擅长写文章,另一个擅长算数学。这些专家分布在不同的电脑上,使用强大的处理器叫 GPU。DeepEP 就像一个超级快的信息传递系统,让这些专家能快速分享数据,确保团队合作顺利。

具体来看,DeepEP包括以下关键功能:

正常内核: 用于训练和推理预填充,支持对 Streaming Multiprocessor (SM) 数量的控制。SM 是 GPU 执行 CUDA 内核的部分,控制其数量可以优化性能。

低延迟内核: 针对延迟敏感的推理解码,使用纯 RDMA(远程直接内存访问)技术,并采用基于钩子的通信-计算重叠方法,不占用 SM 资源。这对于实时应用(如语言模型的逐 token 生成)尤为重要。

低精度支持: 支持 FP8 操作,FP8 是一种 8 位浮点格式,相比标准 FP32(32 位)计算更快,内存占用更少。这在大型模型中尤为关键,可以显著提高效率。

硬件优化: 针对非对称域带宽转发(如 NVLink 到 RDMA 域)进行了优化,符合 DeepSeek-V3 论文中提到的组限制门控算法。NVLink 和 RDMA 是 GPU 之间的高速互连方式,优化这些连接可以充分利用硬件性能。

性能方面,在实测中,DeepEP在H800上4096个token同时处理的场景下,达到了153GB/s的传输速度,接近硬件理论极限(160GB/s)。

具体来看,正常内核性能(NVLink 和 RDMA,H800,CX7 InfiniBand 400 Gb/s,DeepSeek-V3/R1 预训练:4096 tokens/batch,7168 hidden,top-4 groups,top-8 experts,FP8 dispatch,BF16 combine):

低延迟内核性能(纯 RDMA,H800,CX7 InfiniBand 400 Gb/s,DeepSeek-V3/R1 生产:128 tokens/batch,7168 hidden,top-8 experts,FP8 dispatch,BF16 combine):

DeepEP项目描述还提到,实施可能与 DeepSeek-V3 论文略有不同,表明DeepEP可能是一个独立开发但与DeepSeek-V3 密切相关的工具,专门处理通信优化。

总的来看,DeepEP 的价值主要体现在以下几个方面:

效率提升:通过优化通信,减少训练和推理所需的时间和计算资源。例如,低延迟内核通过通信-计算重叠方法不占用 SM 资源,适合实时推理。

可扩展性:其设计支持大规模 GPU 集群,适合处理参数量巨大的模型,如 DeepSeek-V3 的 671B 参数。

成本降低:高效通信减少了 GPU 使用时间,降低训练成本,这在 AI研究中尤为重要。

创新潜力:作为通信库的创新,DeepEP 可能影响未来硬件设计,如论文中建议的 NVIDIA SHARP 协处理器或统一 IB 和 NVLink 网络。

综合来看,DeepEP通过一系列创新性的设计和优化,显著提升了MoE模型训练和推理过程中的通信效率,为大模型的发展带来了新的可能性。如此强大的功能,使得DeepEP在发布后立即引发了业界的广泛关注。

DeepEP发布短短几个小时,从X上的评论看,受到了广泛的积极评价。许多评论者对 DeepEP 的高效通信和支持低精度操作(如 FP8)印象深刻,称其为“开源工具的伟大发布”。也有用户称赞赏DeepSeek使用 NVLink 和 RDMA 的精确优化。

赛科传媒的CEO梁赛告诉硅星人:今天DeepEP这个发布,适用于Hopper架构GPU从训练到推理的全流程加速,相当于在给全世界的大模型训练提速,有利于大模型自身的进化演变;同时也在给大模型的推理提速,能进一步催生出更多的应用。

DeepSeek开源周day one的FlashMLA让推理训练更快了,今天的DeepEP直接加速MoE通信,接下来DeepSeek可能继续覆盖训练、数据处理或部署的各个环节,继续让开源技术惠及全世界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“杨梅第一大省”浙江多地主要领导为本地杨梅“站台”

“杨梅第一大省”浙江多地主要领导为本地杨梅“站台”

澎湃新闻
2026-05-28 18:30:26
江苏如东岔河镇一润滑油企业突发火灾,官方通报无人员伤亡 目击者:浓烟已逐渐散去

江苏如东岔河镇一润滑油企业突发火灾,官方通报无人员伤亡 目击者:浓烟已逐渐散去

红星新闻
2026-05-28 20:17:23
杭州女子征婚:不要彩礼,时间不能短于5分钟,每月给男人3000元

杭州女子征婚:不要彩礼,时间不能短于5分钟,每月给男人3000元

谭谈社会
2026-05-28 18:34:27
幸运星+全焦段4K Live!荣耀600 Pro深度评测:3K-4K元档拍照神机

幸运星+全焦段4K Live!荣耀600 Pro深度评测:3K-4K元档拍照神机

IT168
2026-05-25 20:35:59
南航股份公司总工程师李志刚被查

南航股份公司总工程师李志刚被查

新京报
2026-05-28 15:06:07
A股:紧急提醒2.5亿股民!从5月29日起,明天A股或将历史再次重演?

A股:紧急提醒2.5亿股民!从5月29日起,明天A股或将历史再次重演?

趋势清风侠
2026-05-28 18:20:07
AI 产业迎来了自己的 “集装箱时刻”

AI 产业迎来了自己的 “集装箱时刻”

晚点LatePost
2026-05-27 12:41:09
荷兰军舰硬闯中国西沙!穿越13000公里来挨揍,解放军操作太解气

荷兰军舰硬闯中国西沙!穿越13000公里来挨揍,解放军操作太解气

菁菁子衿
2026-05-28 12:47:07
巴西宣布内马尔腿伤缺阵2-3周 基本无缘世界杯首战 或被临阵替换

巴西宣布内马尔腿伤缺阵2-3周 基本无缘世界杯首战 或被临阵替换

我爱英超
2026-05-28 20:42:00
特朗普,“大锤”落下

特朗普,“大锤”落下

中国新闻周刊
2026-05-28 20:17:56
亏损超62亿,一代空调大王爆雷!

亏损超62亿,一代空调大王爆雷!

蒋东文
2026-05-26 21:05:52
卡鲁索有望竞争西决MVP!名记:伊戈达拉FMVP剧情或重演

卡鲁索有望竞争西决MVP!名记:伊戈达拉FMVP剧情或重演

罗说NBA
2026-05-28 14:59:19
20万飞天茅台必须搭售40万黔茅酒,企业老板受邀参加“茅台合作峰会”后怒斥被耍

20万飞天茅台必须搭售40万黔茅酒,企业老板受邀参加“茅台合作峰会”后怒斥被耍

潇湘晨报
2026-05-28 12:47:31
炼出来一堆废铁:1958年全民大炼钢铁,究竟炼掉了什么?

炼出来一堆废铁:1958年全民大炼钢铁,究竟炼掉了什么?

浪子说
2026-05-28 00:05:03
注意了!印度来华人数飙升,深圳是最受欢迎城市,评论区全是担忧

注意了!印度来华人数飙升,深圳是最受欢迎城市,评论区全是担忧

谭谈社会
2026-05-28 11:41:20
四川一彩民花18元中2576万元大奖!店主:中奖者常年外出打工,是老客户,偶尔买彩票,号码都是自己选

四川一彩民花18元中2576万元大奖!店主:中奖者常年外出打工,是老客户,偶尔买彩票,号码都是自己选

三湘都市报
2026-05-28 18:53:47
河南南阳一男子突发脑梗住进养老院,女友想结婚照顾男方,被其亲属拒绝:我们兄弟姐妹凑20万给他做手术照顾他,现在他很好,女子不靠谱

河南南阳一男子突发脑梗住进养老院,女友想结婚照顾男方,被其亲属拒绝:我们兄弟姐妹凑20万给他做手术照顾他,现在他很好,女子不靠谱

三湘都市报
2026-05-28 12:56:06
彻底社死!女子白嫖外卖出圈,海外播放量超2000万,已被公司处理

彻底社死!女子白嫖外卖出圈,海外播放量超2000万,已被公司处理

青梅侃史啊
2026-05-27 14:28:37
FBI逮捕CIA高官:家中搜出303根金条、200万美元现金、30多块名表

FBI逮捕CIA高官:家中搜出303根金条、200万美元现金、30多块名表

红星新闻
2026-05-28 11:05:10
曾饰演裘千尺,91岁罗兰谈没在TVB工作了:超龄,公司不再续约

曾饰演裘千尺,91岁罗兰谈没在TVB工作了:超龄,公司不再续约

红星新闻
2026-05-28 18:10:02
2026-05-28 22:11:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先进入GenAl。
282文章数 42关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

新款吉利星愿6.18万起售 一镜到底寻找爆款密码

态度原创

数码
旅游
房产
教育
公开课

数码要闻

618装机最后一环,这台1899元的2K 380Hz电竞屏把FPS体验拉满了

旅游要闻

山东文旅报道|与辉同行山东行:赴好客之约 享好品之盛

房产要闻

突发重磅!三亚新机场公司正式成立!

教育要闻

满老师把"压箱底"的升学数据公开了!近万份报告随便查,腾讯ima内测

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版