网易首页 > 网易号 > 正文 申请入驻

英伟达发布Dynamo,向DeepSeek等中国开源生态致敬

0
分享至

DeepSeek挑起的模型价格战,冲击了市场对英伟达的信仰。黄仁勋的公开回击是,一边向DeepSeek、月之暗面与字节跳动等中国企业致敬,一边将其开源的优化思路,封装在自己的Dynamo中,促进创新的民主化。

黄仁勋将Dynamo称为AI工厂的操作系统。 ,这两年已经被黄仁勋说了无数遍,它是生产token的地方;DeepSeek出现后,黄仁勋要回答的是,自己如何比其他AI工厂,更有性价比地生产token。

黄仁勋试图证明杰文斯悖论成立,给出了一组简单粗暴的数据:推理模型的“思维链”消耗的token,是之前对话的10倍;但是人们不会愿意等这10倍的处理时间。所以,推理时代的AI算力需求提升了100倍。人们既要快速得到结果,又要结果准确。

他在台上反复说明,“既要又要”的最佳性价比,就藏在单位时间token吞吐能耗(下图,纵轴)和单用户推理速度(横轴)的最优函数中,也就是英伟达最新的Dynamo驱动的NVL72。他用一张五彩斑斓的黑的PPT,以及一段金光闪闪的曲线,标注了它的位置。


(来源:GTC25)

在正式介绍Dynamo前,黄仁勋直接致敬了DeepSeek。他让Llama-3.3-70B与DeepSeek-R1-671B比上一比,看谁能更合乎礼节地回答婚礼餐桌座位安排问题。前者花了439个token,但是错了;后者花了8559个token,正确。

黄仁勋引申说,有人以为R1小,它可不小,有6710亿参数规模呢,以后,这类模型可能达到万亿参数级别。要把如此庞大的模型和工作负载,合理分配到GPU上,中间涉及到流水线并行、张量并行和专家并行,可都不容易。有时候需要优化延迟,有时候需要优化吞吐量,有时候又需要对批处理方式进行优化。这都得靠一个叫做Dynamo的操作系统来协调。

这是对DeepSeek的第二次致敬。虽然黄仁勋在演讲中没有直接提到这一点,但是我们要说,任何关注 ,都会非常熟悉Dynamo的技术。

目前业内还没有对Dynamo实际性能的完整测评。据Github上的产品文档介绍,它的架构与特性,包括:

1,将预填充和解码推理分开处理,以最大化GPU吞吐量,同时平衡吞吐量和延迟。 2,动态调度GPU,根据需求变化优化性能。 3,智能路由大模型请求,避免重复计算KV缓存。 4,加快数据传输,通过NIXL缩短推理等待时间。 5,将KV缓存分担出去,利用多层内存提升系统吞吐量。

半导体及AI研究机构Semianalysis分析称:智能路由,实现了预填充阶段与解码阶段的负载平衡;动态调度GPU,实现了预填充和解码阶段的MoE模型不同专家间的负载平衡;要从预填充节点传输到解码节点,需要低延迟高带宽通信传输库,NCCL与NIXL就是负责这个的;KV缓存卸载管理,可以释放预填充节点的容量来处理更多传入数据量,或者可以减少所需的预填充部署规模。这些听起来是不是有些耳熟能详。

再来回顾一下,DeepSeek年初开源周都介绍了什么:

1,FlashMLA,针对可变长度序列和分页KV缓存进行优化的GPU解码内核。 2,DeepEP,面向MoE模型,优化了通信速度和效率。 3,DeepGEMM,兼顾数据精度的同时,提升矩阵乘法性能,间接支持推理效率。 4,DualPipe,双向数据流设计减少流水线空闲,提升GPU利用率。 5,EPLB,智能流量调度,确保混合专家负载均匀分布,降低通信开销。 6,Profile-data,分析计算与通信重叠状态,帮助优化效率。 7,3FS,高效数据访问和KV缓存管理的并行文件系统。

简言之,两者在优化GPU利用率、通信效率和数据处理的目标一致,思路相近。事实上,在英伟达Dynamo的产品文档上,确实点名提到了DeepSeek对KV缓存问题的贡献。

KV缓存是对之前发生过的问题和响应等中间结果的缓存。以往,大模型推理对KV缓存的管理不够精细,导致了频繁重复计算。这是对资源的浪费。 ,并在R1中进一步改进,极限压榨算力。在开源周中提到的FlashMLA与3FS,也都涉及KV缓存优化相关内容。

目前,DeepSeek对输入时缓存未命中的API定价(标准时间内,R1模型百万token为$0.55),要比命中时高出3倍左右(标准时间内,R1模型百万token为$0.14)。

在DeepSeek额外的第6天的开源日中,研究人员披露了更多运营数据。市场的注意力都被 吸引去了,选择性地忽略了DeepSeeK公布的KV缓存命中率高达56.3%。

可以说,优化KV缓存等技术创新,是DeepSeek开启大模型商品化的关键。更低的推理成本,既可以转化为AI应用的利润率,也可以通过AI应用厂商的让利,转化为AI应用的用户规模。

Semianalysis感叹道,英伟达推出Dynamo,本质上是DeepSeek技术创新的民主化。当英伟达发布更多Dynamo官方技术文档的时候,人们将更快更多地了解,这些技术创新究竟意味着什么。

不妨再往前推一步。DeepSeek是中国大模型时代开源的领先者,但不是唯一。阿里巴巴的Qwen系列模型已经成为HuggingFace上最受欢迎的。在DeepSeek的推动下,更多中国大模型企业正在加入到开源生态之中。


(来源:dynamo/docs/architecture.md at main · ai-dynamo/dynamo · GitHub)

在英伟达Dynamo的官方文档里,还有不少小彩蛋。Dynamo参考了另一家中国大模型初创企业在内存瓶颈方面的思考,以及字节跳动的开源项目。

其中,Mooncake,是月之暗面的底层推理服务平台,技术框架于去年12月开源。AIBrix,原本是字节跳动为企业内部多个业务用例打造的一款可扩展、经济高效的推理优化的云原生解决方案,于今年2月正式开源。

英伟达的芯片正在失去中国市场。中国开源生态与技术创新正在通过英伟达扩散至全球。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

AI的杰文斯悖论,离成立还差一个英伟达

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
英冠3强争霸!利兹联遭绝平丢榜首 -2分起步的谢菲联5轮不败登顶

英冠3强争霸!利兹联遭绝平丢榜首 -2分起步的谢菲联5轮不败登顶

直播吧
2025-03-30 11:10:25
上海百年医院确定整体搬迁 新址启用倒计时

上海百年医院确定整体搬迁 新址启用倒计时

王晓爱体彩
2025-03-29 09:55:14
李兆基去世13天,后事终有动静,天天找高僧超度,5米法船亮眼

李兆基去世13天,后事终有动静,天天找高僧超度,5米法船亮眼

刘森森
2025-03-29 20:25:50
希罗:我们打出了最好的状态 攻防两端都是如此

希罗:我们打出了最好的状态 攻防两端都是如此

北青网-北京青年报
2025-03-30 15:01:10
恭喜!郑钦文上上签,赛季首冠稳了

恭喜!郑钦文上上签,赛季首冠稳了

体育就你秀
2025-03-30 10:54:29
51岁刘恺威近照曝光!假发和眼袋出卖了年龄,上嘴唇薄到消失

51岁刘恺威近照曝光!假发和眼袋出卖了年龄,上嘴唇薄到消失

老鹈爱说事
2025-03-29 11:54:34
若不出意外,2025年下半年开始,大部分家庭可能面临“四大难题”

若不出意外,2025年下半年开始,大部分家庭可能面临“四大难题”

凡知
2025-02-28 15:05:46
上海女富婆夜店消费22笔,男模接连失踪,警方:发生关系就杀

上海女富婆夜店消费22笔,男模接连失踪,警方:发生关系就杀

悬案解密档案
2025-03-25 14:54:46
100吨活鳄鱼正被法院拍卖!400万元起,“需上门自提”

100吨活鳄鱼正被法院拍卖!400万元起,“需上门自提”

都市快报橙柿互动
2025-03-29 22:10:51
张朝阳建议一天吃2顿饭:中国人基因好 能活很久

张朝阳建议一天吃2顿饭:中国人基因好 能活很久

3DM游戏
2025-03-28 18:29:28
“台湾永远都不会是中国的一部分”,讲出这句话的人,被全网唾骂

“台湾永远都不会是中国的一部分”,讲出这句话的人,被全网唾骂

忠于法纪
2024-06-07 17:55:19
“中国公民尽快撤离”!中使馆紧急发文

“中国公民尽快撤离”!中使馆紧急发文

鲁中晨报
2025-03-29 07:16:06
承认吧,这7样东西,攒着攒着就变成了“垃圾”,你家有没有上榜

承认吧,这7样东西,攒着攒着就变成了“垃圾”,你家有没有上榜

平祥生活日志
2025-03-30 10:52:20
油价大跌超0.51元/升,跌到6元时代创新低的油价,4月2日或大涨

油价大跌超0.51元/升,跌到6元时代创新低的油价,4月2日或大涨

油价早知道
2025-03-30 00:30:50
A股:2个消息来临,股市,很可能要开启大级别的趋势了?

A股:2个消息来临,股市,很可能要开启大级别的趋势了?

财经大拿
2025-03-30 03:30:03
1-0!尤文换帅如换刀:莫塔下课后终结2连败,图多尔激活26岁铁卫

1-0!尤文换帅如换刀:莫塔下课后终结2连败,图多尔激活26岁铁卫

球场没跑道
2025-03-30 07:48:59
一个人活明白了,就会有以下几个表现

一个人活明白了,就会有以下几个表现

大禹小城
2025-03-27 13:25:32
乐嘉独自现身深圳海上世界吃饭,戴耳机和狗狗,外形没变有点落寞

乐嘉独自现身深圳海上世界吃饭,戴耳机和狗狗,外形没变有点落寞

振华观史
2025-03-29 21:51:01
王室大戏再升级:查尔斯三世入院,威廉哈里“集体失声”藏玄机!

王室大戏再升级:查尔斯三世入院,威廉哈里“集体失声”藏玄机!

全球奇趣娱乐八卦
2025-03-30 12:33:25
缅甸地震后最可怕的不是死伤人数,而是这些更可怕的问题!

缅甸地震后最可怕的不是死伤人数,而是这些更可怕的问题!

归史
2025-03-29 13:44:03
2025-03-30 15:27:00
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
67文章数 32关注度
往期回顾 全部

科技要闻

雷军:用户愿花50多万买小米汽车 超我想象

头条要闻

曾被视为第一任期重要政绩的协议 特朗普如今不认了

体育要闻

NBA初代老六,42岁进入生涯巅峰?!

娱乐要闻

绝望的文盲!赵露思又诠释这5个字

财经要闻

利率3%以下银行消费贷或被叫停

汽车要闻

比亚迪e7发预告图 或将主攻网约车市场

态度原创

旅游
家居
教育
时尚
艺术

旅游要闻

油菜花开 这些赏花方式请查收

家居要闻

注重细节 体现家庭概念

教育要闻

初中数学:求a的值?真没想到,解题方法可以这么简单

春天记得别这么穿卫衣!巨显胖!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法