网易首页 > 网易号 > 正文 申请入驻

传DeepSeek绕过CUDA?业内人士称或为适配国产GPU做准备

0
分享至

尽管春节假期已经过半,但是“来自东方的神秘力量的 DeepSeek”仍在引起全世界热议,各路业内人士也仍在从不同角度分析 DeepSeek 的模型和技术文章。

韩国 Mirae Asset Securities Research 的一名分析师在 X 撰写长文分析称:“这一突破是通过实施大量细粒度优化和使用英伟达的汇编式 PTX 编程,而非通过英伟达 CUDA 中的某些功能来实现的。”

也就是说 DeepSeek 在研发大模型时绕过了 CUDA。CUDA(Compute Unified Device Architecture,统一计算架构),是由英伟达开发的一种通用编程框架,它允许开发者利用英伟达的图形处理器(GPU,Graphics Processing Unit)进行通用计算。

如果 DeepSeek 真的绕过了 CUDA,那么这能说明什么?围绕这一主题,DeepTech 采访了北京航空航天大学黄雷副教授。

对于程序开发人员来说,CUDA 好比是一种高级语言,开发者只需要专注于程序和算法最相关的运行逻辑,而不太需要考虑具体的程序是如何在 GPU 等硬件上具体如何执行计算的,从而能够降低开发难度。

举例来说,假如一个人会写汇编语言,虽然能非常高效地操作计算机,但是,汇编语言对于非专业出身的人员难度非常高,哪怕执行一个给变量赋值操作都需要好几条命令,并且还要了解寄存器、内存等计算机基础概念。

因此,开发者们纷纷转去使用高级语言进行编程。这时,要想实现同样操作,开发者只需使用一个变量赋值就可以。CUDA 便是为了方便开发基于 GPU 的算法设计的。

大模型开发商在使用英伟达的 GPU 的时候,一般是基于 CUDA 去做研发。使用 CUDA 的话对于开发者的要求较低,因为 CUDA 里面已经封装好一些函数,使用时直接调用接口就行,完全无需理会太多的细节,但是这样肯定会损失执行效率。

也就是说,CUDA 等于是给开发者框定好了一些常用东西所以具有通用性,这在容易使用的同时也会损失一些灵活性。譬如其设计的矩阵乘法算子,数据加载传输算子等,是深度学习开发者常用的算子,因此其在设计时会考虑通用性(即平均条件下最优)。

但对于有特定需求的 GPU 开发者来说,除了开发常用的能力之外,它还需要有更强大的能力,如比较精细地控制某个节点上某个 GPU 主要是用来干啥,以及如何精细化不同 GPU 之间传输数据、权重和梯度等,这在大模型这种要求多机多卡训练时比较常见。对于这些特定需求下的高效编程,CUDA 目前还未针对性设计一个高效的解决方案。

前面提到,由于 CUDA 是通用型编程框架,因此会损失一些灵活性。当仅仅使用单个 GPU 的时候,CUDA 的确非常适用。但是,当在不同节点使用多个 GPU 的时候,就需要在细粒度上实现更好的控制。

而在这时,如果依然使用 CUDA 那么在抽象层面的效率就会比较低。原因在于 CUDA 被设计得具备通用性,它要考虑到所有开发者的情况。假如一名开发者希望高效利用 CUDA 的性能,那就可以通过组合一些由 GPU 驱动提供的函数接口,来写出更高效的程序。

也就是说,如果一位开发者懂得更接近于底层硬件的编程,那么就可以直接调用硬件提供的接口,从而就能让大模型研发变得更加高效。与此同时,随着同类的开源通用编程框架的出现,人们觉得 CUDA 越来越“封闭”。而绕过 CUDA,可以直接根据 GPU 的驱动函数做一些新的开发,从而实现更加细粒度的操作。

譬如 DeepSeek 在多节点通信时绕过了 CUDA 直接使用 PTX(Parallel Thread Execution),其最多只能实现以算法的方式来高效利用硬件层面的加速。

当然,一旦速度变得更快,打个比方这就意味着别人家的模型要训练十天,而 DeepSeek 只需要训练五天,那么就能给模型喂更多的数据,即能让模型在同等时间内看到更多的数据,间接提高模型的效果。

事实上,绕过 CUDA 也并非一种新鲜做法。现在也有一些和 CUDA 对标的编程框架,如 Triton 并且其是开源的。此前北京智源研究院的相关研究人员也专门基于 Triton 去加速英伟达以及国产的 GPU,且也可以认为这是一种绕过了 CUDA 去调用 GPU 驱动提供的相关函数的做法。

以目前 AI 方向技术人员为例,通常在本科阶段基本上只会接触到基于深度学习框架(通常为 Python 语言)来训练神经网络,还不会直接接触到各类深度学习框架提供的用 C++ 来写 CUDA 相关的编程任务(有一些好学者或者有参与科研项目的人员有可能会利用 C++ 来写 CUDA 实现相关算法的提速)。

这些人员在工作以后有可能由于 AI 项目落地的需要,会接触到针对具体的硬件资源来适配模型的编程,但要绕过 CUDA 来写模型的训练算法,通常没有这样的需求。

但现在大模型的训练的确有这些需求,譬如由于这样或者那样的原因导致英伟达 GPU 算力短缺,逼得大模型训练人员考虑在有限得算力资源下,如何尽可能地高效利用算力。

在 DeepSeek-V3 的技术博文中,DeepSeek 表示其使用了英伟达的 PTX(Parallel Thread Execution)语言。

假如 DeepSeek 的开发者能够很好地使用 PTX(Parallel Thread Execution)语言,那么相比使用 CUDA 提供的编程接口,肯定可以更精细地控制 GPU 之间传输数据、权重和梯度等。但是,使用 PTX 写出来的代码非常复杂,且很难维护,因此需要专业度较高的开发者。

也就是说,绕过 CUDA 的做法具有一定的技术难度,这需要开发者既要懂 AI 模型的算法,又要懂计算机系统架构来高效分配硬件资源。如果没有同时掌握这两方面技能的开发者,那就要分别招聘懂这些技能的开发者,即需要协调好不同人员。

从 DeepSeek 的技术报告来看,其主体实现还是基于 CUDA 的相关接口,其描述中也阐述绕开了 CUDA 来写通信,那就意味着它招聘了掌握不同技能的人才,并能将这些人才很好地串了起来。

这也说明 DeepSeek 拥有一些擅长写 PTX 语言的内部开发者。那么,假如它之后使用国产 GPU,其在硬件适配方面将会更得心应手,其只要了解这些硬件驱动提供的一些基本函数接口,就可以仿照英伟达 GPU 硬件的编程接口去写相关的代码,从而让自家大模型更加容易适配国产硬件。

与此同时,从 DeepSeek 的技术报告来看,其技术从学术研究角度并没有胜出一筹,但是在工程上面的确非常有技巧。考虑到 AMD 已经宣布集成 DeepSeek-V3 到 MI300X GPU,因此未来不排除会有更多 GPU 厂商牵手 DeepSeek。

同时,也正如上述韩国分析师在同一篇 X 文章中所说的:“这凸显了 DeepSeek 非凡的工程水平,并表明美国对华制裁加剧的“GPU 短缺危机”激发了他们紧迫感和创造力。”

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明天四川盆地有雷雨、暴雨、大暴雨!

明天四川盆地有雷雨、暴雨、大暴雨!

掌上金牛
2026-05-20 09:16:07
好消息!上调至3.67%

好消息!上调至3.67%

幸福肥东
2026-05-19 14:56:40
郑强翻车:钢丝上走11年,终于掉下来了

郑强翻车:钢丝上走11年,终于掉下来了

霹雳炮
2026-05-19 23:01:58
海清自曝以第一名成绩考入北电,因班主任年仅二十五岁而心生怀疑

海清自曝以第一名成绩考入北电,因班主任年仅二十五岁而心生怀疑

小邵说剧
2026-05-14 07:49:11
不知天高地厚的高市早苗,终于扛不住了。

不知天高地厚的高市早苗,终于扛不住了。

林子说事
2026-05-20 17:28:18
42岁韩国演员李多海宣布怀孕喜讯,与崔东旭结婚3周年,婚后定居上海,能说一口流利的中文

42岁韩国演员李多海宣布怀孕喜讯,与崔东旭结婚3周年,婚后定居上海,能说一口流利的中文

大象新闻
2026-05-20 20:52:18
万万没想到,特朗普又立“大功”,大量顶尖人才被他“送回”中国

万万没想到,特朗普又立“大功”,大量顶尖人才被他“送回”中国

爱意随风起呀
2026-05-19 20:14:30
交大樊某被曝更多恶行!撒谎拉老师下水,中高考全保送,大有来头

交大樊某被曝更多恶行!撒谎拉老师下水,中高考全保送,大有来头

小鋭有话说
2026-05-19 17:23:10
为什么青藏高原被称为“抽水机”?没有它,江南水乡可能是片荒漠

为什么青藏高原被称为“抽水机”?没有它,江南水乡可能是片荒漠

半解智士
2026-05-20 13:23:04
新加坡悔透了:最不该放让他回国,18个月填平广东芯片制造鸿沟

新加坡悔透了:最不该放让他回国,18个月填平广东芯片制造鸿沟

混沌录
2026-05-18 22:45:06
最后冲NBA机会!郭昊文:月底试训一支NBA球队 下月试训3-4支

最后冲NBA机会!郭昊文:月底试训一支NBA球队 下月试训3-4支

醉卧浮生
2026-05-19 23:43:21
3次偷拍对手 圣徒被官宣剥夺附加赛决赛资格 无缘回英超+失上亿镑

3次偷拍对手 圣徒被官宣剥夺附加赛决赛资格 无缘回英超+失上亿镑

我爱英超
2026-05-20 06:57:50
张艺谋也没想到,养了27年的陈婷,竟会亲手摘掉张艺谋妻子的认证

张艺谋也没想到,养了27年的陈婷,竟会亲手摘掉张艺谋妻子的认证

混沌录
2026-05-14 15:58:14
日媒已得出结论:中国将成全球第1个,不需要引进任何武器的国家

日媒已得出结论:中国将成全球第1个,不需要引进任何武器的国家

徐慍解说
2026-05-19 18:20:08
云南4位男子被骗泰国!警方介入,求救信号曝光,熟人设局太可怕

云南4位男子被骗泰国!警方介入,求救信号曝光,熟人设局太可怕

领悟看世界
2026-05-20 01:15:30
哈萨克斯坦:放弃离中国近的阿拉木图,迁都到阿斯塔纳,为哪般?

哈萨克斯坦:放弃离中国近的阿拉木图,迁都到阿斯塔纳,为哪般?

闻识
2026-05-20 18:14:28
人民大会堂设计寿命多久?周总理:不能少于350年,如今才用65年

人民大会堂设计寿命多久?周总理:不能少于350年,如今才用65年

芳芳历史烩
2026-05-20 19:45:46
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
0-2!澳大利亚球员掩面而泣,U17男足庆祝方式曝光,太理智和冷静

0-2!澳大利亚球员掩面而泣,U17男足庆祝方式曝光,太理智和冷静

何老师呀
2026-05-20 06:56:19
听闻妻子癌症剩1个月生命,丈夫全家出国旅行,1个月后归国傻眼了

听闻妻子癌症剩1个月生命,丈夫全家出国旅行,1个月后归国傻眼了

娱乐洞察点点
2026-05-20 01:33:20
2026-05-20 21:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16725文章数 514970关注度
往期回顾 全部

科技要闻

一文看懂谷歌I/O2026:谷歌打响智能体大战

头条要闻

货车司机刚运出34吨面粉就遇大雨淋湿大半 面粉厂免赔

头条要闻

货车司机刚运出34吨面粉就遇大雨淋湿大半 面粉厂免赔

体育要闻

不再美丽的阿森纳,终于成为英超冠军

娱乐要闻

王菲“没事儿”,成年人学不来的松弛

财经要闻

白酒榜|汾酒营收净利双增 口子窖"造富"

汽车要闻

28项升级 新红旗HQ9上市 33.88万元起

态度原创

教育
艺术
家居
本地
旅游

教育要闻

我国被严重低估的3所大学,500多分就能上,毕业就业能完爆985!

艺术要闻

18幅 玫瑰花与女子画作

家居要闻

日常印记 静谧温馨

本地新闻

用云锦的方式,打开江苏南京

旅游要闻

向世界推介重庆!重庆文旅魅力“圈粉”友城

无障碍浏览 进入关怀版