网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源第三弹!极致榨干GPU,FP8训推秘籍公开

0
分享至


智东西
作者 ZeR0
编辑 漠影

智东西2月26日报道,刚刚,DeepSeek开源周第三弹发布——DeepGEMM,一个支持密集和MoE GEMM的FP8 GEMM库,为V3/R1训练和推理提供动力。

  • ⚡ Hopper GPU上性能高达1350+ FP8 TFLOPS
  • ✅ 没有过多的依赖,像教程一样干净
  • ✅ 完全JIT即时编译(安装不用预编译)
  • ✅ 极简设计:核心逻辑约为300行– 在大多数矩阵大小上都优于专家调整的kernels
  • ✅ 支持密集(Dense)布局两种MoE布局


GitHub:https://github.com/deepseek-ai/DeepGEMM

眼尖的网友已经在项目贡献者名单中捕捉到了一个“Liang”,并在DeepSeek推文评论区发问:“是梁文锋(DeepSeek创始人)吗?”


DeepGEMM是一个专为干净、高效的FP8通用矩阵乘法(GEMM)而设计的库,具有细粒度扩展功能,如DeepSeek-V3中所述。它支持普通和混合专家(MoE)分组GEMM。该库用CUDA编写,在安装过程中无需编译,而是使用轻量级即时(JIT)模块在运行时编译所有kernel。

根据DeepSeek晒出的数据,普通GEMM(密集模型)中矩阵运算可提速多达2.7倍,分组GEMM(MoE模型)中连续性布局、掩码布局下可提速多达1.2倍

目前,DeepGEMM仅支持英伟达Hopper Tensor Core。为了解决不精确的FP8 Tensor Core累积问题,它采用了CUDA核心两级累积(提升)。

虽然它利用了CUTLASS和CuTe的一些概念,但它避免了对其模板或代数的过度依赖。相反,该库的设计非常简单,只有一个核心kernel函数,包含大约300行代码。这使其成为学习Hopper FP8矩阵乘法和优化技术的干净且易于访问的资源。

尽管DeepGEMM设计轻量,但其性能却与各种矩阵形状的专家调整库相当或超过后者。

DeepSeek在搭载NVCC 12.8的H800上测试了DeepSeek-V3/R1推理中可能使用的所有形状(包括预填充和解码,但没有张量并行性)。所有加速指标都是与其基于CUTLASS 3.6的内部精心优化的实现进行比较计算的。

DeepGEMM在有些形状上的表现并不是很好,因此DeepSeek欢迎开发者来优化PR。在普通GEMM(密集模型)中,矩阵运算最高提速达到2.7倍。


在分组GEMM(MoE模型)中,连续性布局、掩码布局下速度可提升1.1倍~1.2倍。


DeepGEMM一发布,DeepSeek的推文评论区好评如潮。有人为英伟达股票发愁:


有人热情夸赞新代码库和DeepSeek工程师:







DeepSeek分享了清晰的上手指南,需要Hopper架构GPU、必须支持sm_90a,要求是Python 3.8、CUDA 12.3、PyTorch 2.1、CUTLASS 3.6或更新版本。DeepSeek强烈推荐CUDA 12.8或更高的版本以获得最佳性能。



安装:


将deep_gemm导入Python项目,就可以开始享用了。

这个代码库仅包含GEMM kernel。它要求LHS扩展因子进行TMA对齐和转置,并且仅支持NT格式(非转置LHS和转置RHS)。对于转置或其他FP8转换操作,需单独实现或将它们融合到先前的kernel中。虽然该库提供了一些简单的PyTorch实用函数,但这些函数可能会导致性能下降。DeepSeek的主要重点是优化GEMM kernels本身。

除了kernel外,该代码库还提供了一些实用函数和环境变量。

DeepSeek用表示CUTLASS中排除的技术。按照CUTLASS设计,DeepGEMM中的内核经过了warp专门化,可实现重叠数据移动、张量核心MMA指令和CUDA核心提升。下图是说明此过程的简化图:

1、Hopper TMA功能

张量内存加速器(TMA)是Hopper架构引入的一项新硬件功能,旨在实现更快、异步的数据移动。具体来说,DeepSeek利用TMA来实现以下目的:

  • LHS、LHS扩展因子和RHS矩阵的TMA负载
  • TMA存储输出矩阵
  • TMA multicast组播(LHS矩阵独有)
  • TMA描述符预取

2、常见细节优化

  • 使用stmatrix PTX指令
  • 针对不同的warpgroups定制的寄存器计数控制
  • 尽可能重叠,例如重叠TMA存储和非TMA RHS扩展因子加载

3、统一优化的块调度器

  • 一个调度程序适用于所有非分组和分组内核
  • 光栅化以增强L2缓存重用

4、完全JIT设计

DeepGEMM采用完全即时(JIT)设计,安装时无需编译。所有内核均使用轻量级JIT实现在运行时进行编译。这种方法具有以下几个优点:

  • GEMM形状、块大小和管道阶段数被视为编译时常量
    • 保存寄存器
    • 编译器可能会做更多优化
  • 自动选择块大小、warpgroups数量、最佳流程阶段和TMA集群大小
    • 但如果没有自动调整,最佳方案就会被确定地选择
  • 全面展开MMA流程,为编译器提供更多优化机会
    • 对于小形状非常重要
    • 详情请参阅launch_k_iterations kernel文件

总体而言,JIT显著提高了小形状的性能,类似于Triton编译器的方法。

5、块大小不对齐

对于某些形状,与2的幂对齐的块大小可能会导致SM未得到充分利用。例如,对于M=256, N=7168,典型的块大小分配会BLOCK_M=128, BLOCK_N=128导致只有(256 / 128) * (7168 / 128) = 112132个SM得到利用。

为了解决这个问题,DeepSeek支持未对齐的块大小(如 112),使(256 / 128) * (7168 / 112) = 128SM能够在这种场景中工作。在细粒度扩展的同时实施此技术需要仔细优化,但最终可以提高性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么 iPhone 海报时间都是 9:41 ?

为什么 iPhone 海报时间都是 9:41 ?

花果科技
2026-05-16 16:33:47
中年女星性感起来,到底能有多迷人?看林青霞巩俐她们就知道了

中年女星性感起来,到底能有多迷人?看林青霞巩俐她们就知道了

历史龙元阁
2026-05-18 13:00:18
南京一咖啡店推出“香烟功德箱”,内放散装香烟供顾客拿取,店员:已注意到网络争议,“香烟功德箱”已撤除,并在室内张贴了禁烟标识

南京一咖啡店推出“香烟功德箱”,内放散装香烟供顾客拿取,店员:已注意到网络争议,“香烟功德箱”已撤除,并在室内张贴了禁烟标识

洪观新闻
2026-05-19 15:02:56
周末睡到中午的青少年,抑郁风险直降41%

周末睡到中午的青少年,抑郁风险直降41%

晚风也遗憾
2026-05-17 00:25:03
“你的5000美元,已长成浩瀚绿洲!”

“你的5000美元,已长成浩瀚绿洲!”

新浪财经
2026-05-19 06:51:47
撞见妻子进酒店,我把照片发给那个男人的老婆,妻子鼻青脸肿回家

撞见妻子进酒店,我把照片发给那个男人的老婆,妻子鼻青脸肿回家

千秋文化
2026-05-03 20:27:24
2026年第1个公布涨工资的来了,退休人员养老金的调整还会远吗?

2026年第1个公布涨工资的来了,退休人员养老金的调整还会远吗?

社保小达人
2026-05-19 09:03:21
大S年轻时房间曝光,太过诡异引人不适,难怪有人曾说活不过50岁

大S年轻时房间曝光,太过诡异引人不适,难怪有人曾说活不过50岁

草莓解说体育
2026-05-11 20:49:33
中年男人最深的隐痛不是阳痿而是失业后赚不到钱,被全世界抛弃!

中年男人最深的隐痛不是阳痿而是失业后赚不到钱,被全世界抛弃!

灯锦年
2026-05-19 15:09:29
比亚迪电池CTO:每一代充电速度提升都被质疑“伤电池”,而技术每一次都在进步

比亚迪电池CTO:每一代充电速度提升都被质疑“伤电池”,而技术每一次都在进步

新浪财经
2026-05-19 13:31:49
“吃回扣、拿好处近1000万”,重庆一三甲医院副院长获刑7年

“吃回扣、拿好处近1000万”,重庆一三甲医院副院长获刑7年

牛锅巴小钒
2026-05-19 12:55:26
原省长落马,中纪委周末打虎!上周,还有中央巡视组内鬼被公诉

原省长落马,中纪委周末打虎!上周,还有中央巡视组内鬼被公诉

上观新闻
2026-05-18 10:51:03
油价要涨破天了!5月18日油价迎来大幅暴涨,调价后全国油价价格

油价要涨破天了!5月18日油价迎来大幅暴涨,调价后全国油价价格

沙雕小琳琳
2026-05-19 00:12:00
今年全网第一个餐桌噩梦,不是豆角,不是面线

今年全网第一个餐桌噩梦,不是豆角,不是面线

果壳
2026-05-16 20:10:45
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
农村“轮婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

农村“轮婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

舒山有鹿
2026-05-17 11:37:46
马尔代夫出事洞穴地形图曝光:有3个连环洞,撤离时间仅5分钟!全球顶级专家下水搜救

马尔代夫出事洞穴地形图曝光:有3个连环洞,撤离时间仅5分钟!全球顶级专家下水搜救

红星新闻
2026-05-18 16:28:19
大蒜被关注!医生发现:肺结节病人吃大蒜,不用多久或迎来5变化

大蒜被关注!医生发现:肺结节病人吃大蒜,不用多久或迎来5变化

阿兵科普
2026-05-17 22:37:24
徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

乡野小珥
2026-05-18 08:58:28
女人一旦和有家室的男人在一起,别怀疑,心里想的十有八九是这两件事

女人一旦和有家室的男人在一起,别怀疑,心里想的十有八九是这两件事

心理观察局
2026-05-19 07:39:39
2026-05-19 16:36:50
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11843文章数 117078关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

赖清德"偷渡式"窜访非洲国家被中国"踢出群" 大使发声

头条要闻

赖清德"偷渡式"窜访非洲国家被中国"踢出群" 大使发声

体育要闻

文班亚马1比0雷霆:凌驾MVP的史诗价值

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

从卖流量到卖Token,运营商算力生意破局

汽车要闻

德味操控+聪明大脑,与众07不输新势力

态度原创

家居
时尚
亲子
教育
房产

家居要闻

观山隐秀 心灵沉淀

休闲阔腿裤怎么穿才美?看看这些穿搭公式,解锁不重样的造型

亲子要闻

带娃复查鼻炎腺样体肥大,还好一切安然无恙,孩子身体无小事早发

教育要闻

刚刚,江苏分数线出炉!

房产要闻

7516元/㎡,161套一次全甩!海口住宅最低价出现了!

无障碍浏览 进入关怀版