网易首页 > 网易号 > 正文 申请入驻

突破无规则稀疏计算边界,编译框架CROSS数倍提升模型性能

0
分享至



  • AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本篇工作已被 HPCA 2025 接收,由上海交大先进计算机体系结构实验室蒋力教授课题组(IMPACT)完成,同时也获得了上海期智研究院的支持。第一作者是刘方鑫老师与博士生黄世远。

在现代 AI 模型的快速迭代中,如何在保持模型精度的同时提升计算效率成为关键课题。尤其在大规模 AI 推理中,非结构化稀疏矩阵的计算效率低下成为难以突破的瓶颈。面对这一挑战,我们自主研发了 CROSS—— 一种创新的端到端稀疏编译优化方案,为 AI 推理带来细粒度稀疏计算的加速效果。



稀疏计算的挑战:如何处理非均匀稀疏分布

非结构化细粒度稀疏场景下模型推理效率低下问题是 AI 编译社区面对的关键问题之一。相比于密集算子加速库(cuBlas),主要的稀疏算子加速库或编译框架需要在较高稀疏率下才能获得收益,而过高的稀疏率需求可能使我们面临模型精度下降的风险。



图 1. 相比于 cuBlas,不同稀疏加速库或编译框架在不同稀疏率下的加速比。Sputnik、TVM-Sparse、SparseTIR、ASpT 和 cuSPARSE 在稀疏率超过 76%、80.5%、82.6%、89.4% 和 98.1% 时才能获得正向收益(稀疏矩阵源于 Bert 模型中的稀疏权值矩阵)。

稀疏计算的机会:稀疏负载存在局部性

通过对稀疏模型进行调研我们发现,稀疏矩阵中非零元素的分布展现出严重的非均匀分布特性。这种非均匀分布对稀疏矩阵的计算效率产生了巨大的负面影响:

  • 局部过密:部分区域的非零元素过于密集导致该区域不再适合稀疏矩阵运算;
  • 局部过稀:部分区域的非零元素过于稀疏导致该区域相对于其他区域负载过低,造成计算单元负载失衡问题。这些问题严重影响了稀疏算子的执行效率。



图 2. Llama-2-7B 模型整体 70% 稀疏率场景下非零元素的分布。第 0、1、2 层的 Query weight 矩阵中不同区域的稀疏率跨度很大(30%~99%),展现出严重的非均匀分布特征;第 30、31 层的 Query weight 矩阵中不同区域的非均匀分布特性有所缓解(55%~99%)但依然严重。

CROSS:稀疏编译的破局之道

为应对上述挑战,CROSS 引入了一套全新的编译优化流程。CROSS 首先对稀疏矩阵的结构特点进行深入分析,通过代价模型精准判断稀疏与密集区域的不同计算需求,并自动分配最优的计算资源。其关键步骤包括:

1) 代价模型构建:首先,我们对不同 block 形状下、不同稀疏率下的稀疏矩阵乘(SpMM)和密集矩阵乘(GEMM)执行时间进行分析并建立代价模型(block 内的稀疏分布假设为均匀分布),如图 3 所示。SpMM 开销明显高于 GEMM 开销的稀疏率范围称为密集区(Dense band);将 SpMM 开销明显低于 GEMM 开销的稀疏率范围称为稀疏区(Sparse band),将 SpMM 与 GEMM 的执行开销相近的区域称为摇摆区(Swing band)。



图 3. 不同稀疏率下 SpMM 与 GEMM 的执行时间分布(SpMM 由 Sputnik 实现,GEMM 由 cuBlas 实现,矩阵形状 M=N=K=256, batch=10)。

2) Intra-batch 负载均衡:其次,我们将模型中的稀疏矩阵拆分为多个 block 并依据代价模型评估每个 block 适合的计算范式和计算开销。然后,我们依据 block 之间是否具有累加关系对整个矩阵的计算开销建立代价模型,如图 4(b)所示。针对矩阵中存在的负载不均衡问题,我们将稀疏计算与密集计算分别映射到不同的计算单元执行。当稀疏计算与密集计算的负载差异较大时,我们将摇摆类型的 block 转换为负载较小的类型,以实现单 batch 稀疏矩阵乘法的计算单元负载均衡(如图 4(c)所示)。



图 4. Intra-batch 负载均衡策略。(a)一个稀疏分布不均匀的稀疏矩阵案例。(b)原始稀疏矩阵乘法的执行开销。(c)负载均衡策略下的矩阵乘法执行开销。

3) Inter-batch 负载均衡:此外,由于 batch 之间使用相同的稀疏权值矩阵,当 batch size 较大时,矩阵中不同位置的负载失衡问题持续积累而变得更加严重。针对该问题我们将相邻两个 batch 之间的负载与计算单元的映射关系进行了重排。如图 5(a)所示,简单的将相邻两个 batch 合并执行会造成不同位置的负载失衡效应持续积累,造成更严重的负载失衡问题。为了应对该问题,我们对不同计算单元的负载进行重排序,相邻两个 batch 按照不同的顺序进行计算单元映射,以实现 batch 之间的负载均衡。



图 5. Inter-batch 负载均衡策略。(a)简单粗暴的将相邻两个 batch 合并会造成负载失衡效应累积。(b)对相邻 batch 中不同计算单元的负载重排能大幅缓解负载均衡问题。

实验成果:显著的性能提升

实验结果表明,相比于其他稀疏矩阵加速库或编译框架,CROSS 在不同稀疏率下都获得了显著性能提升,与业界最优设计相比平均获得 2.03× 的性能提升。相比于密集计算(cuBlas),CROSS 在稀疏率超过 60% 时开始获得正收益,显著突破了传统无规则稀疏加速设计的收益边界。



图 6. 五种整体模型稀疏率下,不同稀疏加速设计相比于密集加速库(cuBlas)的模型推理性能。相比于 cuBlas,我们最高可以获得 3.75× 性能收益,同时我们在稀疏率超过 60% 时开始获得正收益,而其他方案则需要接近或超过 80% 稀疏率。

CROSS 的未来:推动稀疏编译应用普及

CROSS 的成功不仅在于提升了稀疏矩阵计算的效率,更为未来 AI 推理在稀疏计算场景下的广泛应用奠定了坚实的基础。在 AI 模型规模不断扩展的今天,稀疏性在大模型中广泛存在,CROSS 为稀疏编译提供了高效、灵活、可持续的发展路径,助力未来 AI 应用的高效部署。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
案例:别逼老实人!辽宁64岁大爷提刀从凌晨杀到天亮,致9死3伤

案例:别逼老实人!辽宁64岁大爷提刀从凌晨杀到天亮,致9死3伤

大道微言
2024-06-22 00:06:07
985、211工程是对大学的一次最大的生态破坏!

985、211工程是对大学的一次最大的生态破坏!

李老师讲最真教育
2024-11-18 20:39:56
广东教师体罚学生遭开除,44家长挽留无效!罚大于罪,让教师流泪

广东教师体罚学生遭开除,44家长挽留无效!罚大于罪,让教师流泪

云起瀚海
2024-11-19 08:43:21
美媒:蓬佩奥或出任国防部长!特朗普回应,他现在后悔激怒中国吗

美媒:蓬佩奥或出任国防部长!特朗普回应,他现在后悔激怒中国吗

史小纪
2024-11-18 11:09:20
彻底告别缺芯少魂!华为Mate 70系列正式定档

彻底告别缺芯少魂!华为Mate 70系列正式定档

第一财经资讯
2024-11-18 21:45:39
上海楼市全军覆灭,上海楼市外滩房价从102000元跌至101000元

上海楼市全军覆灭,上海楼市外滩房价从102000元跌至101000元

有事问彭叔
2024-11-16 15:27:03
首个禁行电动自行车的城市竟是珠海,上路就扣车、罚款2000元!

首个禁行电动自行车的城市竟是珠海,上路就扣车、罚款2000元!

渔夫说事
2024-11-18 18:56:54
华为Mate 70 Pro+突然上架,这回可能又要卖爆了

华为Mate 70 Pro+突然上架,这回可能又要卖爆了

刘奔跑
2024-11-18 23:50:39
台湾这次终于无法保持沉默了!中国人民解放军南部战区正式宣告:

台湾这次终于无法保持沉默了!中国人民解放军南部战区正式宣告:

现代小青青慕慕
2024-11-18 06:31:20
为何越来越多人认为,是奥巴马让美国走向了衰落?原因很简单:

为何越来越多人认为,是奥巴马让美国走向了衰落?原因很简单:

现代春秋
2024-11-18 21:53:00
豪掷503亿“炒股”!中信金融资产欲重金押注中国银行和光大银行

豪掷503亿“炒股”!中信金融资产欲重金押注中国银行和光大银行

环球老虎财经
2024-11-18 21:41:15
太难了!网传韵达快递广州一网点老板跑路,拖欠工资达270多万…

太难了!网传韵达快递广州一网点老板跑路,拖欠工资达270多万…

火山诗话
2024-11-19 05:42:09
立陶宛提出可以和中国和解,但前提是“希望中国能做出改变”

立陶宛提出可以和中国和解,但前提是“希望中国能做出改变”

兵鉴堂
2024-11-19 09:31:04
“客厅有树,十有九富”,这7种树养客厅,一树成景,太绝了

“客厅有树,十有九富”,这7种树养客厅,一树成景,太绝了

影视评论阿劲
2024-11-18 19:18:33
私人影院成“重灾区”,一小时500元过程明码标价,店家:不怕查

私人影院成“重灾区”,一小时500元过程明码标价,店家:不怕查

阿纂看事
2024-11-04 16:49:58
浙江一学校扩建施工,地下挖出一匹两千年前的马!

浙江一学校扩建施工,地下挖出一匹两千年前的马!

北青网-北京青年报
2024-11-19 11:04:18
民营法:将“两个毫不动摇”等写入法律

民营法:将“两个毫不动摇”等写入法律

永不出场的戈多
2024-11-18 17:26:54
拿掉克莱的首发位置,这件事对于基德而言也那么难吗?

拿掉克莱的首发位置,这件事对于基德而言也那么难吗?

鸡丁侃球
2024-11-19 06:07:14
李春,拟任市委书记

李春,拟任市委书记

新京报政事儿
2024-11-19 09:33:10
国际乒联最新排名:莎头继续排在第一,王楚钦领先林诗栋超1000分

国际乒联最新排名:莎头继续排在第一,王楚钦领先林诗栋超1000分

直播吧
2024-11-19 09:42:25
2024-11-19 11:40:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9718文章数 142064关注度
往期回顾 全部

科技要闻

小米汽车单季收入近百亿 回应亏损与产能

头条要闻

学校扩建施工地下挖出一匹两千年前的马 或与勾践有关

头条要闻

学校扩建施工地下挖出一匹两千年前的马 或与勾践有关

体育要闻

15胜0负的骑士,真的在模仿勇士

娱乐要闻

没做错事的黄晓明为什么公开道歉

财经要闻

年底可能会“突击花钱”近1万亿

汽车要闻

后排够大 智能化提升 全新探岳L是你的菜么?

态度原创

手机
家居
亲子
时尚
艺术

手机要闻

华为发布鸿蒙OS NEXT 5.0.0.107大版本更新:新增相机连拍、通话降噪

家居要闻

纯白极简 现代简约

亲子要闻

在抖音科普5年了,初心不变,继续加油吧!

素颜不爱穿牛仔裤的她,一手带火了今年80%的流行趋势

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

无障碍浏览 进入关怀版