网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

3天把Llama训成Mamba，性能不降，推理更快！

2024-09-05 12:28:09　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：alan

【新智元导读】近日，Mamba方面又搞出了有意思的研究：来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。

先来看一张其乐融融的图片（一眼AI）：

右边的小羊驼代表Llama，而左边的蛇（Mamba）也是我们的老熟人了。

至于到底能不能其乐融融，咱就不管了，之所以有此场景，是因为Mamba方面又搞出了有意思的研究：

——如何把Llama变成Mamba？

论文地址：https://arxiv.org/pdf/2408.15237

代码地址：https://github.com/jxiw/MambaInLlama

近日，来自康奈尔、普林斯顿等机构的研究人员推出了上面这篇工作，将Llama这样的大型Transformer提炼成了Mamba模型，

并且成功在Mamba架构上应用了带有硬件感知的推测解码算法，提高了整个模型的推理速度。

为什么要把Llama变成Mamba？

因为从头开始训练一个大模型太贵了。

Mamba也火了这么长时间了，相关的研究每天都有，但自己训练大尺寸Mamba模型的却很少。

目前比较有名的是AI21的Jamba（进化到了1.5版本，最大398B，MoE），以及NVIDIA的Hybrid Mamba2模型（8B）。

不过世界上有那么多成功的Transformer大模型，而知识就包含在这些模型参数里。

如果能够锁住知识，同时把Transformer微调成Mamba，不就解决问题了？

在本文中，研究人员结合渐进式蒸馏、监督微调（SFT）和定向偏好优化（DPO）等方法达成了这一目标。

光是变大还不够，

在性能匹配Transformer的前提下，速度也要够快才行。

Mamba凭借固定的推理开销，在长序列中的优势明显，但Transformer这边也是有推理加速方案的，比如推测解码。

而由于Mamba本身的结构特性，不能直接应用这种方案，所以作者设计了全新的算法，并结合硬件的性质来实现基于Mamba的推测解码。

最终，研究人员将Zephyr-7B、Llama-3 8B提炼为了线性RNN模型（混合Mamba和Mamba2），且性能与蒸馏之前的标准模型相当。

整个训练过程只使用了20B的token，效果却能够与使用1.2T个token从头开始训练的Mamba 7B模型，以及使用3.5T个token训练的NVIDIA Hybrid Mamba2模型相媲美。

从 Transformer 到 Mamba

在介绍Mamba 2的时候我们讲过，线性RNN（或SSM）跟线性注意力是一回事。

所以可以根据x，B，C与V，K，Q的对应关系直接复用注意力中的投影矩阵。

额外的参数包括SSM需要的A矩阵和Δt（由x投影得到），这就完成了基本的参数初始化。

之后就是SSM的运算过程，再通过投影和累加得到输出。

模型架构和训练

下图给出了模型的架构，因为Transformer的知识存在于MLP层，所以冻结这部分参数。

除了用线性RNN层（Mamba）替换掉注意力头，还有一些组件需要处理，比如跨头共享键和值的分组查询注意力（GQA）。

知识蒸馏（Knowledge distillation，KD）是一种常用的压缩技术，用来训练模仿较大模型（teacher）行为的较小网络（student）。

根据经验，这里采用逐步替换Attention层的策略，先是每2层进行蒸馏，然后每4层继续蒸馏......

监督微调

有两种常见的蒸馏方法。一种方法是使用word-level的KL散度，此时训练student模型去匹配teacher模型输出的完整概率分布。

第二种方法是序列级知识蒸馏（SeqKD），直接使用teacher模型的输出作为ground truth来训练student模型（也称为伪标签）。

这里θ是student模型的可训练参数，α和β分别控制序列和词的loss项的权重。

偏好优化

LLM指令调优的第二阶段是使其符合用户偏好。这个阶段，使用一组期望的偏好对来改进模型的输出。

优化的目标是使奖励模型最大化，同时保持产生的输出接近参考模型。

通常，参考模型使用上一步监督微调后的模型。这里因为是蒸馏，直接可以用teacher模型：

偏好模型的奖励函数定义取决于所使用的方法，本文采用直接偏好优化（DPO），通过直接梯度更新有效地到达优化目标。

DPO表明，对于给定的提示x ，如果我们能够获得preferred和dispreferred两种输出，就可以将这个优化问题重新表述为：

这种优化可以在序列级别上执行，让teacher模型和student模型一起对preferred和dispreferred输出进行评分，然后反向传播给student模型。

推测解码

经过上面的一套小连招，模型转换就搞定了，下面开始想办法应用Transformer那边的推测解码。

推测解码（Speculative Decoding）可以简单理解为下面这张图。

Transformer做推理的时候，除了要处理不断变长的KV cache之外，计算效率也是个问题。

因为显卡的设计是计算高于访存的，具体到计算单元就是做矩阵乘法。

而推理的时候每次只能进入一个词向量，显卡的很多计算就被浪费了。

推测解码给出的解决方案是，使用一个小模型做生成，然后拿显卡多余的计算做验证。

小模型跑得快，可以一口气生成很多输出向量，但是可能效果差一点。这时候用大模型作为验证，一次计算之前生成的很多个向量。

所以小模型串行跑得快，大模型可以并行计算跑得也快，遇到验证不通过的就直接回滚，整体上提高了推理的速度。

Transformer可以方便地回滚，因为KV cache跟时间是一一对应的，但Mamba这边只有一个当前的中间状态ht，你总不能把所有中间状态都存起来吧。

为了解决这个问题，研究人员设计了下面的算法：

简单来说就是每次使用小模型（draft model）生成一组输出，然后大模型（verification model）验证这一组输出，根据验证匹配的位置来更新需要保存的中间状态。

我们可以从下面的伪代码了解详细的过程：

每次生成K个草稿输出，验证模型通过MultiStep函数返回K个真正的输出，以及上一次校验成功位置的cache（中间状态hj）和本次最后位置的cache（hk）。

Multi-Step内核的性能特征

通过FirstConflict函数找到最后匹配（校验成功）的位置，如果所有都匹配，则cache可以更新到最后的hk，否则就只更新到上一次的hj。

兵马后动，粮草先行，不耽误输出和校验，同时只需要多存储一个中间状态。

当然，如果草稿模型也用Mamba的话，算法的推测部分会变得复杂一些，因为草稿模型需要重新计算上一次迭代中验证成功位置的状态。

硬件特定优化

下面使用Mamba 7B和 Mamba 2.8B作为目标模型进行推测实验。

最初，作者搞了一版简单的算法实现，结果在Ampere架构的GPU（3090）上面效果显著，Mamba 2.8B获得了1.5倍的推理加速，同时有60%的接受率。

但是这种实现方式在H100 GPU上不太好使，主要是因为GEMM操作的速度更快了，使得缓存和重新计算产生的开销更加明显。

所以，作者通过融合内核以及调整实现方式来优化算法。

对于验证模型，首先从缓存中重新计算之前的步骤，然后对新的草稿token序列进行多步解码，最后在单个内核中进行缓存。

对于草稿模型，重新计算、解码和缓存也融合在单个内核中。最终实现了上表中的加速效果。

实验

研究人员使用两个LLM聊天模型进行实验：Zephyr-7B和Llama-3 Instruct 8B。

采用三阶段蒸馏。在第一阶段，使用UltraChat和UltraFeedback作为种子提示，并使用teacher模型生成伪标签。

使用AdamW优化器训练模型，β=(0.9,0.98) ，批量大小64。先使用线性学习率预热，然后进行余弦退火。

第二阶段，在一个epoch中使用SFT在GenQA、InfinityInstruct和OpenHermes 2.5数据集上对模型进行监督微调，采用与Zephyr相同的超参数。

最后一个阶段，对于从Zephyr中提取的模型，在UltraFeedback数据集上使用DPO与标准模型进行蒸馏对齐。

过程中只在第一阶段冻结MLP层，后两个阶段所有参数都进行训练。

作者表示，通常只需要在8卡80G A100上运行3到4天，即可重现本文的结果。

参考资料：

https://arxiv.org/abs/2408.15237

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

武汉一公司推出“包车送学”服务，一个月398元另需承担实时打车费

南阳日报 2026-05-18 18:21:29
187 跟贴 187
一报告显示：逾八成中俄青年认为中俄关系友好

中国青年报 2026-05-18 16:33:06
5322 跟贴 5322

“计划有变，准备夺冠！”张雪机车从“昙花一现”到“实力使然”

大象新闻 2026-05-18 20:51:07
192 跟贴 192

武功山景区遭“臭屁虫”围攻？有游客调侃“张嘴能吃饱”，景区提醒：可自备防虫药物

潇湘晨报 2026-05-14 17:33:19
952 跟贴 952
从卖流量到卖Token，运营商算力生意破局

澎湃新闻 2026-05-19 07:28:28
56 跟贴 56

丰田亚洲龙落地价12.68万元？一车主团购买车比4S店还贵，代购方称超低价有前提条件

半岛官网 2026-05-18 17:11:59
443 跟贴 443

799元宠语翻译器被质疑是智商税

极目新闻 2026-05-18 22:47:24
1602 跟贴 1602
热闻|哈弗茨一锤定音！阿森纳1-0伯恩利，距离夺冠一步之遥！

齐鲁壹点 2026-05-19 07:11:20
78 跟贴 78

韩媒：韩国年轻人追捧“中国风”

参考消息 2026-05-19 10:16:01
1 跟贴 1
七旬老人买菜路上被拉去割眼袋儿子愤怒讨说法整形医院：你妈养了你几十年你给她消费几千怎么了？

闪电新闻 2026-05-18 17:04:02
259 跟贴 259
广东全面清理挖抢县中优质生源政策

南方都市报 2026-05-19 07:06:18
63 跟贴 63
“你是妈宝男吗？”孙杨回应易立竞犀利提问：你见过哪个妈宝男做到事业这么成功，学会尊重妈妈就是尊重女性

封面新闻 2026-05-18 16:53:08
80 跟贴 80
连花清瘟胶囊/颗粒荣获“中药现代化三十年示范品种”

闪电新闻 2026-05-18 15:46:07
1222 跟贴 1222
硬核上新！歼-16战机最新训练大图来了

极目新闻 2026-05-19 08:00:53
50 跟贴 50
最新 | 周末仅1人上班？知名咖啡回应！

天津广播 2026-05-18 23:44:41
59 跟贴 59
珠海一高校联合培养研究生院揭牌，培养“用得上”的研究生

南方都市报 2026-05-19 11:26:23
3 跟贴 3
证监会：继续全力稳定和增强资本市场信心

环球网资讯 2026-05-19 09:19:43
10 跟贴 10
“湖北襄阳特大暴雨致道路及车辆被淹”系谣言（2026·05·18）

今日辟谣 2026-05-18 17:57:28
197 跟贴 197
经济运行稳中有进高质量发展向新向优——透视前4个月我国经济数据

新华社 2026-05-18 22:11:03
36 跟贴 36
哈腾：马刺无论用什么方式防守SGA 我们都已经做好准备了

北青网-北京青年报 2026-05-19 09:41:58
19 跟贴 19
电力板块，多股涨停

第一财经资讯 2026-05-19 13:27:56
0 跟贴 0
米面油、化妆品、日常生活用品等不能刷！医保个账支付，最新要求

南方都市报 2026-05-19 09:11:09
24 跟贴 24
Shams：每支有争冠实力但已淘汰的NBA球队都联系詹姆斯

北青网-北京青年报 2026-05-19 09:41:12
18 跟贴 18
中国控烟协会：将无烟场景拓展至校园、餐厅、宾馆、养老机构

南方都市报 2026-05-19 11:14:39
223 跟贴 223
鄂托克旗农机服务到田头科技护航助增收

农视网 2026-05-19 13:43:23
1 跟贴 1
老人银行内执意转账10万元“投资”，警银联手及时劝阻

现代快报 2026-05-19 14:16:03
0 跟贴 0
中国制造改写世界超级摩托车赛场格局

北青网-北京青年报 2026-05-19 13:38:02
0 跟贴 0
四川乐山发生山体落石，小车反应及时躲过一劫，车主：本打算过去，看到有落石，以防万一就后退停了一会，结果没过几秒钟大石头就掉下来了

潇湘晨报 2026-05-19 14:15:14
0 跟贴 0
困在蒜田里的农户

新京报 2026-05-19 09:01:42
0 跟贴 0

黄三、李四是谁？广州荔湾多部门回应拆迁公告人名和地址质疑：房屋早已灭失，未实际补偿

黄三、李四是谁？广州荔湾多部门回应拆迁公告人名和地址质疑：房屋早已灭失，未实际补偿

澎湃新闻

2026-05-18 14:10:27

距开赛仅24天！巴萨官宣1亿红星骨折+将手术伤缺2个月无缘世界杯

距开赛仅24天！巴萨官宣1亿红星骨折+将手术伤缺2个月无缘世界杯

我爱英超

2026-05-18 22:24:01

台湾省第一美男塌房，背后有高人

台湾省第一美男塌房，背后有高人

ins生活

2026-05-18 20:16:42

梁靖崑家里好欢乐！哥哥带奖牌去学校，弟弟玩火，装修简陋引争议

梁靖崑家里好欢乐！哥哥带奖牌去学校，弟弟玩火，装修简陋引争议

阿嵀体育评论

2026-05-19 08:57:33

活塞球迷意难平！不止因为94-125惨败骑士，更多在于以下这五点！

活塞球迷意难平！不止因为94-125惨败骑士，更多在于以下这五点！

田先生篮球

2026-05-18 12:49:28

炸锅了！刘亦菲李现恋情疑曝光，粉丝反应两极分化，网友磕疯了！

炸锅了！刘亦菲李现恋情疑曝光，粉丝反应两极分化，网友磕疯了！

草莓解说体育

2026-05-19 02:12:35

64岁吴镇宇真下得去口，嘴对嘴吻郝蕾，一旁刘涛被惊呆

64岁吴镇宇真下得去口，嘴对嘴吻郝蕾，一旁刘涛被惊呆

寻墨阁

2026-05-19 01:16:51

降价2000元后苹果iPhone 17系列拿下618单品销量前三

降价2000元后苹果iPhone 17系列拿下618单品销量前三

CNMO科技

2026-05-19 10:23:33

当年爆红的“玉兰油女孩”，如今也是沦为常人，岁月不饶人啊！

当年爆红的“玉兰油女孩”，如今也是沦为常人，岁月不饶人啊！

可乐谈情感

2026-05-19 05:50:49

事业单位工勤岗的痛：我们不在乎“名”，只在乎“钱”

事业单位工勤岗的痛：我们不在乎“名”，只在乎“钱”

户外阿毽

2026-05-19 12:00:42

张雪峰42岁冥诞，女儿发视频追忆父亲：“爸爸，生日快乐，妈妈说如果遇到了觉得lucky的事，那一定是你在我旁边，我很想你”

张雪峰42岁冥诞，女儿发视频追忆父亲：“爸爸，生日快乐，妈妈说如果遇到了觉得lucky的事，那一定是你在我旁边，我很想你”

大风新闻

2026-05-19 10:49:06

周杰伦一家现身温州机场！10岁海瑟薇神似昆凌，大方挥手超有范儿

周杰伦一家现身温州机场！10岁海瑟薇神似昆凌，大方挥手超有范儿

阿裤趣闻君

2026-05-19 00:25:36

很多人，都低估了30年房贷的杀伤力

很多人，都低估了30年房贷的杀伤力

一条要飞跃的咸鱼

2026-04-06 11:08:43

罗马诺实锤！穆里尼奥皇马首签来了！王牌中场加盟板上钉钉

罗马诺实锤！穆里尼奥皇马首签来了！王牌中场加盟板上钉钉

奶盖熊本熊

2026-05-19 04:36:24

蒙古西征路上，征服的都是二流对手？遇到真正的强者他们也抓瞎

蒙古西征路上，征服的都是二流对手？遇到真正的强者他们也抓瞎

历史摆渡

2026-05-19 12:20:03

泡药时一声不吭，滞销时哭泣卖惨，果农的眼泪，换不来网友的同情

泡药时一声不吭，滞销时哭泣卖惨，果农的眼泪，换不来网友的同情

谭谈社会

2026-05-17 23:02:27

官方：英格尔斯签约墨尔本联，正式结束12年NBA生涯

官方：英格尔斯签约墨尔本联，正式结束12年NBA生涯

懂球帝

2026-05-19 07:46:32

新婚2个月被打进医院3次！刚申请保护令就要离婚，法院请来“第三方”

新婚2个月被打进医院3次！刚申请保护令就要离婚，法院请来“第三方”

上观新闻

2026-05-18 21:08:15

男人每天排尿次数接近这个数，恭喜，尿毒症可能离你还远

男人每天排尿次数接近这个数，恭喜，尿毒症可能离你还远

岐黄传人孙大夫

2026-05-19 11:20:03

宁波一家公司涉嫌非法吸收公众存款！警方发布提醒

宁波一家公司涉嫌非法吸收公众存款！警方发布提醒

环球网资讯

2026-05-19 09:20:21

AI产业主平台领航智能+时代

15248文章数 66877关注度

往期回顾全部

科技要闻

苹果WWDC26定档6月9日凌晨：iOS27将亮相

头条要闻

赖清德弹劾案未通过：同意票56张未达门槛但仍创纪录

头条要闻

赖清德弹劾案未通过：同意票56张未达门槛但仍创纪录

体育要闻

58顺位的保罗，最强第三中锋

娱乐要闻

张雪峰42岁冥诞，学生家长自发缅怀

财经要闻

从卖流量到卖Token，运营商算力生意破局

汽车要闻

试驾与众07：首搭CEA架构德味操控+聪明大脑

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

家居

数码

时尚

艺术

手机要闻

宋雨琦代言！OPPO Reno16系列正式亮相：3D悬浮星球工艺配色梦幻

家居要闻

观山隐秀心灵沉淀

数码要闻

苹果或在今年秋季推出大改款 Apple Watch Ultra 4

休闲阔腿裤怎么穿才美？看看这些穿搭公式，解锁不重样的造型

艺术要闻

蒋万安手写贺卡成焦点！网友：字软人弱！练书法3年，该如何提高

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版