网易首页 > 网易号 > 正文 申请入驻

拆分Transformer注意力,韩国团队让大模型解码提速20倍

恋爱脑的本质是注意力的失控

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

只要将注意力切块,就能让大模型解码提速20倍。

来自韩国科学技术研究院、LG和DeepMind的研究人员,提出了一种新的Transformer架构。

不仅获得了更快的推理速度,内存开销也大幅度下降。



研究人员详细分析了原始Transformer推理速度慢的原因——

原始Transformer每生成一个Token就要访问一次全局KV缓存,消耗了大量资源。

实际上,这种方法的GPU有效利用率不到1%,其余的99%都用在了内存访问上。



针对这一问题,团队对Transformer的注意力机制进行了切块调整,提出了名为Block Transformer的新架构。

结果在没有明显质量损失的情况下,推理吞吐量提升了10-20倍

有网友表示,自己之前也有过类似的思路,但结果模型的性能不足,现在这个方法看上去确实有效削减了KV缓存。



“切开”Transformer的注意力

原始Transformer当中,对全局KV的频繁访问,导致计算复杂度高、内存占用大,但推理吞吐量却很低。

针对这一问题,作者的核心思路是将原始Transformer的全局注意力分解,分成块级注意力块内注意力

相应地,块级注意力和块内注意力分别由Block DecoderToken Decoder进行处理。

具体的切块数量根据总Token数和预设的块大小决定,而块大小的选择,是全局和局部建模之间的平衡——

  • 较大的块可以减少块的数量,从而降低Block Decoder的计算复杂度,但每个块包含更多的token,可能影响局部依赖的建模能力;
  • 较小的块包含的Token更少,可以提高局部依赖的建模能力,但Block Decoder需要处理更多的块,可能增加计算复杂度。


△不同块大小的性能比较

工作流程上,Block Transformer拿到需要处理的序列之后,直接先进行切块,然后利用Embedder将每个块都转换成一个嵌入向量。

具体来说,Embedder可以是一个简单的查找表,将块内的token映射为对应的嵌入向量,然后将这些嵌入向量拼接或累加得到块嵌入向量。

完成块的向量化之后,Block Decoder接收Embedder生成的块嵌入向量序列作为输入。

在其每个自注意力层中,都会对块嵌入向量序列进行自注意力计算,捕捉块与块之间的全局依赖关系。

经过多个自注意力层的处理,块嵌入向量融合了全局上下文信息,所以,Block Decoder的输出是一个全局上下文感知的块嵌入向量序列。

完成块级处理之后,Block Decoder的输出会与块内已生成的Token向量一起被Token Decoder接收。

在Token Decoder中,块嵌入向量首先被转换为与Token嵌入向量相同维度的向量,然后在Token Decoder的多个自注意力层中进行处理,捕捉Token之间的局部依赖关系。

经过多个自注意力层的处理,Token嵌入向量融合了局部上下文信息和来自块嵌入向量的全局信息。

最终,Token Decoder的输出是一个包含了局部上下文感知的Token嵌入向量序列,用于生成当前块的Token,Token Decoder重复这个过程,直到生成当前块的所有token。



回到整体上,Block Transformer通过交替执行块级自回归建模和块内自回归解码,迭代生成整个输出序列。

比如在生成第i个块时,Block Decoder会根据前i-1个块的嵌入向量预测第i个块的嵌入向量,然后Token Decoder根据第i个块的嵌入向量和已生成的Token,生成第i个块的Token序列。

这个过程重复进行,直到生成整个输出序列。

推理吞吐量最高提升20倍

对注意力的切块带来的效果立竿见影,模型的推理吞吐量直接提升了10-20倍。

例如,在decode-heavy设置下,85M参数的Block Transformer吞吐量达到了每秒13.5万Tokens,而同等大小的原始Transformer仅有约6千Tokens。

针对更长的提示词,Block Transformer同样具有吞吐量优势——在提示词长度为8K的情况下,Block Transformer的吞吐量超过了提示词长度为2K的原始Transformer。



吞吐量的提升并没有让质量下降,在HellaSwag、PIQA和ARC-easy等多个零样本任务上,Block Transformer的准确率与同等大小的原始Transformer相当甚至略高。



进一步探究结果表明,Block Transformer这种全局-局部建模方式能在提高推理效率的同时保持较低的训练损失(图a)。

同时这种方法还能有效利用全局上下文,在PG19测试集上,取得了与原始Transformer相似的位置损失(图b)。

另外,在相同的训练计算量和推理吞吐量预算下,Block Transformer能达到比原始Transformer更低的训练损失,展现出了优异的训练效率(图c)。



除了带来性能提升之外,Block Transformer也降低了模型的训练成本。

使用其默认的4个Token的块长度,全局注意力的二次内存访问开销减少了16倍。

反复读取KV缓存带来的内存开销也几乎消除,1%的GPU利用率提升到了44%。



论文地址:
https://arxiv.org/abs/2406.02657

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新一批获得月壤名单公布:哈工大获1330毫克,清华北大获得多少?

新一批获得月壤名单公布:哈工大获1330毫克,清华北大获得多少?

咖啡店的老板娘
2024-07-02 11:21:33
广州人挺住!台风又要来?!未来天气将……

广州人挺住!台风又要来?!未来天气将……

广州生活美食圈
2024-07-03 16:06:35
女人叫声越大越舒服?真实情况是不一定!!

女人叫声越大越舒服?真实情况是不一定!!

温柔圣手
2024-07-02 17:29:22
29国环太军演,30国申请金砖,美国对华越狂躁,中国越是受欢迎?

29国环太军演,30国申请金砖,美国对华越狂躁,中国越是受欢迎?

毕殿龙
2024-07-03 17:16:31
萨顿:居诺克的那次扑救堪称欧洲杯历史上最伟大的扑救之一

萨顿:居诺克的那次扑救堪称欧洲杯历史上最伟大的扑救之一

懂球帝
2024-07-03 05:37:14
“这是个危险先例”!特朗普“豁免权”裁定引拜登不满:总统将变成国王

“这是个危险先例”!特朗普“豁免权”裁定引拜登不满:总统将变成国王

财联社
2024-07-02 13:28:25
火箭拒给申京顶薪引热议:休媒解析斯通运作 为明夏追超巨做铺垫

火箭拒给申京顶薪引热议:休媒解析斯通运作 为明夏追超巨做铺垫

颜小白的篮球梦
2024-07-03 11:25:36
湖南84岁老人参加高考,考完给自己估分630,结果一查分数傻眼了

湖南84岁老人参加高考,考完给自己估分630,结果一查分数傻眼了

博学老K杂谈
2024-07-01 13:15:02
女的脱光撅着,男的生拔指甲,真实的边境赌博,远比你想象的可怕

女的脱光撅着,男的生拔指甲,真实的边境赌博,远比你想象的可怕

回京历史梦
2024-07-03 11:01:49
没人敢动的军中巨贪,背后有两大保护伞,刘源:丢乌纱帽也拿下他

没人敢动的军中巨贪,背后有两大保护伞,刘源:丢乌纱帽也拿下他

旧时楼台月
2024-04-22 14:42:41
刘昊然新片爆改地中海秃顶造型,眉毛拔稀疏瘦20斤,潘粤明认不出

刘昊然新片爆改地中海秃顶造型,眉毛拔稀疏瘦20斤,潘粤明认不出

阿桥侃娱乐
2024-07-03 13:36:42
用以色列拖住美国,是熬鹰战略的最大阳谋!

用以色列拖住美国,是熬鹰战略的最大阳谋!

武当云中客
2024-07-01 08:47:47
湖南桃源县一家四口被害后续:嫌疑犯被抓,知情人曝杀人原因

湖南桃源县一家四口被害后续:嫌疑犯被抓,知情人曝杀人原因

小虎新车推荐员
2024-07-03 15:41:48
回顾:许国利被执行死刑,处决前再见儿子一面,流泪道出背后真相

回顾:许国利被执行死刑,处决前再见儿子一面,流泪道出背后真相

春江历史
2024-07-02 16:18:33
重磅!2024武汉中考一批次高中分数线出炉,十大名高格局巨变!

重磅!2024武汉中考一批次高中分数线出炉,十大名高格局巨变!

男女那点事儿儿
2024-07-03 17:15:52
1182亩新校区!河南又一所高校,拟独立申建本科

1182亩新校区!河南又一所高校,拟独立申建本科

鲁中晨报
2024-07-03 13:47:05
张雪峰连麦河南649分学生,他的这个“提醒”,让人醍醐灌顶

张雪峰连麦河南649分学生,他的这个“提醒”,让人醍醐灌顶

校长侃财
2024-07-03 12:19:06
央视怒批戏混子,从靳东、张嘉译到张译,好日子就要到头了!

央视怒批戏混子,从靳东、张嘉译到张译,好日子就要到头了!

小怪吃美食
2024-07-03 07:35:13
TA名记:勇士签换希尔德可能与之前交易相关 最终形成五方大交易

TA名记:勇士签换希尔德可能与之前交易相关 最终形成五方大交易

直播吧
2024-07-03 14:30:14
东莞暂停发布每月“最脏乱差”榜单,城管局回应:鼓励为主

东莞暂停发布每月“最脏乱差”榜单,城管局回应:鼓励为主

南方都市报
2024-07-03 16:47:26
2024-07-03 18:12:49
量子位
量子位
追踪人工智能动态
9616文章数 175395关注度
往期回顾 全部

科技要闻

吴世春:"中国大模型五虎"想跑出来非常难

头条要闻

重庆落马局长借邻居银行卡收钱 结果卡里钱被邻居花掉

头条要闻

重庆落马局长借邻居银行卡收钱 结果卡里钱被邻居花掉

体育要闻

世界第二打第三,成了一场英格兰模仿秀

娱乐要闻

刘亦菲唐嫣深夜晒照,美女贴贴好养眼

财经要闻

张军:房地产是经济收缩的受害者而非原因

汽车要闻

巴黎4S店价格对比 同款车型中国售价打对折

态度原创

健康
旅游
教育
公开课
军事航空

人类为何至今无法攻克渐冻症?

旅游要闻

游客走进来 瓷、橙运出去 昌九高铁建设为江西发展注入新动力

教育要闻

导弹维修专业“火了”,张雪峰都没听过,家长:培养一次性人才?

公开课

连中三元是哪三元?

军事要闻

美空军研发第六代战机陷入资金困境

无障碍浏览 进入关怀版