网易首页 > 网易号 > 正文 申请入驻

RAG新突破:块状注意力机制实现超低延迟检索增强

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在工业场景中,往往会利用检索技术来为大语言模型添加一些来自外部数据库的知识文档,从而增强大语言模型的回复可信度。一般来说,RAG 被公认是最有效的为 LLM 注入特定领域知识的方式。

然而,RAG 也有其不足之处。通常来说,在实际应用中,为确保能召回包含正确知识的文档,对于每个用户的查询,会检索多个文档(一般在 5 到 30 个之间),并把这些文档整合到输入提示中供大语言模型处理。这样一来,输入提示的序列长度增加,使得推理效率大幅降低。具体来讲,以首次生成标记的时间(TTFT)来衡量,RAG 大语言模型的推理延迟比非 RAG 大语言模型高很多。

由于数据库中同一文档经常会被不同 query 召回,大家很自然的会想到:是否能够把已经算好的文档表示(KV states)存在缓存中,以供二次使用?很遗憾, 由于自回归注意力机制的限制,大语言模型中每个文档的 KV States 都与上下文相关,所以遇到新的 query 时,模型必须重新编码 KV states 才能确保准确预测。

最近,论文《Block-Attention for Efficient RAG》为检索增强 (RAG) 场景实现了一种块状注意力机制,Block-Attention,通过分块独立编码检索到的文档,使得模型无需重复编码计算已经在其他 query 中已经见过的文档,从而实现线上推理效率的有效提升。在实验中,该方法能够让使用 RAG 技术的模型与不使用 RAG 的模型有几乎一样的响应速度。同时,该方法甚至还能略微提升在 RAG 场景下的模型准确率。

  • 论文标题:Block-Attention for Efficient RAG
  • 论文地址:https://arxiv.org/pdf/2409.15355

如下图所示,该方法把整个输入序列分成若干个 block,每个 block 独立计算其 KV States,只有最后一个 block 能够关注其他 blocks(在 RAG 场景中,最后一个 block 即用户的输入)。在 RAG 场景中,block-attention 让模型不再需要重复计算已经在其他 query 中见过的文档。

Block-Attention 的实现并不复杂:1)独立编码除最后一个 block 以外的所有 blocks;2)为每个 blocks 重新计算位置编码;3)将所有 blocks 拼接在一起,并计算最后一个 block 的 KV State。然而直接把模型不加任何修改的从 self-attention 切换到 block-attention 会导致大语言模型懵圈,毕竟模型在训练阶段从来没见过 block-attention 方式编码的输入。一个量化的对比是,直接切换为 block-attention 会让 Llama3-8B 在四个 RAG 数据集上的平均准确率由 67.9% 下降至 48.0%。

为了让模型适应 block-attention,作者们对模型进行了进一步微调,作者们发现在 100-1000 步微调之后,模型就能快速适应 block-attention,在四个 RAG 数据集上的平均准确率恢复至 68.4%。另外,block-attention 方式的模型在 KV cache 技术的帮助下,能达到与无 RAG 模型相似的效率。在用户输入长度为 50 而 prompt 总长度为 32K 的极端情况下,block-attention model 的首字延时(Time To First Token, TTFT)和首字浮点运算数(FLOPs To Frist Token, (FLOPs-TFT)分别能降低至 self-attention model 的 1.3% 和 0.2%,与无 RAG 模型的效率基本持平。

推理流程

关于 block-attention 的实现和详细推导,读者们请移步原文,这里主要介绍 block-attention 模型的推理流程。如下图所示,首先从缓存中查询并提取前 K 个 block 的 KV states。然后,根据每个 block 在输入序列中的位置,作者们对每个 block 的位置编码进行了重新计算。具体的操作过程详见论文的公式 3。最后,根据前 k-1 个 KV States 计算最后一个数据块的键值状态以及模型的输出。

实验结果

在实验中,作者们主要想探究两个问题的答案:1)在 RAG 场景中,block-attention 模型能否达到与自 self-attention 相同的准确率?2)block-attention 对效率的提升有多大?

对于问题一,上图给出了答案。作者们根据实验结果给出了三个结论:

1. 直接从 self-attention 切换到 block-attention 是不可取的,因为这会导致准确率急剧下降。例如,对于 Llama3-8B 和 Mistral-7B 模型,去除微调过程会导致在所有四个基准上平均绝对性能下降 21.99%。

2. 然而,如果作者们在微调阶段使用块注意力机制,那么得到的模型与自注意力模型的性能几乎相同,甚至在某些数据集上略好。例如,Mistral-7B-block-ft 在四个基准上的性能优于自回归方式训练的模型,平均准确率由 59.6% 上升至 62.3%。

3. 位置重新编码操作对于 block-attention 模型至关重要。去除它会导致性能显著下降 —— 在四个数据集上准确率平均下降 4%。

对于效率的提升,作者们也通过另一组实验进行了验证。他们将用户的问题长度固定在 50 个 token,然后逐渐增加被召回文档的数量,让输入序列总长度从 50 一直增加到 32K。模型在不同 prompt 长度下的首字延时(Time To First Token, TTFT)和首字浮点运算数(FLOPs To Frist Token, (FLOPs-TFT)如下图所示。显然,加速效果令人满意:当输入序列的长度为 512 时,使用 block-attention 可以将 TTFT 减少 48%,将 FLOPs-TFT 减少 90.1%。随着总长度的增加,block-attention 模型的 TTFT 和 FLOPs-TTF 保持基本不变的趋势。当总长度达到 32K 时,加速效果可以达到惊人的 98.7%,FLOPs-TFT 的消耗甚至减少了 99.8%。作者们将此实验结果总结为:“文本越长,block-attention 越重要”。

作者们最后还指出,block-attention 在很多场景中都有着重要作用,并不局限于 RAG。由于一些保密原因,作者们暂时无法透露在其他工业应用中是如何使用它的。作者们期待社区的研究人员能够进一步探索 block-attention 的潜力,并将其应用于合适的场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白酒再次被关注!医生发现:心梗病人喝白酒身体将迎来3个坏变化

白酒再次被关注!医生发现:心梗病人喝白酒身体将迎来3个坏变化

芹姐说生活
2026-05-26 14:22:42
家住深圳65楼,已经崩溃了,日子没法过了!

家住深圳65楼,已经崩溃了,日子没法过了!

科学发掘
2026-05-26 12:24:47
中国人不买了!在华暴跌48%大溃败,谁亲手终结了本田神话?

中国人不买了!在华暴跌48%大溃败,谁亲手终结了本田神话?

胖福的小木屋
2026-05-25 11:46:31
“性暗示”粉木耳爆了,盒马吓了全网一跳

“性暗示”粉木耳爆了,盒马吓了全网一跳

李东阳朋友圈
2026-05-26 13:41:05
军委想让邓华指挥对越自卫反击战,邓华婉拒:不能耽误国家大事

军委想让邓华指挥对越自卫反击战,邓华婉拒:不能耽误国家大事

大运河时空
2026-05-25 17:15:03
骑士阵容大清洗在即!阿特金森亲口承认,米切尔哈登表态愿留队

骑士阵容大清洗在即!阿特金森亲口承认,米切尔哈登表态愿留队

奕辰说球
2026-05-26 17:08:50
海外,AI龙头暴跌40%!

海外,AI龙头暴跌40%!

君临财富
2026-05-26 17:51:55
太阳报:阿森纳球员在夜总会时遇到热刺球员,随后一起狂欢

太阳报:阿森纳球员在夜总会时遇到热刺球员,随后一起狂欢

懂球帝
2026-05-26 00:52:08
原版身材就是顶!伊芙体模亲自下场cos

原版身材就是顶!伊芙体模亲自下场cos

奶凶的小霸王
2026-05-26 15:47:03
要打?奉陪到底!中方出手,明确拒绝收回港口租约,澳防长表异议

要打?奉陪到底!中方出手,明确拒绝收回港口租约,澳防长表异议

阿策聊实事
2026-05-26 03:32:31
太难了!成都选调生拟录用名单出炉:总人数跌破100!

太难了!成都选调生拟录用名单出炉:总人数跌破100!

音乐时光的娱乐
2026-05-26 13:58:34
逾百万亿元贷款到期,银行迎战资产端“大考”

逾百万亿元贷款到期,银行迎战资产端“大考”

澎湃新闻
2026-05-26 07:14:06
公交集团正式员工已经躺平不了了,想要混到退休不太可能

公交集团正式员工已经躺平不了了,想要混到退休不太可能

娱乐圈见解说
2026-05-09 00:23:44
3000万敲定!巴萨抢人成功,罗马连挖曼联2弃将太狠!

3000万敲定!巴萨抢人成功,罗马连挖曼联2弃将太狠!

林子说事
2026-05-26 15:52:15
《穿普拉达》男主消失18年:拒演续集,德州务农

《穿普拉达》男主消失18年:拒演续集,德州务农

自愈小日子
2026-05-25 01:15:05
暴跌90%!又一“日系神车”跌落,曾创令华尔街都赞叹的溢价神话

暴跌90%!又一“日系神车”跌落,曾创令华尔街都赞叹的溢价神话

财经八卦
2026-05-25 17:15:23
我67岁,存款80万,住过一次院才发现:钱不是自己的,儿女也不是

我67岁,存款80万,住过一次院才发现:钱不是自己的,儿女也不是

蝉吟槐蕊
2026-05-25 18:22:33
A股:大盘精准跌到4145.37点,不出意外的话,明天行情这么走

A股:大盘精准跌到4145.37点,不出意外的话,明天行情这么走

夜深爱杂谈
2026-05-26 19:39:39
脸都不要了!切尔西放着 2 亿王牌不用,非要挖曼联的非卖品!

脸都不要了!切尔西放着 2 亿王牌不用,非要挖曼联的非卖品!

奶盖熊本熊
2026-05-26 04:40:19
“金莲的药,冬萍的笑”:网友劝他俩复婚,嫌燕冬萍前夫过得太好

“金莲的药,冬萍的笑”:网友劝他俩复婚,嫌燕冬萍前夫过得太好

江山挥笔
2026-05-24 09:26:08
2026-05-26 20:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13087文章数 142653关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

数码
教育
艺术
本地
公开课

数码要闻

乔思伯推出ZE-120/240/360系列联体风扇,39-119元

教育要闻

“女儿10块钱都敢随便花!”重男轻女家长被制裁:女儿直接撕标签

艺术要闻

中国之美,美到极致!

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版