网易首页 > 网易号 > 正文 申请入驻

重要的事情说两遍!Prompt「复读机」,显著提高LLM推理能力

0
分享至


新智元报道

编辑:alan

【新智元导读】尽管大模型能力非凡,但干细活的时候还是比不上人类。为了提高LLM的理解和推理能力,Prompt「复读机」诞生了。

众所周知,人类的本质是复读机。

我们遵循复读机的自我修养:敲黑板,划重点,重要的事情说三遍。

but,事实上同样的方法对付AI也有奇效!

有研究证明,在提问的时候故意重复一遍——也就是复制粘贴,即可显著提高LLM的推理能力。


论文地址:https://arxiv.org/pdf/2309.06275

看下面的例子:


作者认为,通常情况下,问题中的重点token(比如这里的tennis balls)无法看到位于它后面的token(上图)。

相比之下,使用重读(re-reading,RE2)的方法,允许「tennis balls」在第二遍中看到自己对应的整个问题(How many tennis balls does he have now?),从而达到双向理解的效果(下图)。


实验表明,在14个数据集上的112个实验中,RE2技术都能带来一致的性能提升,无论是经过指令调整的模型(如ChatGPT),还是未经调整的模型(如Llama)。

实践中,RE2作为独立的技巧,可以与CoT(Let’s think step by step)以及自我一致性方法(self-consistency,SC)一起使用。

下表展示了混合应用多种方法对模型效果的影响。尽管自我一致性聚合了多个答案,但重读机制仍然有助于大多数场景的改进。


接下来,在GSM8K数据集上(使用ChatGPT)进一步研究输入问题复杂性对CoT和RE2提示的推理性能的影响。

这里通过计算真实解释中存在的推理步骤来衡量问题的复杂性,结果如下图所示。


随着问题复杂性的增加,所有提示的表现通常都会下降,但重读的引入提高了LLM应对各种复杂问题的表现。

此外,作者还计算了各代和输入问题之间的覆盖度,证明RE2增加了输出解释中的n-gram (n=1,2,3,4) 召回率。

重要的事情说2遍

现有的推理研究主要集中在设计多样化引导提示,而对输入阶段的理解却很少受到关注。

事实上,理解是解决问题的第一步,至关重要。

当今大多数LLM都采用单向注意力的decoder-only架构 ,在对问题进行编码时,单向注意力限制了token的可见性,这可能会损害对问题的全局理解。


怎么解决这个问题?作者受到人类习惯的启发,尝试让LLM把输入再读一遍。

与引导模型在输出中推理的CoT不同,RE2通过两次处理问题将焦点转移到输入,促进了单向解码器的双向编码,从而增强LLM理解过程。


上图为GSM8K数据集上测试的注意力分布图,较暗的单元格表示较高的注意力。

上虚线三角形内的区域表明,第二遍输入中的每个token都明显关注第一遍中的后续token,证明LLM的重读有望实现对问题的双向理解。

从另一个角度考虑,重读使LLM能够为输入编码分配更多的计算资源,类似于水平增加神经网络的深度。因此,拥有RE2的LLM对问题有更深入的理解。

普通推理

利用带有CoT提示的LLM来解决推理任务,可以用公式表述为:


其中,Cx表示提示输入,来自带有CoT提示指令的模板,z表示自然语言中的采样基本原理。

因此, LLM可以将复杂的任务分解为更易于管理的推理步骤,将每个步骤视为整个解决方案链的组成部分。

RE2 推理

受到人类重读策略的启发,将上面的方程改写为:


所以RE2在实际应用中就是下面这种格式:


其中{Input Query}是输入查询的占位符,左侧部分可以包含其他引发思考的提示。

实验

由于RE2的简单性和对输入阶段的重视,它可以与各种LLM和算法无缝集成,包括few-shot、自我一致性、各种引发思考的提示策略等。

为了验证RE2的有效性和通用性,研究人员在14个数据集上进行了112个实验,涵盖算术、常识和符号推理任务。

算术推理

实验考虑以下七个算术推理基准:

数学应用题的GSM8K基准、具有不同结构的数学应用问题的SVAMP数据集、不同数学应用题的ASDiv数据集、代数应用题的AQuA数据集、三到五年级学生的加法和减法数学应用题、多步骤数学问题数据集,以及单次运算的初等数学应用题数据集。


上表为算术推理基准测试结果。*处表示不使用任何技巧,但效果优于CoT提示的情况。

常识和符号推理

对于常识推理,实验采用StrategyQA、ARC和CSQA数据集。

StrategyQA数据集包含需要多步骤推理的问题;

ARC数据集(ARC-t)分为两个集合:挑战集(ARC-c)和简单集(ARC-e),前者包含基于检索和单词共现算法都错误回答的问题;

CSQA数据集由需要各种常识知识的问题组成。

实验评估两个符号推理任务:日期理解和Coinflip。日期理解是 BigBench数据集的子集,Coinflip是一个问题数据集,根据问题中给出的步骤,判断硬币翻转后是否仍然正面朝上。


结果表明,除了普通ChatGPT上的某些场景之外,具有简单重读策略的RE2,持续增强了LLM的推理性能。

RE2展示了跨各种LLM的多功能性(Text-Davinci-003、ChatGPT、LLaMA-2-13B和LLaMA-2-70B),涵盖指令微调 (IFT) 和非IFT模型。

作者还对RE2在零样本和少样本的任务设置、思维引发的提示方法以及自洽设置方面进行了探索,突出了其通用性。

Prompting

实验严格评估RE2模型在两种基线提示方法上的性能:Vanilla(不添加特技)和CoT(通过逐步的思维过程来指导模型)。


针对不同的任务,作者在提示中设计了答案格式指令,以规范最终答案的结构,便于精确提取答案。


实验的解码策略使用贪婪解码,温度设置为0,从而产生确定性输出。

最后探索一下问题重读次数对推理性能的影响:


上图展示了两个不同的LLM的表现如何随问题重读次数的变化而变化。我们可以发现重读2次使性能提高,之后随着问题重读次数增加,性能开始下降。

猜测原因有两个:i)过度重复问题可能会起到示范作用,鼓励LLM重复问题而不是生成答案,ii)重复问题会显著增加推理和预训练之间的不一致。

参考资料:

https://arxiv.org/pdf/2309.06275

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上个厕所被当选的真主党新最高领导人被送走 真主党实行集体领导

上个厕所被当选的真主党新最高领导人被送走 真主党实行集体领导

桑未落
2024-10-07 22:33:50
重磅!美国都开始“求救”了!美军舰传出重大噩耗,中方霸气发声

重磅!美国都开始“求救”了!美军舰传出重大噩耗,中方霸气发声

傲气经说
2024-10-08 10:34:01
现在是10月8号下午,刚刚曝出1个惊天大消息,要来大动作了吗?

现在是10月8号下午,刚刚曝出1个惊天大消息,要来大动作了吗?

股市皆大事
2024-10-08 13:56:12
上海小学生竞选大队委员的视频被网友称“太卷了”!父亲回应:擅长拍摄视频,希望孩子拥有站在台前的能力

上海小学生竞选大队委员的视频被网友称“太卷了”!父亲回应:擅长拍摄视频,希望孩子拥有站在台前的能力

东方网
2024-10-08 12:18:08
太缺德!病人危在旦夕,白色私家车竟占用应急车道挡住救护车通行

太缺德!病人危在旦夕,白色私家车竟占用应急车道挡住救护车通行

火山诗话
2024-10-07 21:05:49
俄军红军村损失已达5个装甲师规模,伊朗核实验成功是真是假?

俄军红军村损失已达5个装甲师规模,伊朗核实验成功是真是假?

史政先锋
2024-10-08 15:50:02
国家发改委主任郑栅洁:尽快出台合理扩大地方政府专项债支持范围的具体改革举措

国家发改委主任郑栅洁:尽快出台合理扩大地方政府专项债支持范围的具体改革举措

财联社
2024-10-08 10:32:11
中国记者徐德智,只是在联合国打了一个比方,就让日本无地自容!

中国记者徐德智,只是在联合国打了一个比方,就让日本无地自容!

日风的故事屋
2024-10-06 11:06:38
外交部:中国已同24个国家实现全面互免签证

外交部:中国已同24个国家实现全面互免签证

界面新闻
2024-10-08 16:00:10
涉嫌民事枉法裁判、受贿,长沙中院原院长肖新平被移送审查起诉

涉嫌民事枉法裁判、受贿,长沙中院原院长肖新平被移送审查起诉

新京报
2024-10-08 15:11:14
山东临沂一景区“跟着团长打县城”体验项目爆火,工作人员:国庆期间每天三四千人参与

山东临沂一景区“跟着团长打县城”体验项目爆火,工作人员:国庆期间每天三四千人参与

上游新闻
2024-10-08 13:45:07
火箭遭爵士19分大逆转:格林21分申京17分 谢泼德三分4中0

火箭遭爵士19分大逆转:格林21分申京17分 谢泼德三分4中0

醉卧浮生
2024-10-08 11:33:00
怎么看待10点这场发布会?

怎么看待10点这场发布会?

第一财经资讯
2024-10-08 11:25:41
56岁汪建民太突然了!

56岁汪建民太突然了!

每日新鲜事吖
2024-10-08 14:39:23
覃海洋“塌房”了,满脑子还是巴黎奥运会上的神级出场,怎么办?

覃海洋“塌房”了,满脑子还是巴黎奥运会上的神级出场,怎么办?

九方鱼论
2024-10-07 21:45:59
A股暴涨,近百家上市公司发布减持公告

A股暴涨,近百家上市公司发布减持公告

第一财经资讯
2024-10-07 22:55:08
中央不会扶持汕头,原因就在于当年在汕头发生的那件大事:

中央不会扶持汕头,原因就在于当年在汕头发生的那件大事:

现代春秋
2024-10-07 19:44:01
洲际导弹东风31的绝密资料是如何被美国窃取的?全因我国出了内鬼

洲际导弹东风31的绝密资料是如何被美国窃取的?全因我国出了内鬼

阿胡
2024-10-02 11:13:22
国足VS澳大利亚,央视的选择不意外,伊万发愁排兵布阵,宋凯亲临

国足VS澳大利亚,央视的选择不意外,伊万发愁排兵布阵,宋凯亲临

体育大学僧
2024-10-08 11:23:35
亚锦赛男团1/4决赛,林诗栋3:2阿拉米杨,不得不承认的3个事实!

亚锦赛男团1/4决赛,林诗栋3:2阿拉米杨,不得不承认的3个事实!

田先生篮球
2024-10-08 15:17:27
2024-10-08 18:30:44
新智元
新智元
AI产业主平台领航智能+时代
11610文章数 65617关注度
往期回顾 全部

科技要闻

重点转向致内部矛盾!OpenAI研究人才外流

头条要闻

伊朗14岁"小孩哥"爆冷击败王楚钦 曾获WTT青少赛冠军

头条要闻

伊朗14岁"小孩哥"爆冷击败王楚钦 曾获WTT青少赛冠军

体育要闻

Shams加入ESPN!接替Woj 预计年薪大涨

娱乐要闻

福原爱女儿7岁生日 妈妈福原爱缺席

财经要闻

创指涨17.25% 两市成交额超3.45万亿

汽车要闻

探店全新瑞虎8 PLUS 这是一台能让你躺平的SUV

态度原创

旅游
时尚
本地
数码
公开课

旅游要闻

传统农业县河南中牟,如何凭特色旅游出圈?

换季了穿什么衣服?看40+的女人这么打扮,简直时髦到骨子里

本地新闻

云游中国|还有谁不知道 荆门人有属于自己的仙本那

数码要闻

消息称小米将推 Redmi 电竞小平板,搭骁龙 8s Gen 3 处理器

公开课

眼花失眠抽筋,你的肝该调调了

无障碍浏览 进入关怀版