网易首页 > 网易号 > 正文 申请入驻

自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释

0
分享至



AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

自我纠错(Self Correction)能力,传统上被视为人类特有的特征,正越来越多地在人工智能领域,尤其是大型语言模型(LLMs)中得到广泛应用,最近爆火的OpenAI o1模型[1]和Reflection 70B模型[2]都采取了自我纠正的方法。

传统的大语言模型,因为在输出答案的时候是逐个Token输出,当输出长度较长时,中间某些Token出错是必然发生。但即使LLM后来知道前面输出的Token错了,它也得用更多错误来“圆谎”,因为没有机制让它去修正前面的错误。

而OpenAI o1在“慢思考”也就是生成Hidden COT的过程中,通过分析OpenAI官网给出的Hidden COT例子可以发现,在解决字谜问题的思考过程中,o1首先发现了每两个连续的明文字母会映射到一个秘文字母,于是便尝试使用奇数字母来构建明文,但是经过验证发现并不合理(Not directly);接着又重新修正答案最终成功解出字谜。



图1 OpenAI o1 官网示例(部分Hidden CoT)

Reflection 70B的关键技术也包括错误识别错误纠正。他们用到了一种名为Reflection-Tuning(反思微调)的技术,使得模型能够在最终确定回复之前,先检测自身推理的错误并纠正。在实际的执行过程中,这会用到一种名为思考标签(thinking tag)的机制。模型会在这个标签内部进行反思,直到它得到正确答案或认为自己得到了正确答案。

频频应用于大语言模型的自我纠错技术为何有效?为什么纠错过程可以让模型把原本答错的问题重新答对?

为了探究这一问题,北大王奕森团队与MIT合作,从理论上分析了大语言模型自我纠错能力背后的工作机理。



  • 论文题目:A Theoretical Understanding of Self-Correction through In-context Alignment
  • 论文地址:https://openreview.net/pdf?id=OtvNLTWYww
  • 代码地址:https://github.com/yifeiwang77/Self-Correction

作者团队将自我纠错的过程抽象为对齐任务,从上下文学习(In-context learning)的角度对自我纠错进行了理论分析。值得一提的是,他们并没有使用线性注意力机制下的线性回归任务进行理论分析,而是使用真实世界LLM在用的softmax多头注意力机制的transformer结构,并利用Bradley-Terry 模型和 Plackett-Luce 模型(LLM对齐的实际选择,用于RLHF和DPO)设计对齐任务进行研究。受理论启发,他们提出了一种简单的自我纠错策略--上下文检查(Check as Context),并通过实验,在消除大语言模型中存在的潜在偏见以及防御越狱攻击中效果显著。







作者也通过设置验证实验来检验其理论导出的种种结论,以及各个 transformer 结构模块对 LLM 执行上下文对齐能力的影响,作者发现了很多有趣的结论:



自我纠错策略:上下文检查

作者使用上下文检查(Check as Context,CaC)作为LLM完成自我纠错的方法,在两个现实世界的对齐任务中探索了自我纠错:缓解社会偏见和防范越狱攻击。



图3 BBQ数据集上使用CaC的示例。



消除LLM社会偏见

本文使用 BBQ(Bias Benchmark for QA)数据集,在 vicuna-7B 和 Llama2-7b-chat 模型上测试了 CaC 方法的效果。此外,还在 BBQ 上研究了模型大小、评估质量和纠错轮数对纠错效果的影响。主要结论如下:

  • 多数情况下,自我纠错后的正确率高于原正确率(图4)
  • 正确率提升与自我评估的准确率高度相关(图4(c):),甚至呈线性关系(图5(a))。
  • 采用不同的评价方式效果依次提升:仅使用对/错评价 < 自然语言评价 < 包含 CoT 的对/错评价。这是因为 CoT 不仅能提高评价准确性,还能为模型提供额外的自然语言信息。(图5(b))
  • 更大的模型有更好的纠错能力(图5(c)(d))
  • 当评价的正确率足够高时,更多的纠错轮数可以带来更好的纠错效果。(图5(e))



图4 CaC对于不同种类的偏见的修正



图5 BBQ上关于模型大小、评估质量以及纠错轮数的消融实验

同时,在防御越狱攻击的实验中,CaC也是所有测试的防御手段中最低的。

更多文章细节,请参考原文:https://openreview.net/pdf?id=OtvNLTWYww

参考资料:

[1] https://openai.com/index/introducing-openai-o1-preview/

[2] https://reflection70b.com/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海楼市荒诞一幕:豪宅卖不出去了,大批业主砸盘

上海楼市荒诞一幕:豪宅卖不出去了,大批业主砸盘

风向观察
2024-12-25 23:10:52
银行盯上“县城贵妇”

银行盯上“县城贵妇”

蓝鲸财经
2024-12-26 16:28:14
陆军原副司令员尤海涛、南部战区原副司令员李鹏程,严重违纪违法

陆军原副司令员尤海涛、南部战区原副司令员李鹏程,严重违纪违法

鲁中晨报
2024-12-26 15:00:08
江苏一女子做流产手术时不幸身亡,丈夫赶到医院讨说法,医生大惊:她老公已拿走55万赔偿,不是你吗?

江苏一女子做流产手术时不幸身亡,丈夫赶到医院讨说法,医生大惊:她老公已拿走55万赔偿,不是你吗?

财经三分钟pro
2024-12-26 12:59:22
成都一10米高圣诞树起火!原因遭曝光,网友:长津湖的怒火

成都一10米高圣诞树起火!原因遭曝光,网友:长津湖的怒火

派大星纪录片
2024-12-26 15:24:21
大便次数与长寿有关!研究发现:每天排便在这个次数,身体更健康

大便次数与长寿有关!研究发现:每天排便在这个次数,身体更健康

肿瘤的真相与误区
2024-12-25 19:35:24
她是“主持界耻辱”,沦为全民公敌,被人人喊打,她到底做了什么

她是“主持界耻辱”,沦为全民公敌,被人人喊打,她到底做了什么

诗词中国
2024-12-25 13:13:52
00后盗用公司150万元打赏男主播:他们很会提供情绪价值

00后盗用公司150万元打赏男主播:他们很会提供情绪价值

上游新闻
2024-12-26 17:52:19
比亚迪巴西员工发声:过得很好,没有被奴役,更不想失去工作!

比亚迪巴西员工发声:过得很好,没有被奴役,更不想失去工作!

阿伧说事
2024-12-26 16:39:08
人民币突发大幅贬值!12月26日,今日凌晨的五大消息全面袭来!

人民币突发大幅贬值!12月26日,今日凌晨的五大消息全面袭来!

风口招财猪
2024-12-26 01:48:44
震惊!网传上海一园区通知园区所有企业向红十字会捐款,引发热议

震惊!网传上海一园区通知园区所有企业向红十字会捐款,引发热议

火山诗话
2024-12-26 10:48:35
让中国有钱人买得爽,也没有那么难

让中国有钱人买得爽,也没有那么难

虎嗅APP
2024-12-26 18:00:08
光刻机“闹剧”结束了!荷兰正式宣布,人民日报的呼吁该重视了

光刻机“闹剧”结束了!荷兰正式宣布,人民日报的呼吁该重视了

疯狂小菠萝
2024-12-26 12:36:12
世界,正陪中美进行一场赌博:中国掉入中等收入陷阱还是美国崩?

世界,正陪中美进行一场赌博:中国掉入中等收入陷阱还是美国崩?

沧海一书客
2024-12-26 07:26:59
震惊!菲律宾15岁少女被性侵后死亡,参与LJ的竟多达 13 人

震惊!菲律宾15岁少女被性侵后死亡,参与LJ的竟多达 13 人

西西弗说
2024-12-26 10:30:30
知名男星被警方拘留?最新回应!

知名男星被警方拘留?最新回应!

鲁中晨报
2024-12-26 19:04:07
港星郑敬基被警方通缉,77岁叶德娴暂时未受影响,近照又黑又瘦

港星郑敬基被警方通缉,77岁叶德娴暂时未受影响,近照又黑又瘦

开开森森
2024-12-26 15:10:38
美国政坛又爆丑闻:81岁议员或已认知障碍多年 马斯克直呼:太疯狂了…

美国政坛又爆丑闻:81岁议员或已认知障碍多年 马斯克直呼:太疯狂了…

财联社
2024-12-25 18:30:15
“全吐了…”,知名餐饮连锁又出事,门店超8000家

“全吐了…”,知名餐饮连锁又出事,门店超8000家

西西弗说
2024-12-26 10:53:26
悲催!网传南京一对夫妻自述买房经历,一夜返贫,血亏300多万…

悲催!网传南京一对夫妻自述买房经历,一夜返贫,血亏300多万…

火山诗话
2024-12-25 19:30:28
2024-12-26 21:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
9874文章数 142120关注度
往期回顾 全部

科技要闻

小米正搭建GPU万卡集群,大力投入AI大模型

头条要闻

柯文哲遭起诉求刑28年半 中国国民党、民进党表态

头条要闻

柯文哲遭起诉求刑28年半 中国国民党、民进党表态

体育要闻

再见,中超最后的超级巨星

娱乐要闻

57岁王祖贤分享近照,状态太好又被质疑整容

财经要闻

69亿订单"消失",卓然股份隐藏了什么?

汽车要闻

新物种iCAR V23的“尤里卡时刻”

态度原创

教育
亲子
房产
本地
公开课

教育要闻

小芳回到家向妈妈求助,妈妈看着题目也犯了难:这题咋这么绕?

亲子要闻

2岁重孙子去太奶奶家,给太奶奶买了水果,87岁太奶奶高兴坏了

房产要闻

富力地产子公司欠薪风波:年关将至!员工深陷困境,呼吁尽快解决

本地新闻

好吃潮州|尝一口,这里的美食有点“潮”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版