网易首页 > 网易号 > 正文 申请入驻

自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释

0
分享至



AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

自我纠错(Self Correction)能力,传统上被视为人类特有的特征,正越来越多地在人工智能领域,尤其是大型语言模型(LLMs)中得到广泛应用,最近爆火的OpenAI o1模型[1]和Reflection 70B模型[2]都采取了自我纠正的方法。

传统的大语言模型,因为在输出答案的时候是逐个Token输出,当输出长度较长时,中间某些Token出错是必然发生。但即使LLM后来知道前面输出的Token错了,它也得用更多错误来“圆谎”,因为没有机制让它去修正前面的错误。

而OpenAI o1在“慢思考”也就是生成Hidden COT的过程中,通过分析OpenAI官网给出的Hidden COT例子可以发现,在解决字谜问题的思考过程中,o1首先发现了每两个连续的明文字母会映射到一个秘文字母,于是便尝试使用奇数字母来构建明文,但是经过验证发现并不合理(Not directly);接着又重新修正答案最终成功解出字谜。



图1 OpenAI o1 官网示例(部分Hidden CoT)

Reflection 70B的关键技术也包括错误识别错误纠正。他们用到了一种名为Reflection-Tuning(反思微调)的技术,使得模型能够在最终确定回复之前,先检测自身推理的错误并纠正。在实际的执行过程中,这会用到一种名为思考标签(thinking tag)的机制。模型会在这个标签内部进行反思,直到它得到正确答案或认为自己得到了正确答案。

频频应用于大语言模型的自我纠错技术为何有效?为什么纠错过程可以让模型把原本答错的问题重新答对?

为了探究这一问题,北大王奕森团队与MIT合作,从理论上分析了大语言模型自我纠错能力背后的工作机理。



  • 论文题目:A Theoretical Understanding of Self-Correction through In-context Alignment
  • 论文地址:https://openreview.net/pdf?id=OtvNLTWYww
  • 代码地址:https://github.com/yifeiwang77/Self-Correction

作者团队将自我纠错的过程抽象为对齐任务,从上下文学习(In-context learning)的角度对自我纠错进行了理论分析。值得一提的是,他们并没有使用线性注意力机制下的线性回归任务进行理论分析,而是使用真实世界LLM在用的softmax多头注意力机制的transformer结构,并利用Bradley-Terry 模型和 Plackett-Luce 模型(LLM对齐的实际选择,用于RLHF和DPO)设计对齐任务进行研究。受理论启发,他们提出了一种简单的自我纠错策略--上下文检查(Check as Context),并通过实验,在消除大语言模型中存在的潜在偏见以及防御越狱攻击中效果显著。







作者也通过设置验证实验来检验其理论导出的种种结论,以及各个 transformer 结构模块对 LLM 执行上下文对齐能力的影响,作者发现了很多有趣的结论:



自我纠错策略:上下文检查

作者使用上下文检查(Check as Context,CaC)作为LLM完成自我纠错的方法,在两个现实世界的对齐任务中探索了自我纠错:缓解社会偏见和防范越狱攻击。



图3 BBQ数据集上使用CaC的示例。



消除LLM社会偏见

本文使用 BBQ(Bias Benchmark for QA)数据集,在 vicuna-7B 和 Llama2-7b-chat 模型上测试了 CaC 方法的效果。此外,还在 BBQ 上研究了模型大小、评估质量和纠错轮数对纠错效果的影响。主要结论如下:

  • 多数情况下,自我纠错后的正确率高于原正确率(图4)
  • 正确率提升与自我评估的准确率高度相关(图4(c):),甚至呈线性关系(图5(a))。
  • 采用不同的评价方式效果依次提升:仅使用对/错评价 < 自然语言评价 < 包含 CoT 的对/错评价。这是因为 CoT 不仅能提高评价准确性,还能为模型提供额外的自然语言信息。(图5(b))
  • 更大的模型有更好的纠错能力(图5(c)(d))
  • 当评价的正确率足够高时,更多的纠错轮数可以带来更好的纠错效果。(图5(e))



图4 CaC对于不同种类的偏见的修正



图5 BBQ上关于模型大小、评估质量以及纠错轮数的消融实验

同时,在防御越狱攻击的实验中,CaC也是所有测试的防御手段中最低的。

更多文章细节,请参考原文:https://openreview.net/pdf?id=OtvNLTWYww

参考资料:

[1] https://openai.com/index/introducing-openai-o1-preview/

[2] https://reflection70b.com/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华为Mate 70外观公布 精致感满满 今日午间开启预订

华为Mate 70外观公布 精致感满满 今日午间开启预订

手机中国
2024-11-18 10:24:03
真没想到,台湾亲民党主席宋楚瑜在接受采访时,竟然语出惊人!

真没想到,台湾亲民党主席宋楚瑜在接受采访时,竟然语出惊人!

现代小青青慕慕
2024-11-13 06:33:18
1896年《纽约时报》专访李鸿章,现在读来依然后背发凉

1896年《纽约时报》专访李鸿章,现在读来依然后背发凉

读史
2024-09-11 07:00:03
赵普:医疗腐败的丑陋,普通人根本想不到

赵普:医疗腐败的丑陋,普通人根本想不到

深度知局
2024-10-06 18:47:07
贝佐斯前妻再捐80亿美元,累计已捐赠370亿美元

贝佐斯前妻再捐80亿美元,累计已捐赠370亿美元

新浪财经
2024-11-18 09:04:04
深夜,中概股、A50拉升!

深夜,中概股、A50拉升!

证券时报
2024-11-19 01:48:04
中植系财富公司北京理顾已退缴20亿!

中植系财富公司北京理顾已退缴20亿!

WEALTH财富管理
2024-11-18 15:00:07
杨坤澳门演唱会很成功 刀郎澳门演唱会座无虚席 冷清与热情太讽刺

杨坤澳门演唱会很成功 刀郎澳门演唱会座无虚席 冷清与热情太讽刺

娱乐书坊
2024-11-18 14:31:12
总理首席翻译张璐升迁,职务还真不低!

总理首席翻译张璐升迁,职务还真不低!

华人星光
2024-11-18 13:35:21
票房从33亿跌到8000万,我感慨:狼来了的故事在邓超身上应验了

票房从33亿跌到8000万,我感慨:狼来了的故事在邓超身上应验了

靠谱电影君
2024-11-17 22:27:09
女子穿“带沟”紧身瑜伽衣服坐地铁,乘客直翻白眼:一点都不正经

女子穿“带沟”紧身瑜伽衣服坐地铁,乘客直翻白眼:一点都不正经

南城无双
2024-11-07 12:21:36
中金:美联储降息或将进入“慢车道”

中金:美联储降息或将进入“慢车道”

财联社
2024-11-18 07:56:11
官媒:股市暴涨暴跌,游资主导的“杀跌”危机,耐心资本哪去了?

官媒:股市暴涨暴跌,游资主导的“杀跌”危机,耐心资本哪去了?

股市风向标
2024-11-18 20:30:07
浙江检察机关依法对李金良涉嫌受贿案提起公诉

浙江检察机关依法对李金良涉嫌受贿案提起公诉

澎湃新闻
2024-11-18 16:47:05
观瞧拜登此番拉美行,作为美国总统的最后一次出远门

观瞧拜登此番拉美行,作为美国总统的最后一次出远门

新民晚报
2024-11-18 14:27:11
人生10大忌,切忌切忌

人生10大忌,切忌切忌

大禹小城
2024-11-17 19:37:27
刘晓庆的瓜愈演愈烈!小男友再爆猛料私密视频流出,他得寸进尺了

刘晓庆的瓜愈演愈烈!小男友再爆猛料私密视频流出,他得寸进尺了

辣条小剧场
2024-11-09 06:22:17
蛮怼不叫做爱,学习这些技巧让你拥有高潮人生

蛮怼不叫做爱,学习这些技巧让你拥有高潮人生

温柔圣手
2024-07-07 09:32:24
如果我们出生人口跌破700w会发生啥?评论区真是直言不讳!各个精辟

如果我们出生人口跌破700w会发生啥?评论区真是直言不讳!各个精辟

有趣的火烈鸟
2024-11-06 20:47:06
济宁万象汇坠楼后续:监控公开,知情人曝猛料,商场连夜装防坠网

济宁万象汇坠楼后续:监控公开,知情人曝猛料,商场连夜装防坠网

简读视觉
2024-11-18 20:00:02
2024-11-19 02:40:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9718文章数 142062关注度
往期回顾 全部

科技要闻

小米第三季营收925亿 智能电动汽车占97亿

头条要闻

美英法授权乌使用远程武器对俄领土进行打击 中方表态

头条要闻

美英法授权乌使用远程武器对俄领土进行打击 中方表态

体育要闻

那些偷偷厉害着的家伙 杰罗姆回来了

娱乐要闻

这一夜,王骁保全了金鸡奖的体面

财经要闻

张瑜:年底可能会“突击花钱”近1万亿

汽车要闻

全新燃油MINI正式上市 20.88-30.58万元

态度原创

手机
亲子
本地
公开课
军事航空

手机要闻

华为Mate70系列突然定档:预约数已破百万,外观配置均已清晰!

亲子要闻

教11个月大的妹妹叫哥哥,一开口林黛玉爆改小李逵!

本地新闻

重庆记忆|山城特色“过山车”上天入地穿花海

公开课

一块玻璃,如何改变人类世界?

军事要闻

乌首次获准用美制武器打击俄纵深 攻击或在几天内

无障碍浏览 进入关怀版