网易首页 > 网易号 > 正文 申请入驻

GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

0
分享至

新智元报道

编辑:乔杨

【新智元导读】今天,OpenAI悄悄在博客上发布了一篇新论文——CriticGPT,而这也是前任超级对齐团队的「遗作」之一。CriticGPT同样基于GPT-4训练,但目的却是用来指正GPT-4的输出错误,实现「自我批评」。

OpenAI最近的拖延症状逐渐严重,不仅GPT-5遥遥无期,前几天还宣布GPG-4o的语音功能将推迟一个月发布。

或许是为了缓解广大网友的热切期待,OpenAI在今天放出了新模型CriticGPT,相当于GPT-4的「拐杖」。

我们训练了一个模型CriticGPT,来捕获GPT-4生成代码中的错误。我们开始将此类模型集成到RLHF对齐管道中,以帮助人类监督AI执行困难的任务。

值得注意的是,CriticGPT依旧是用GPT-4模型训练的,但被用于给GPT-4生成的代码「捉虫」,这似乎有点「自我闭环」的意思?

推特网友迅速质疑,「我用石头摧毁石头」,矛盾得有点好笑。

但也有人从另一个角度发现了华点:这难道就是模型自我提升的开始?

官方发布的推文和博客中还没有提及CriticGPT何时会集成到ChatGPT中,但技术文章已经发布,而且又是一篇离职人员的遗留作品——由超级对齐的scalable oversight团队共同完成,作者署名包含Jan Leike。

论文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

那就来仔细看看,让GPT-4「自我提升」的结果究竟如何?

GPT-4自己批自己

RLHF全称为Reinforcement Learning from Human Feedback,是包括ChatGPT在内的很多LLM常用的对齐方法。人类AI训练师们会收集模型对同一个问题的不同响应并进行评分,以此改进模型。

随着ChatGPT的响应变得更加准确,它犯的错误也会更微妙、让人类训练师更难察觉,因而降低了RLHF的有效性。

事实上,这也是RLHF的根本限制,随着模型逐渐进化到比任何提供反馈的专家都更有知识,基于人类的评价来调整模型就会越来越困难。

因此,OpenAI的「可扩展监督」团队想到了跳出RLHF的框架,干脆训练模型为ChatGPT撰写评论,纠正输出结果中不准确的地方。

这种方法似乎取代了RLHF,但好像又没取代——因为训练CriticGPT的过程,仍然采用了RLHF。

核心思想非常简洁:CriticGPT依旧是自回归模型。标注者先向ChatGPT的响应输出中人为注入一些微妙的错误,CriticGPT针对这些有错误的答案生成批评意见,之后再由人类训练师为批评意见进行打分排名。

CriticGPT训练流程

RLHF的训练过程与ChatGPT类似,具体如下:

  1. 为数据集中每个问题和答案采样CriticGPT生成的批评意见

  2. 人类评估者对其各个属性及总体质量进行评分

  3. 训练奖励模型用于预测人类对模型输出的整体质量排名

  4. 使用PPO优化奖励模型

  5. 应用一种创新的推理时采样策略:强制采样束搜索(FSBS)

大部分的训练数据都来自人类篡改GPT答案的这个过程,但也包含少部分未经修饰的原始答案。

为什么一定要人为向ChatGPT的响应输出中注入bug?不能直接筛选出有bug的答案吗?

论文中提出,使用原始、未经修饰的答案会存在如下几个问题:

  • 许多答案不会包含严重问题,进而降低了数据对于改进批评意见的价值

  • 如果无法控制错误类型,CriticGPT会输出自由形式且模糊不清的批评意见,难以验证其正确性

  • 人类也很难发现CriticGPT遗漏的重要问题

  • 偏好率可能受到许多风格因素的影响,并会高估模型性能

需要注意的是,人类已经检测到有bug的模型输出,本身就说明它们更容易被人发现!

篡改方法最重要的优点是制造出了高质量、难以发现的错误,而且平均而言更严重。知道了哪里有预先插入的bug,人类训练师也更容易区分出那些不够全面、遗漏bug的批评。

团队有意地保证了这些人为篡改的复杂和微妙。他们训练了一个二元判别器预测代码是否被篡改,发现较小的模型并没有较好的分辨能力(图13),以此验证了篡改代码的质量。

人类评估CriticGPT的批评意见时,从以下几个维度给出评分和排名:

  • 是否全面 ,即没有遗漏任何明显或严重的问题

  • 是否捕获到了之前插入的特定bug,即CBI(critique-bug inclusion)

  • 有没有出现幻觉或者挑剔现象,指出了不存在的问题

  • 对整体有用性的主观评级,包含上述内容并考虑风格和整体的实用性

在训练CriticGPT的过程中,除了RLHF方法,团队将奖励模型与搜索结合,提出了一种名为强制采样束搜索的方法(Forced Sampling Beam Seach,FSBS)。

一般来说,模型产生的批评意见更长时,也更容易出现幻觉。这有点类似于「准确率」和「召回率」之间的权衡。

FSBS能够激励CriticGPT在产生更长、更全面的批评时,减少「无中生有」或者「鸡蛋里挑骨头」的发生率。

之后进行的消融实验也证明了FSBS方法的有效性(图12)。

当然,OpenAI还是忘不了他们最喜欢的Scaling Law。他们用RLHF训练并评估了一系列模型,来描述模型规模对bug检测效果的影响(图5)。

直观来看,要达到CriticGPT(只进行了RL)的同等水平,在没有额外数据或修改pipeline的情况下,需要将ChatGPT的预训练计算量扩大30×。

评估结果

首先,团队把人类和CriticGPT撰写的批评意见混杂在一起,再交给人类进行评估。

标注者们会更喜欢自己同行们的产出吗?并没有。

ChatGPT和CriticGPT都超过了人类表现(图1b),而且63%的情况下,CriticGPT撰写的批评意见比人类的更受青睐(图1a)。

要知道,研究团队招来写批评意见的不是编程门外汉,而是有平均5年Python研发经验的技术人员。他们在每个例子上大约会花费50分钟,并能执行代码或查找参考手册,结果也只能发现25%左右的人为注入的bug。

论文认为,这些评估者在没有LLM帮助下撰写的批评意见相对较短,而且可能缺乏所需的领域知识(比如特定的Python库),并且有些篡改行为确实难以发现,这三个原因导致了人类和模型之间如此明显的差异。

从图6中可以看到,CriticGPT的检测错误能力比较全面,对于人为篡改的错误以及原始输出中就存在的错误,都达到了最高的全面性百分比。

更令人惊讶的是,ChatGPT在这两个方面的表现也都超过人类独立撰写的批评意见。人类评估者要借助CriticGPT,才能与ChatGPT水平相当。

但是下面的图7又开启了一轮反转。团队发现,虽然人类容易遗漏错误,但人类也最不容易产生幻觉或者「鸡蛋里挑骨头」的问题。

在产生幻觉这方面,ChatGPT的表现最不如人意,CriticGPT稍有提升。

考虑到批评意见的全面性与减少幻觉之间的权衡,作者提出了团队中「人机合作」模式的好处。如图8所示,人类+CriticGPT的团队表现能够超越模型或人类分别单独工作时的Pareto边界。

总结

可扩展监督(scalabel oversight)的终极目标是帮助人类评估模型,来训练出更好、更安全的策略。

从长期来看,我们应该找到一种泛化性更强的批评模型训练方法,适用于没有groung truth和奖励函数的长形式、开放式任务。

在现实场景中,模型输出的错误可能分布在答案的很多部分。CriticGPT的工作重点是指出一处的重要错误,但未来依旧需要探索,如何识别出分散在答案中各处的错误。

CriticGPT依旧存在幻觉问题,且帮助有限。如果编码任务或者原模型的输出过于复杂,即使是有模型协助的专家也可能无法做出很好的评估。

但这篇文章的方法为今后的RLHF训练带来了一种新鲜思路:将RLHF应用到GPT-4中,训练出CriticGPT这样的模型,可以合成出更多的高质量RLHF数据。

参考资料:

https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5-0,徐正源上任2胜1平 辽宁完胜浙江 姆本扎2场5球 托利奇太水了

5-0,徐正源上任2胜1平 辽宁完胜浙江 姆本扎2场5球 托利奇太水了

替补席看球
2026-05-24 21:45:17
美国务卿称未来几小时可能会有好消息

美国务卿称未来几小时可能会有好消息

界面新闻
2026-05-24 15:46:53
中国球员又取一胜!王曦雨横扫过关,16个月后再次在大满贯赢球

中国球员又取一胜!王曦雨横扫过关,16个月后再次在大满贯赢球

全景体育V
2026-05-24 21:17:45
巴奴火锅北京悠唐店致歉!顾客排队到凌晨4点仍未能用餐?补偿:300元储值卡

巴奴火锅北京悠唐店致歉!顾客排队到凌晨4点仍未能用餐?补偿:300元储值卡

北京商报
2026-05-24 12:02:36
中央气象台:江苏、上海、浙江西部、安徽南部、湖北东部和南部等地出现较强雷达回波

中央气象台:江苏、上海、浙江西部、安徽南部、湖北东部和南部等地出现较强雷达回波

大风新闻
2026-05-24 10:26:30
上海水果摊老板免费送杨梅,一上午送出5000斤!“烂在树上很可惜,都有检测证书的”

上海水果摊老板免费送杨梅,一上午送出5000斤!“烂在树上很可惜,都有检测证书的”

大风新闻
2026-05-24 11:19:04
郭正亮:毛选第四卷令我惊讶,毛主席的判断几乎跟后来的历史吻合

郭正亮:毛选第四卷令我惊讶,毛主席的判断几乎跟后来的历史吻合

浩渺青史
2026-05-24 17:21:27
雅马哈和杜卡迪掀桌子,联合众车队向赛会施压,这样下去没法玩了

雅马哈和杜卡迪掀桌子,联合众车队向赛会施压,这样下去没法玩了

长江浊酒客
2026-05-24 15:43:38
两日连坠毁两架,还全是中国战机!巴基斯坦一口咬定:非人为失误

两日连坠毁两架,还全是中国战机!巴基斯坦一口咬定:非人为失误

凡知
2026-05-23 17:47:32
高温连破历史记录,印度政府却将空调压缩机进口比例上限收紧至30%,加剧供需矛盾

高温连破历史记录,印度政府却将空调压缩机进口比例上限收紧至30%,加剧供需矛盾

风向观察
2026-05-24 16:33:31
黄仁勋与家人台湾省聚餐!爸爸与哥哥都秃顶,因祖籍问题网友破防

黄仁勋与家人台湾省聚餐!爸爸与哥哥都秃顶,因祖籍问题网友破防

裕丰娱间说
2026-05-24 07:58:18
活久见!因女生投诉男子光膀健身不雅,浙江一健身房禁止女性入店

活久见!因女生投诉男子光膀健身不雅,浙江一健身房禁止女性入店

火山詩话
2026-05-24 12:20:45
25岁姑娘私处肿痛,红着脸去找医生看,结果医生一开口就把姑娘吓哭了

25岁姑娘私处肿痛,红着脸去找医生看,结果医生一开口就把姑娘吓哭了

张晓磊
2026-05-23 11:50:34
全国总工会:坚决拥护党中央决定

全国总工会:坚决拥护党中央决定

新京报
2026-05-23 19:45:06
日媒:高市早苗发文称对中国山西煤矿事故深感悲痛

日媒:高市早苗发文称对中国山西煤矿事故深感悲痛

随波荡漾的漂流瓶
2026-05-23 22:02:02
留神峪煤矿瓦斯爆炸事故82人遇难,山西博主感慨:矿难这件事,我已经麻木了

留神峪煤矿瓦斯爆炸事故82人遇难,山西博主感慨:矿难这件事,我已经麻木了

齐天候
2026-05-24 22:33:34
湖人一夜4消息!老詹1年3500万+里夫斯5年2亿?骑媒公开招募回家

湖人一夜4消息!老詹1年3500万+里夫斯5年2亿?骑媒公开招募回家

锅子篮球
2026-05-24 21:15:39
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

夜深爱杂谈
2026-05-24 00:36:11
俄罗斯的报复?7小时大空袭!俄军高超音速导弹疑似末端崩解

俄罗斯的报复?7小时大空袭!俄军高超音速导弹疑似末端崩解

鹰眼Defence
2026-05-24 16:36:08
日本2025世博会电动大巴报废,当时宣称日本制造,实为外包给中国小厂贴牌

日本2025世博会电动大巴报废,当时宣称日本制造,实为外包给中国小厂贴牌

可达鸭面面观
2026-05-22 09:28:08
2026-05-24 23:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15296文章数 66884关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

"空军一号"前屹立的礼兵发声:发动机的热浪拍打后背

头条要闻

"空军一号"前屹立的礼兵发声:发动机的热浪拍打后背

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

数码
旅游
游戏
本地
时尚

数码要闻

SSD价格实在太荒谬!SATA竟比NVMe贵了3倍:8TB标价2.8万元

旅游要闻

足不出“沪”赏繁花!来宝山这5个鲜花农场,实现“鲜花自由”!

《GTA6》地图再曝!超大片农场 史诗级大湖

本地新闻

用云锦的方式,打开江苏南京

《低智商犯罪》一半惊喜,一半可惜

无障碍浏览 进入关怀版