网易首页 > 网易号 > 正文 申请入驻

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF漏洞,网友抢着看

0
分享至

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

之前领导OpenAI安全团队的北大校友翁荔(Lilian Weng),离职后第一个动作来了。

当然是发~博~客。

前脚刚发出来,后脚就被大伙儿齐刷刷码住,评论区一堆人排队加待读清单。

还有不少OpenAI前同事转发推荐。

这次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本人直言写起来不容易。

主题围绕强化学习中奖励黑客(Reward Hacking)问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。

她强调奖励黑客行为在大模型的RLHF训练中的潜在影响,并呼吁更多研究关注理解和缓解这一问题。

在我看来,这是现实世界部署更多自主AI模型应用的主要障碍。

尝试定义Reward Hacking

传统概念强化学习中,Agent利用奖励函数中的缺陷或模糊性来获得高额奖励,而没有真正学习或完成预期任务,是一个常见的问题。

她举的例子包括:

  • 机器人把手放在物体和摄像头之间,欺骗人类已经抓住物体了
  • 以跳的更高为目标的Agent在物理模拟器中利用程序bug,完成不符合物理规律的跳跃。

在大模型中,Reward hacking则可能表现为:

  • 摘要生成模型利用ROUGE评估指标的缺陷获得高分,但生成的摘要难以阅读。
  • 代码模型篡改单元测试代码,甚至直接修改奖励本身。

翁荔认为Reward hacking的存在有两大原因:

  • 强化学习环境通常不完美
  • 准确指定奖励函数本质上是一项艰巨的挑战

语言模型兴起的时代,并且RLHF成为对齐训练事实上的方法,语言模型强化学习中的Reward hacking表现也相当令她担忧。

过去学术界对这个话题的研究都相当理论,专注于定义或证明Reward hacking的存在,然而关于实际该如何缓解这种现象的研究仍然有限。

她写这篇博客,也是想呼吁更多研究关注、理解和缓解这一问题。

为了定义Reward Hacking,翁荔首先回顾了近年来学术界提出的相关概念

包括奖励腐败(Reward corruption)、奖励篡改(Reward tampering)等等。

其中,Reward hacking这个概念,早在2016年由Anthropic创始人Dario Amodei共一论文提出。

当时他和另一位联创Chris Olah还在谷歌大脑,且已经与OpenAI联创John Schulman展开合作。

如今他们仨又在Anthropic汇合了……

言归正传,综合一系列研究,翁荔认为Reward Hacking在较高层次上可分为两类:

  • 环境或目标设定不当:由于环境设计或奖励函数存在缺陷,导致Agent学到非预期行为。
  • 奖励篡改:Agent学会直接干预奖励机制本身。

同时她也认为设计有效的奖励塑造机制本质上很困难。

与其责备设计不当的奖励函数,不如承认由于任务本身的复杂性、部分可观察状态、考虑的多个维度和其他因素,设计一个好的奖励函数本身就是一项内在挑战。

另外在分布外环境中测试强化学习Agent时,还可能出现以下问题:

  • 模型即使有正确的目标也无法有效泛化,这通常发生在算法缺乏足够的智能或能力时。
  • 模型能够很好地泛化,但追求的目标与其训练目标不同。

那么,为什么会出现Reward Hacking?根据Amodei等人2016年的分析成因包括:

  • 环境状态和目标的不完全可观测性,导致奖励函数无法完美表征环境。
  • 系统复杂性使其易受攻击,尤其是被允许执行改变环境的代码时。
  • 涉及抽象概念的奖励难以学习或表述。
  • RL的目标就是高度优化奖励函数,这与设计良好的RL目标之间存在内在”冲突”。

此外,观察到的Agent行为可能与无数个奖励函数相一致,准确识别其真正优化的奖励函数在一般情况下是不可能的。

翁荔预计随着模型和算法的日益复杂,Reward Hacking问题会更加普遍。

更智能的模型更善于发现并利用奖励函数中的”漏洞”,使Agent奖励与真实奖励出现偏差。相比之下,能力较弱的算法可能无法找到这些漏洞。

那么,大模型时代的Reward Hacking,又有哪些独特之处?

语言模型中的Reward Hacking

在RLHF训练中,人们通常关注三种类型的奖励:

  • 人们真正希望大模型优化的内容,被称为黄金奖励(Gold reward)
  • 人类奖励(Human reward),实际用来评估大模型,在数据标注任务中来自个体人类,且标注有时间限制,并不能完全准确地反映黄金奖励
  • 代理奖励(Proxy reward),也就是在人类数据上训练的奖励模型所预测的得分,继承了人类奖励的所有弱点,加上潜在的建模偏差

翁荔认为,RLHF通常优化代理奖励分数,但人们最终关心的是黄金奖励分数。

例如,模型可能经过优化,学会输出看似正确且有说服力的回答,但实际上却是不准确的,这可能会误导人类评估者更频繁地批准其错误答案。

换句话说,由于RLHF,“正确”与“对人类看似正确”之间出现了分歧。

在一项RLHF研究中,使用了大模型竞技场ChatbotArena数据训练奖励模型,就出现AI更擅长说服人类它们是正确的情况:

  • RLHF提高了人类对AI回答的认可度,但不一定就能提高AI的正确率。
  • RLHF削弱了人类对AI回答的评估能力,评估的错误率更高。
  • RLHF使错误的AI回答对于人类更有说服力,表现为评估的假阳性率显著增加。

此外,随着大模型越来越多作为评估者对其他模型提供反馈,也可能进一步引入偏差。

翁荔认为这种偏差尤其令人担心,因为评估模型的输出被用作奖励信号的一部分,可能容易被利用。

比如2023年一项实验中,简单改变候选答案的顺序就能改变结果,GPT-4倾向于给第一个答案高分数,ChatGPT(3.5)更倾向于第二个。

另外,即使不更新参数,大模型仅靠上下文学习能力也可能产生Reward hacking现象,称为ICRH(In-context Reward Hacking)。

ICRH与传统Reward Hacking还有两个显著不同:

  • ICRH在自我优化设置中的测试时间通过反馈循环发生,而传统Reward hking行为在训练期间发生。
  • 传统Reward hacking行为出现在Agent专注于一项任务时,而ICRH则是由完成通用任务驱动的。

翁荔认为目前还没有避免、检测或预防ICRH的有效方法,仅仅提高提示的准确性不足以消除ICRH,而扩大模型规模可能会加剧ICRH。

在部署前进行测试的最佳实践是通过更多轮次的反馈、多样化的反馈以及注入非典型环境观察来模拟部署时可能发生的情况。

缓解措施

最后翁荔表示尽管有大量文献讨论奖励黑客现象,但少有工作提出缓解奖励黑客的措施。

她简要回顾了三种潜在方法。

一种是改进强化学习算法

前面提到的Anthropic创始人Dario Amodei2016年共一论文“Concrete Problems in AI Safety”中,指出了一些缓解方向,包括:

对抗性奖励函数(Adversarial reward functions)、模型预测(Model Lookahead)、对抗性盲化(Adversarial blinding)、谨慎的工程设计(Careful engineering)、奖励上限(Reward capping)、反例抵抗(Counterexample resistance)、多奖励组合(Combination of multiple rewards)、奖励预训练(Reward pretraining)、变量不敏感性(Variable indifference)、陷阱机制(Trip wires)。

此外,谷歌DeepMind团队此前提出了“解耦批准”的方法来防止奖励篡改。

在这种方法中,收集反馈的行为与实际执行的行为是分开的,反馈会在行为执行前就给出,避免了行为对自己反馈的影响。

另一种潜在缓解措施是检测奖励黑客行为

将奖励黑客行为视为一个异常检测任务,其中检测器应标记出不一致的实例。

给定一个可信策略和一组手动标注的轨迹回放,可以基于可信策略和目标策略这两个策略的动作分布之间的距离构建一个二分类器,并测量这个异常检测分类器的准确性。

之前有实验观察到,不同的检测器适用于不同的任务,而且在所有测试的强化学习环境中,没有任何测试的分类器能够达到60%以上的AUROC。

第三种潜在缓解措施是分析RLHF数据

通过检查训练数据如何影响对齐训练结果,可以获得有关预处理和人类反馈收集的见解,从而降低奖励黑客风险。

哈佛大学与OpenAI研究人员今年合作提出了一套评估指标,用于衡量数据样本特征在建模和对齐人类价值观方面的有效性。他们在HHH-RLHF数据集上进行了系统的错误分析以进行价值对齐(SEAL)。

这一篇博客关于缓解措施的部分还只是“初探”,翁荔对下一篇内容给出了预告:

希望我很快能在一篇专门的帖子中涵盖缓解措施部分

关于翁荔

翁荔是OpenAI前华人科学家、ChatGPT的贡献者之一,本科毕业于北大,在印第安纳大学伯明顿分校攻读博士。

毕业之后的翁荔先是短暂的在Facebook实习了一段时间,后担任Dropbox软件工程师。

她于2017年初加入OpenAI,在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。

在OpenAI去年底成立的安全顾问团队中,翁荔领导安全系统团队(Safety Systems),解决减少现有模型如ChatGPT滥用等问题。

最著名的Agent公式也由她提出,即:Agent=大模型+记忆+主动规划+工具使用。

其Google Scholar引用量达14000+。

一个月前,翁荔短暂回国现身2024Bilibili超级科学晚活动,以《AI安全与“培养”之道》为主题进行了演讲分享。

这也是她首次在国内大型活动场合公开发表AI主题演讲。

之后没几天,翁荔突然发推文表示决定离职OpenAI。

目前她还没有宣布下一个计划,推特签名透露会与AI安全相关。

领英和谷歌学术页面也还挂着OpenAI,均未更新。

原文:
https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking

参考链接:https://x.com/lilianweng/status/1863436864411341112

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比亚迪发布自研高算力芯片“璇玑A3”,为中国首款4nm智驾芯片,并宣布为城市领航兜底服务

比亚迪发布自研高算力芯片“璇玑A3”,为中国首款4nm智驾芯片,并宣布为城市领航兜底服务

红星资本局
2026-05-28 21:54:46
24年海口飞行员离奇失踪,目击证人爆料,女友崩溃痛哭,说明真相

24年海口飞行员离奇失踪,目击证人爆料,女友崩溃痛哭,说明真相

卡西莫多的故事
2025-02-02 21:15:43
刚被“点名”发生中毒窒息事故,湖南裕能云南基地又现火情

刚被“点名”发生中毒窒息事故,湖南裕能云南基地又现火情

澎湃新闻
2026-05-28 15:52:27
章若楠空杯到底有多美?网友说:这颜值谁顶得住,难怪都想娶!

章若楠空杯到底有多美?网友说:这颜值谁顶得住,难怪都想娶!

暖心萌阿菇凉
2026-04-30 13:13:01
央视紧急预警!将有大事发生?千万别乱囤物资,这4类才是刚需

央视紧急预警!将有大事发生?千万别乱囤物资,这4类才是刚需

清晨的世界
2026-05-28 11:11:01
马斯克的用人哲学:一个员工有没有潜力,开会就能看出来,越是平庸的人,越会在这两个细节上暴露自己的“打工者思维”

马斯克的用人哲学:一个员工有没有潜力,开会就能看出来,越是平庸的人,越会在这两个细节上暴露自己的“打工者思维”

心理观察局
2026-05-25 07:20:34
西方人不解!为啥中国改朝换代那么多次,都非要承认自己是中国?

西方人不解!为啥中国改朝换代那么多次,都非要承认自己是中国?

鹤羽说个事
2026-05-28 22:56:57
被张国立儿子暴打,后嫁给大17岁富豪,如今多年过去童瑶怎么样了

被张国立儿子暴打,后嫁给大17岁富豪,如今多年过去童瑶怎么样了

青橘罐头
2026-05-28 14:49:56
黄土高原变身陕西退路,西安2万房价逼走的年轻人,转身开始回流陕北,刨出了新活法

黄土高原变身陕西退路,西安2万房价逼走的年轻人,转身开始回流陕北,刨出了新活法

林子说事
2026-05-28 18:17:22
惨!于和伟《森中有林》上映6天就被匆匆抬走,1.5亿投资血亏出局

惨!于和伟《森中有林》上映6天就被匆匆抬走,1.5亿投资血亏出局

八卦南风
2026-05-28 15:26:19
白宫称伊朗媒体发布的美伊谅解备忘录内容“不实”

白宫称伊朗媒体发布的美伊谅解备忘录内容“不实”

澎湃新闻
2026-05-27 23:16:06
历史不会重演,但会惊人相似:新能源车,极可能重走燃油车的老路

历史不会重演,但会惊人相似:新能源车,极可能重走燃油车的老路

侃故事的阿庆
2026-05-28 14:28:28
TA:拉莫斯牵头财团收购塞维利亚的谈判已破裂

TA:拉莫斯牵头财团收购塞维利亚的谈判已破裂

懂球帝
2026-05-28 21:28:13
总分超王治郅历史第7!胡金秋20+8完胜王哲林 难阻遗憾惜败

总分超王治郅历史第7!胡金秋20+8完胜王哲林 难阻遗憾惜败

醉卧浮生
2026-05-28 21:39:12
3艘俄影子舰队油轮在黑海遭无人机袭击

3艘俄影子舰队油轮在黑海遭无人机袭击

桂系007
2026-05-28 23:59:13
莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

每日一首古诗词
2026-04-09 06:06:47
浙江70岁大爷觉得浑身没劲,每天吃3、4根香蕉,连吃半个月,结果把自己“吃进”了EICU!医生:确诊高钾血症

浙江70岁大爷觉得浑身没劲,每天吃3、4根香蕉,连吃半个月,结果把自己“吃进”了EICU!医生:确诊高钾血症

环球网资讯
2026-05-28 12:36:15
快讯!印尼这手确实狠!

快讯!印尼这手确实狠!

故事终将光明磊落
2026-05-28 17:34:16
心理学上有个词叫:逆火效应(永远不要指出你身边人的任何问题,包括你的亲戚朋友。成年人的最大清醒就是不介入他人的生活)

心理学上有个词叫:逆火效应(永远不要指出你身边人的任何问题,包括你的亲戚朋友。成年人的最大清醒就是不介入他人的生活)

德鲁克博雅管理
2026-05-18 17:11:20
一周暴涨50%,资金疯狂加仓!

一周暴涨50%,资金疯狂加仓!

君临财富
2026-05-28 18:58:50
2026-05-29 00:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12701文章数 176471关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

媒体:特朗普犯下两个致命失误 美方谈判底线持续退让

头条要闻

媒体:特朗普犯下两个致命失误 美方谈判底线持续退让

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

艺术
亲子
游戏
手机
公开课

艺术要闻

2026陕西省青年美术作品展 入选油画

亲子要闻

南大科研团队用游戏助儿童解锁“心理密码”

《女神异闻录6》泄露主角太丑?金毛男主太路人!

手机要闻

iOS 27系统Siri全新设计确认!灵动岛交互、相机App新模式渲染图

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版