网易首页 > 网易号 > 正文 申请入驻

科学家打造“变分偏好学习”技术,助力保护少数群体用户利益

0
分享至

娜塔莎·雅克(Natasha Jaques)是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间,她曾开发一种语言模型微调技术,后被用于 OpenAI 使用基于人类反馈强化学习(RLHF,Reinforcement Learning from Human Feedback)训练的产品中。

同时,她还曾在谷歌 DeepMind 和 Google Brain 等公司有过实习经历,也曾担任过 OpenAI Scholars Mentor。而在博后期间,娜塔莎师从目前论文有着 16 万多次引用量、谷歌学术 h 指数为 175、被人称为“顶会狂魔” 的美国加利福尼亚大学伯克利分校谢尔盖·列文(Sergey Levine)教授。


图 | 娜塔莎·雅克(Natasha Jaques)(来源:课题组主页)

目前,除了在华盛顿大学大学担任助理教授之外,娜塔莎也是谷歌 DeepMind 的高级研究科学家。在她的课题组里,也有很多华人学生。


图 | 娜塔莎和团队成员(来源:课题组主页)

最近,她和团队发表的一篇论文被神经信息处理系统大会(NeurIPS,Neural Information Processing Systems)收录。在发表于本次大会的所有论文中,这篇论文排在前 2%。

除了展示这篇论文之外,整个娜塔莎课题组也深入参与到此次大会。她在 X 上发帖称,尽管自己的团队仅成立一年,但是此次一共有 10 名课题组成员在 NeurIPS 上亮相。


图 | 娜塔莎·雅克(Natasha Jaques)(来源:X)

而在这篇排名 NeurIPS 大会前 2% 的论文中,她和团队开发了一种名为“变分偏好学习”(variational preference learning)的技术,其能针对大模型生成内容进行微调,以便更符合用户的个人偏好。

相关论文的题目为《通过变分偏好学习实现基于人类反馈的个性化强化学习》(Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning)。


图 | 相关论文(来源:arXiv)



当一名低收入家庭的学生无法真正得到大模型的帮助

娜塔莎告诉媒体,尽管自己此前的研究成果为人类反馈强化学习(RLHF)带来了助力,但是这种方法并不完美。更早之前,一个来自同行论文中的案例让她感触颇深:一名来自低收入家庭的学生向大模型提问,希望了解目标大学的招生信息。

但是该大模型的生成内容,是根据大多数申请者的情况来生成的,而在这些人中并没有太多来自低收入家庭的学生。

那么,对于这名来自低收入家庭的学生来说,该大模型可能并不会向其提供教育资金援助信息。这是因为目前的人类反馈强化学习(RLHF)技术无法解释不同人群中个体偏好的自然差异。当这些差异出现时,该技术只会针对这些差异进行平均。

在训练大模型的时候通常会使用到数据集,而数据集里往往包括一些固有偏见和不恰当信息。此前,人们在开发大模型时,往往是利用 RLHF 技术,从大模型的生成内容中滤掉这些信息。

娜塔莎表示,有些大模型公司的研究人员并没有接受过政策或社会学方面的培训,但是他们却决定着大模型应该说什么和不应该说什么。

在使用人类反馈强化学习(RLHF)这一技术时,它会让大模型通过比较不同的输出,来选择其中更好的一个输出。

它的确能够提高生成内容的质量,包括在不合适的生成内容上设置护栏。不过,这也意味着大模型会“继承”真人训练者的价值体系。

仍以低收入家庭学生查找大学申请信息的问题为例,如果大模型接受了人类反馈的训练,它可能永远也不会提供有关教育资金援助的信息,而这会损害来自低收入家庭的学生的利益。

与此同时,在使用人类反馈强化学习(RLHF)技术的时候,大模型会将所有偏好平均在一起,但这样生成的内容可能并不正确。举个例子,你和邻居都在使用家用机器人来收拾盘子。

假如你希望机器人将盘子放在桌子右上角,而你的邻居希望机器人把盘子放在桌子右下角。然而,家用机器人的开发者只是根据他们自己的偏好进行训练,那么机器人就会平均这些偏好,这样一来就很难按照每个用户的想法来把盘子放在正确位置。

娜塔莎甚至对媒体直言:“(以 ChatGPT 为例)本质上是 OpenAI 的研究人员决定对模型说什么是合适的,什么是不合适的,然后将模型送到 1 亿月度用户的手上。

但我们认为这还不够,因为人们的偏好非常不同。什么是恰当的,什么是不恰当的,这取决于文化、规范和个人,这实际上是一个更深层次的问题。

实际上,人工智能模型往往比人更有偏见,因为它们是在所有历史数据上进行训练的。”


(来源:arXiv)



“变分偏好学习”:让大模型推测用户的隐藏偏好

而娜塔莎课题组此次提出的“变分偏好学习”方法,是一种训练人工智能系统的方法,其能从具有不同偏好的不同用户群体中学习,即能让大模型用户自己承担改进输出的角色。

只需四个查询步骤,“变分偏好学习”就可以弄清用户的偏好。这让“变分偏好学习”不仅能用于言语交流,还能用于训练机器人以便让其在家庭等个人环境中执行简单任务。

“变分偏好学习”能够用于可操纵的个性化模型学习,以及能够捕获用户偏好中的不确定性和差异。“变分偏好学习”方法通过与用户互动来预测用户的偏好,然后相应地调整其输出,即它可以让大模型推断出用户的隐藏偏好。

也就是说,它能够获悉人类用户更加喜欢的答案。用户的独特偏好便是“嵌入向量”,基于此大模型能够针对个人偏好做出个性化预测,并在输出内容时坚持这些判断。

在语言实验和模拟机器人实验中,娜塔莎和团队创建了一些数据集。他们发现,用于训练 ChatGPT 等大模型的 RLHF 技术根本无法适应这些数据集,在预测用户的二元偏好方面的准确率只有 50%。而当娜塔莎引入由“变分偏好学习”方法打造的大模型时,准确率能提高 10% 到 25%。

为了满足多元对齐的需求,娜塔莎等人还开发出一类多模态人类反馈强化学习(RLHF)方法,这一方法基于潜在变量公式。在没有额外用户特定数据的情况下,可以推断出特定的学习奖励模型和学习奖励策略。

这种奖励建模并非易事,需要围绕模型架构和奖励缩放进行仔细的算法考虑。为此,她和团队在代表不同用户偏好的多元语言数据集上进行实验,结果发现奖励函数的准确性确实能被上述方法提高。

总的来说,“变分偏好学习”既适用于 ChatGPT 等大型语言模型也适用于机器人,也能更好地反映用户的不同价值观。


(来源:arXiv)

不过,这项成果的一个主要局限性在于,截至目前并未出现包含不同用户意见的大规模现实偏好数据集。在这种限制之下,娜塔莎等人只能自行创建偏好数据集。

尽管这也是人们在研究个性化人类反馈强化学习(RLHF)时经常采用的方法,但是未来她打算使用本次提出的“变分偏好学习”,来从不同用户群体中提取更真实的偏好数据。

与此同时,她认为“变分偏好学习”除能用于建模不同用户的偏好外,还能在大模型中发挥一定的安全优势。

参考资料:

https://arxiv.org/pdf/2408.10075v1

https://www.geekwire.com/2024/university-of-washington-researchers-craft-method-of-fine-tuning-ai-chatbots-for-individual-taste/

https://www.washington.edu/news/2024/12/18/ai-user-values-preferences-rlhf/

https://natashajaques.ai/uploads/cv_natasha_jaques.pdf

https://x.com/natashajaques

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张檬小五夫妇糖耐,宝宝体重仅600克,张檬心疼难掩哭成泪人

张檬小五夫妇糖耐,宝宝体重仅600克,张檬心疼难掩哭成泪人

户外钓鱼哥阿勇
2025-01-07 17:00:05
上映10天票房还是0元,国家三级演员主演新片惨败

上映10天票房还是0元,国家三级演员主演新片惨败

影视原说a
2025-01-06 10:49:56
多名中国留学生被日本警方逮捕,因非法用“学生折扣”大量转卖苹果产品!

多名中国留学生被日本警方逮捕,因非法用“学生折扣”大量转卖苹果产品!

日本窗
2025-01-08 17:39:46
大冷!太阳单节输20分负十连败黄蜂  布克39+10杜兰特26分

大冷!太阳单节输20分负十连败黄蜂 布克39+10杜兰特26分

醉卧浮生
2025-01-08 10:29:53
南宁一家房地产公司破产,名下2.5亿应收款债权拍卖,29万成交

南宁一家房地产公司破产,名下2.5亿应收款债权拍卖,29万成交

天天话事
2025-01-08 15:25:48
壕!外媒:胡尔克与前妻侄女婚礼总花费320万美元 共筹备40天

壕!外媒:胡尔克与前妻侄女婚礼总花费320万美元 共筹备40天

直播吧
2025-01-08 19:07:11
缅甸妙瓦底集团为何瞄准国内三四线演员?原来演员有这几个用处?

缅甸妙瓦底集团为何瞄准国内三四线演员?原来演员有这几个用处?

阿凫爱吐槽
2025-01-07 09:12:30
古玩市场进入“全面崩塌”时代,已经无力回天了?

古玩市场进入“全面崩塌”时代,已经无力回天了?

收藏大视界
2025-01-08 18:24:37
特朗普连发两张“新版美国地图”,面积增加998万平方千米

特朗普连发两张“新版美国地图”,面积增加998万平方千米

消失的电波
2025-01-08 14:26:46
这三个星座,今年做好发财的准备吧!

这三个星座,今年做好发财的准备吧!

星座不求人
2025-01-08 20:36:37
一颗子弹都别想进台湾!大批军火将到,解放军一举轰动全球舆论

一颗子弹都别想进台湾!大批军火将到,解放军一举轰动全球舆论

傲骨真新
2025-01-07 09:00:09
2025将是大级别牛市!

2025将是大级别牛市!

风风顺
2025-01-08 11:38:08
43岁范冰冰国外复出胆大,穿亮片镂空裙长腿,身材比例不输超模!

43岁范冰冰国外复出胆大,穿亮片镂空裙长腿,身材比例不输超模!

打麻将的仔
2025-01-07 23:37:44
赵本山: 我拯救了一个恶毒女人的演艺生涯,她却恩将仇报踩我上位

赵本山: 我拯救了一个恶毒女人的演艺生涯,她却恩将仇报踩我上位

深析古今
2025-01-07 15:45:11
蔡少芬和闺蜜带娃聚会,53岁洪欣白到发光,两家女儿打扮都很潮

蔡少芬和闺蜜带娃聚会,53岁洪欣白到发光,两家女儿打扮都很潮

小冠说娱
2025-01-08 14:11:50
山火席卷洛杉矶豪华社区,本·阿弗莱克、汤姆·汉克斯等众多好莱坞明星豪宅或被毁

山火席卷洛杉矶豪华社区,本·阿弗莱克、汤姆·汉克斯等众多好莱坞明星豪宅或被毁

现代快报
2025-01-08 17:52:11
母亲坚持和父亲离婚,我妈离家后,我才知道我们的报应刚刚开始

母亲坚持和父亲离婚,我妈离家后,我才知道我们的报应刚刚开始

清风讲故事
2025-01-07 16:46:41
王哲林生涯篮板数超巴特尔排历史第4 前3为易建联&辽宁二老

王哲林生涯篮板数超巴特尔排历史第4 前3为易建联&辽宁二老

直播吧
2025-01-08 22:08:16
沈川辞去贵州省人大代表职务,此前已调任省体育局二级巡视员

沈川辞去贵州省人大代表职务,此前已调任省体育局二级巡视员

澎湃新闻
2025-01-08 20:50:32
癌症患者病理报告中,出现这4个字样,恭喜你可能能多活二十年!

癌症患者病理报告中,出现这4个字样,恭喜你可能能多活二十年!

肿瘤科王红军
2025-01-08 19:07:27
2025-01-08 22:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
14684文章数 513154关注度
往期回顾 全部

科技要闻

李开复第一个讲了出来,不再追求 AGI

头条要闻

贪官遇"保姆式围猎":商人记下尺码选购衣物 陪吃陪玩

头条要闻

贪官遇"保姆式围猎":商人记下尺码选购衣物 陪吃陪玩

体育要闻

消失3年后,国乒冠军成为一名大学老师

娱乐要闻

星星女友传来好消息:已和星星见面

财经要闻

2025年,年轻人的抠门远远不止反向消费

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

教育
数码
艺术
旅游
公开课

教育要闻

复试英文综合口语题第七题

数码要闻

AMD推出新款锐龙5 9600处理器 频率略有下调并附散热器

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

旅游要闻

张家口一滑雪场游客坐缆车坠落,人已送医

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版