科学家打造“变分偏好学习”技术，助力保护少数群体用户利益|算法|大模型

科学家打造“变分偏好学习”技术，助力保护少数群体用户利益

2024-12-25 15:59:56　来源: DeepTech深科技

北京举报

分享至

娜塔莎·雅克（Natasha Jaques）是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间，她曾开发一种语言模型微调技术，后被用于 OpenAI 使用基于人类反馈强化学习（RLHF，Reinforcement Learning from Human Feedback）训练的产品中。

同时，她还曾在谷歌 DeepMind 和 Google Brain 等公司有过实习经历，也曾担任过 OpenAI Scholars Mentor。而在博后期间，娜塔莎师从目前论文有着 16 万多次引用量、谷歌学术 h 指数为 175、被人称为“顶会狂魔” 的美国加利福尼亚大学伯克利分校谢尔盖·列文（Sergey Levine）教授。

图 | 娜塔莎·雅克（Natasha Jaques）（来源：课题组主页）

目前，除了在华盛顿大学大学担任助理教授之外，娜塔莎也是谷歌 DeepMind 的高级研究科学家。在她的课题组里，也有很多华人学生。

图 | 娜塔莎和团队成员（来源：课题组主页）

最近，她和团队发表的一篇论文被神经信息处理系统大会（NeurIPS，Neural Information Processing Systems）收录。在发表于本次大会的所有论文中，这篇论文排在前 2%。

除了展示这篇论文之外，整个娜塔莎课题组也深入参与到此次大会。她在 X 上发帖称，尽管自己的团队仅成立一年，但是此次一共有 10 名课题组成员在 NeurIPS 上亮相。

图 | 娜塔莎·雅克（Natasha Jaques）（来源：X）

而在这篇排名 NeurIPS 大会前 2% 的论文中，她和团队开发了一种名为“变分偏好学习”（variational preference learning）的技术，其能针对大模型生成内容进行微调，以便更符合用户的个人偏好。

相关论文的题目为《通过变分偏好学习实现基于人类反馈的个性化强化学习》（Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning）。

图 | 相关论文（来源：arXiv）

当一名低收入家庭的学生无法真正得到大模型的帮助

娜塔莎告诉媒体，尽管自己此前的研究成果为人类反馈强化学习（RLHF）带来了助力，但是这种方法并不完美。更早之前，一个来自同行论文中的案例让她感触颇深：一名来自低收入家庭的学生向大模型提问，希望了解目标大学的招生信息。

但是该大模型的生成内容，是根据大多数申请者的情况来生成的，而在这些人中并没有太多来自低收入家庭的学生。

那么，对于这名来自低收入家庭的学生来说，该大模型可能并不会向其提供教育资金援助信息。这是因为目前的人类反馈强化学习（RLHF）技术无法解释不同人群中个体偏好的自然差异。当这些差异出现时，该技术只会针对这些差异进行平均。

在训练大模型的时候通常会使用到数据集，而数据集里往往包括一些固有偏见和不恰当信息。此前，人们在开发大模型时，往往是利用 RLHF 技术，从大模型的生成内容中滤掉这些信息。

娜塔莎表示，有些大模型公司的研究人员并没有接受过政策或社会学方面的培训，但是他们却决定着大模型应该说什么和不应该说什么。

在使用人类反馈强化学习（RLHF）这一技术时，它会让大模型通过比较不同的输出，来选择其中更好的一个输出。

它的确能够提高生成内容的质量，包括在不合适的生成内容上设置护栏。不过，这也意味着大模型会“继承”真人训练者的价值体系。

仍以低收入家庭学生查找大学申请信息的问题为例，如果大模型接受了人类反馈的训练，它可能永远也不会提供有关教育资金援助的信息，而这会损害来自低收入家庭的学生的利益。

与此同时，在使用人类反馈强化学习（RLHF）技术的时候，大模型会将所有偏好平均在一起，但这样生成的内容可能并不正确。举个例子，你和邻居都在使用家用机器人来收拾盘子。

假如你希望机器人将盘子放在桌子右上角，而你的邻居希望机器人把盘子放在桌子右下角。然而，家用机器人的开发者只是根据他们自己的偏好进行训练，那么机器人就会平均这些偏好，这样一来就很难按照每个用户的想法来把盘子放在正确位置。

娜塔莎甚至对媒体直言：“（以 ChatGPT 为例）本质上是 OpenAI 的研究人员决定对模型说什么是合适的，什么是不合适的，然后将模型送到 1 亿月度用户的手上。

但我们认为这还不够，因为人们的偏好非常不同。什么是恰当的，什么是不恰当的，这取决于文化、规范和个人，这实际上是一个更深层次的问题。

实际上，人工智能模型往往比人更有偏见，因为它们是在所有历史数据上进行训练的。”

（来源：arXiv）

“变分偏好学习”：让大模型推测用户的隐藏偏好

而娜塔莎课题组此次提出的“变分偏好学习”方法，是一种训练人工智能系统的方法，其能从具有不同偏好的不同用户群体中学习，即能让大模型用户自己承担改进输出的角色。

只需四个查询步骤，“变分偏好学习”就可以弄清用户的偏好。这让“变分偏好学习”不仅能用于言语交流，还能用于训练机器人以便让其在家庭等个人环境中执行简单任务。

“变分偏好学习”能够用于可操纵的个性化模型学习，以及能够捕获用户偏好中的不确定性和差异。“变分偏好学习”方法通过与用户互动来预测用户的偏好，然后相应地调整其输出，即它可以让大模型推断出用户的隐藏偏好。

也就是说，它能够获悉人类用户更加喜欢的答案。用户的独特偏好便是“嵌入向量”，基于此大模型能够针对个人偏好做出个性化预测，并在输出内容时坚持这些判断。

在语言实验和模拟机器人实验中，娜塔莎和团队创建了一些数据集。他们发现，用于训练 ChatGPT 等大模型的 RLHF 技术根本无法适应这些数据集，在预测用户的二元偏好方面的准确率只有 50%。而当娜塔莎引入由“变分偏好学习”方法打造的大模型时，准确率能提高 10% 到 25%。

为了满足多元对齐的需求，娜塔莎等人还开发出一类多模态人类反馈强化学习（RLHF）方法，这一方法基于潜在变量公式。在没有额外用户特定数据的情况下，可以推断出特定的学习奖励模型和学习奖励策略。

这种奖励建模并非易事，需要围绕模型架构和奖励缩放进行仔细的算法考虑。为此，她和团队在代表不同用户偏好的多元语言数据集上进行实验，结果发现奖励函数的准确性确实能被上述方法提高。

总的来说，“变分偏好学习”既适用于 ChatGPT 等大型语言模型也适用于机器人，也能更好地反映用户的不同价值观。

（来源：arXiv）

不过，这项成果的一个主要局限性在于，截至目前并未出现包含不同用户意见的大规模现实偏好数据集。在这种限制之下，娜塔莎等人只能自行创建偏好数据集。

尽管这也是人们在研究个性化人类反馈强化学习（RLHF）时经常采用的方法，但是未来她打算使用本次提出的“变分偏好学习”，来从不同用户群体中提取更真实的偏好数据。

与此同时，她认为“变分偏好学习”除能用于建模不同用户的偏好外，还能在大模型中发挥一定的安全优势。

参考资料：

https://arxiv.org/pdf/2408.10075v1

https://www.geekwire.com/2024/university-of-washington-researchers-craft-method-of-fine-tuning-ai-chatbots-for-individual-taste/

https://www.washington.edu/news/2024/12/18/ai-user-values-preferences-rlhf/

https://natashajaques.ai/uploads/cv_natasha_jaques.pdf

https://x.com/natashajaques

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.