网易首页 > 网易号 > 正文 申请入驻

北航提出全新偏好数据构建框架,助力大模型实现更全面的对齐效果

0
分享至

近期,北京航空航天大学、AI 初创公司零一万物、清华大学等团队合作,提出了一种 PopAlign 框架。

它集成了六种对比响应的引导生成策略,全面覆盖了在响应生成过程中可能出现的各种对比先验。

这些对比策略分别包括前缀对比、示例对比、引导对比、参数数量对比、排行榜对比和改良对比,涵盖了从提示(Prompt)、模型(Model)到管道(Pipeline)的多个层级。

通过对这些对比引导策略的综合应用,该课题组能够帮助大模型构建出更加多样化的偏好数据。并且,由于先验足够明确,也可以摆脱额外的人类或 AI 反馈标签。

基于此,PopAlign 不但提升了对齐效果,而且降低了对齐成本,为大模型的安全性和鲁棒性提供了保障。


图丨 PopAlign 的工作流程(来源:arXiv)

近日,相关论文以《PopAlign:使对比模式多样化,实现更全面的对齐》(PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment)为题在预印本平台arXiv上发布 [1]。

北京航空航天大学硕士研究生王泽坤是第一作者,波形智能 CTO 周王春澍以及零一万物算法副总裁黄文灏博士担任联合通讯作者。


图丨相关论文(来源:arXiv)



助力大模型实现更全面的对齐效果

在训练大模型的过程中,对齐是一个至关重要的阶段。它旨在调整大模型的响应分布,使之更符合人类的价值观或偏好。

当前,主流的对齐方法主要包括:基于人类反馈的强化学习,以及基于 AI 反馈的强化学习。

采用这些方法时,首先要让大模型针对每个用户指令生成成对的响应,再让人类用户或另一个大模型,根据用户的价值观或偏好,手工或自动地为这些成对的响应进行反馈标注,进而将它们分别标注为“更被偏好的”或“更被拒绝的”。

正是基于这些偏好标签,大模型的响应分布才得以逐步贴近人类用户所偏好的响应分布,同时远离不被偏好的响应分布。

在此过程中,让模型生成具有偏好对比度的成对响应至关重要。(编者注:这里的偏好对比度是指,一个响应与另一个响应相比,更被用户偏好的程度。)

原因在于,这个偏好对比度决定了第二步反馈标注操作的准确性,且会影响后续进行模型响应分布调整的准确性。

不过,由于第一步引导模型生成显式的成对响应,只是模型响应分布的一个采样,因此在这些成对响应的“样本”上,进行的模型响应分布优化,可能会存在不全面之处。

而目前大多数对齐方法,不但只采取有限的采样,而且不能保证响应的生成,有足够的可以引导出偏好对比度的先验。

举例来说,大模型 LLaMA 2 只通过不同的模型变体或不同的文本解码温度,来生成偏好对比响应。

这种简单的采样,不足以将要对齐的模型中对于偏好模式的理解全部引导出来。

也就是说,这可能导致大模型在某个偏好模式下对齐得比较好,但在另一个偏好模式下对齐得不够好。


图丨对比模式及其对响应分布优化的影响(来源:arXiv)

并且,生成的成对响应很容易同质化,造成很难分辨孰好孰坏,进而影响后续对齐训练的稳定性。

PopAlign 框架正是在该背景下被提出的。

它的诞生,旨在解决以下两个关键问题:

其一,如何引导出更加全面、丰富且有先验的对比模式,以增强偏好对比数据的多样性和对比度。

其二,探究这些多样化的对比模式,对模型对齐性能的影响。

一般来说,大模型的训练包括预训练、监督微调和对齐训练三个阶段。

其中,对齐训练的目的是“3H 原则”,即模型要有帮助(Helpful)、无害(Harmless)和诚实(Honest)。

这意味着,模型不仅要提供有用的回答,还要避免包含任何冒犯或有害的内容,且在回答中尽可能地做到真实可信。

也正是这些原则,确保了模型在实际应用中既能满足用户需求,又能安全、可靠地运作。

因此,从应用上看,PopAlign 框架致力于提升大模型对齐训练的效果,其作用涵盖大模型应用的方方面面,包括智能问答助手、客服、教育辅助机器人、写作助手等。


图丨王泽坤(来源:王泽坤)

研究中他们发现,这些对比模式的引导方式大体上可以分成三类,分别是:数据层面、模型层面和框架层面。

“也就是 Prompt-Model-Pipeline 三个层级,即 PopAlign 这个名字的来源。”王泽坤解释道。

同时,他们得出的实验结果,也与所预期的相符,就是让对比模式更加多样,能带来更加全面的对齐增益。

“今后大模型对齐方面的研究和实践,可以从我们的研究中汲取经验,进而帮助提升其对齐的综合效果。”王泽坤表示。



高校与企业的联合培养,促进在大模型领域收获一系列成果

在做这项研究的同时,王泽坤还在做其他的研究。

其中,包括统一四个模态数据(文本、视频、图像、语音)的理解和生成大模型 MIO[2],提升大模型进行长度可控文本生成以及复制粘贴工具使用能力的方法 PositionID [3],以及针对大模型工具使用的多粒度基准评测集 MTU-Bench[4] 等

这也造成分配到每项研究上的时间比较有限。所以,为了协调各项研究的进度,他除了要增加自己的工作时间,还需要保证足够的工作效率。

“这个状态从 2024 年 2 月持续到 2024 年 10 月。在这半年多的时间里,我一直过着非常充实的生活。”王泽坤说。

据介绍,王泽坤本科就读于北京航空航天大学中法工程师学院。值得一提的是,该学院在数学和物理方面的本科教育非常领先,而 AI 恰恰是一个需要数学、物理和计算机三大学科协同作用的领域。

“所以,我认为我所在的学院,为 AI 相关人才的培养提供了良好的范本,而我正是在这个环境中成长起来的。”王泽坤说。

因为王泽坤本科大部分学科都采用法语教学,所以他选择在大一时着重提升自己的法语水平,大二大三致力于补足在数学、物理和计算机方面的知识和能力。

据他介绍,在他的大二暑假,也就是 2020 年 7 月,有两件事的发生,促使他走向大模型这个研究方向。

一是 GPT-3 的诞生。

二是他阅读了复旦大学邱锡鹏教授撰写的书籍《神经网络与深度学习》。

“这本书重点讲述了自然语言处理领域相关的内容。在我阅读它,并感受到‘为机器赋智能’这项事业的趣味和使命感时,GPT-3 也恰好出现了,后者掀起了大模型的一波小高潮。

这令我开始坚信与大模型相关技术,一定会在不久后促成一波革命性的影响。”王泽坤表示。

于是,他在整个大三时期,阅读了大量与大模型相关的论文,并全力寻找与此相关的科研机会。

然而,由于当时学校的算力有限,不足以支撑大模型方向的科研,因此王泽坤选择走出校门,到大模型企业寻找实习机会。

自 2021 年 9 月开始,王泽坤先后在澜舟科技、北京智源人工智能研究院、零一万物等企业开展实习,并与合作者联合完成了一系列具有影响力的研究。

除了上面提到的 MIO,还涉及到首个大模型角色扮演数据模型评测全方案 RoleLLM[5],具有工业级性能的全透明开源大模型系列 MAP-Neo[6] 等多项成果。

与此同时,在学校里,他也得到了其硕士生导师许可教授的大量指导和帮助,并逐渐培养起较为完善的科研素养和能力。

王泽坤表示:“得益于学校和企业的联合培养,我才能够在大模型领域获得比较迅速的成长。”

目前,王泽坤刚刚开始他硕士研究生第三年的学习生涯,并且也在字节跳动的大模型研究院继续开展实习研究和探索。

他提到,接下来将继续专注于统一理解和生成的多模态大模型、下一代大模型训练方式、大模型角色扮演等方面的研究。

参考资料:

1.Wang Z M, Wang S, Zhu K, et al. PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment.arXiv:2410.13785, 2024. https://doi.org/10.48550/arXiv.2410.13785

2.Wang Z, Zhu K, Xu C, et al. Mio: A foundation model on multimodal tokens.arXiv:2409.17692, 2024. https://doi.org/10.48550/arXiv.2409.17692

3.Wang Z, Duan F, Zhang Y, et al. PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness.arXiv:2410.07035, 2024.https://doi.org/10.48550/arXiv.2410.07035

4.Wang P, Wu Y, Wang Z, et al. MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models.arXiv:2410.11710, 2024.https://doi.org/10.48550/arXiv.2410.11710

5.Wang Z M, Peng Z, Que H, et al. Rolellm: Benchmarking, eliciting, and enhancing role-playing abilities of large language models.arXiv:2310.00746,2023.https://doi.org/10.48550/arXiv.2310.00746

6.Zhang G, Qu S, Liu J, et al. Map-neo: Highly capable and transparent bilingual large language model series.arXiv:2405.19327, 2024.https://doi.org/10.48550/arXiv.2405.19327

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沙特媒:中国已两战日本&形势占优,但日本提前出线可能放缓势头

沙特媒:中国已两战日本&形势占优,但日本提前出线可能放缓势头

直播吧
2024-11-21 19:46:20
钧达股份营收净利润大降:核心产品售价不断下滑,尚待跨越周期

钧达股份营收净利润大降:核心产品售价不断下滑,尚待跨越周期

蓝鲸财经
2024-11-21 11:06:54
青岛28岁女教师被奸杀,惨叫声持续3小时,禽兽真的存在

青岛28岁女教师被奸杀,惨叫声持续3小时,禽兽真的存在

晓艾故事汇
2024-11-14 21:01:42
为什么不练新人?卢:我在骑士练了6场新人 6连败把自己练没了

为什么不练新人?卢:我在骑士练了6场新人 6连败把自己练没了

直播吧
2024-11-21 10:22:40
最新世界排名:第3第4第5第16换人了,丁俊晖降1位,白雨露飙升9位

最新世界排名:第3第4第5第16换人了,丁俊晖降1位,白雨露飙升9位

求球不落谛
2024-11-21 09:06:38
刀郎与云朵解约有着不宜公开的隐情,由此刀郎才总是唱所以我悲伤

刀郎与云朵解约有着不宜公开的隐情,由此刀郎才总是唱所以我悲伤

阿凫爱吐槽
2024-11-21 09:14:54
WTT总决赛!2大奥运冠军出局,大藤沙月3-1逆转、平野美宇3-2逆转

WTT总决赛!2大奥运冠军出局,大藤沙月3-1逆转、平野美宇3-2逆转

知轩体育
2024-11-21 19:56:07
开除党籍、开除公职!记大过!临沂2人被通报!

开除党籍、开除公职!记大过!临沂2人被通报!

琅琊新闻网
2024-11-21 19:43:19
中美韩手机第三季度营收对比:三星573亿苹果949.3亿,华为是多少

中美韩手机第三季度营收对比:三星573亿苹果949.3亿,华为是多少

小柱解说游戏
2024-11-22 01:03:42
国务院副总理出席的乌镇峰会,有新变化

国务院副总理出席的乌镇峰会,有新变化

政知新媒体
2024-11-21 21:47:27
美国否决停火;澳提儿童社媒禁令;ICC对以总理发逮捕令;马斯克裁公务员方案 | 11月22日要闻日报

美国否决停火;澳提儿童社媒禁令;ICC对以总理发逮捕令;马斯克裁公务员方案 | 11月22日要闻日报

今日时事要闻
2024-11-22 01:12:17
北京、上海同日宣布取消,此前武汉已全面取消

北京、上海同日宣布取消,此前武汉已全面取消

极目新闻
2024-11-19 19:03:50
卫生巾这次彻底塌房了!网友爆料背后真相,怪不得来姨妈时会很痒

卫生巾这次彻底塌房了!网友爆料背后真相,怪不得来姨妈时会很痒

滑稽斑马呀
2024-11-18 15:23:32
502胶溅入3岁男孩眼中,妈妈1分钟处理救了娃,医生:幸好你懂

502胶溅入3岁男孩眼中,妈妈1分钟处理救了娃,医生:幸好你懂

户外钓鱼哥阿勇
2024-11-17 11:49:09
普京亮出最后手段,马克龙才意识到玩大了:只有求中方出面灭火了

普京亮出最后手段,马克龙才意识到玩大了:只有求中方出面灭火了

说天说地说实事
2024-11-21 20:55:07
律师解读“胖东来员工婚宴买车彩礼新规”:不违法但不能过度干涉私人生活,应经过工会和职工民主决策

律师解读“胖东来员工婚宴买车彩礼新规”:不违法但不能过度干涉私人生活,应经过工会和职工民主决策

上游新闻
2024-11-21 13:24:34
证监会的“救市”会议!今日凌晨的四大消息冲击股市(11.21)!

证监会的“救市”会议!今日凌晨的四大消息冲击股市(11.21)!

风口招财猪
2024-11-21 09:25:46
整活!签下大合同后,又一人躺平了,5年2.07亿美元啊,有点亏

整活!签下大合同后,又一人躺平了,5年2.07亿美元啊,有点亏

球童无忌
2024-11-21 15:10:31
全球癌症或将激增77%,多与这6个原因有关!常见癌症信号要知道

全球癌症或将激增77%,多与这6个原因有关!常见癌症信号要知道

人民日报健康客户端
2024-11-20 21:21:49
小米 REDMI“Turbo ”逐步承接“K”系列位置,后者继续往上突破

小米 REDMI“Turbo ”逐步承接“K”系列位置,后者继续往上突破

IT之家
2024-11-22 00:08:33
2024-11-22 01:56:49
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
14480文章数 512979关注度
往期回顾 全部

科技要闻

“已全面投产,需求惊人”

头条要闻

媒体:"末日武器"疑被俄第一个投入实战 麻烦真的大了

头条要闻

媒体:"末日武器"疑被俄第一个投入实战 麻烦真的大了

体育要闻

点燃队唯一会防守的球员,是真靠谱啊

娱乐要闻

王宝强被指涉嫌欺诈1亿

财经要闻

杨伟民:应加大对低收入群体转移支付力度

汽车要闻

10万级的星海S7 也能带来高配生活

态度原创

时尚
数码
本地
游戏
家居

松弛感穿搭太适合冬天了,减龄又好看

数码要闻

新Mac mini上市后Redmi显示器A27U销量大涨:1299元卖断货

本地新闻

云游中国 | 拒绝特种兵!北方也有“真江南”

第二款PS4独占游戏要实现模拟 《最后的守护者》计划中

家居要闻

黑白简约 激发多样情感

无障碍浏览 进入关怀版