网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

陈丹琦团队新作：微调8B模型超越Claude3 Opus，背后是RLHF新平替

2024-05-27 14:33:41　来源: 量子位

北京举报

0

分享至

克雷西发自凹非寺
量子位 | 公众号 QbitAI

比斯坦福DPO（直接偏好优化）更简单的RLHF平替来了，来自陈丹琦团队。

该方式在多项测试中性能都远超DPO，还能让8B模型战胜Claude 3的超大杯Opus。

而且与DPO相比，训练时间和GPU消耗也都大幅减少。

这种方法叫做SimPO，Sim是Simple的简写，意在突出其简便性。

与DPO相比，SimPO摆脱了对参考模型的需要，在简化训练流程的同时，还避免了训练和推理不一致的问题。

对于这项成果，普林斯顿PLI主任Sanjeev Arora教授这样称赞：

和（SimPO方法调整出的）模型聊天感觉让人难以置信。
Llama3-8B是现在最好的小模型，SimPO把它变得更好了。

成果发布并开源后，大模型微调平台Llama-Factory也迅速宣布引进。

摆脱对参考模型的需要

陈丹琦团队的SimPO，和斯坦福提出的DPO一样，都是对RLHF中的奖励函数进行优化。

在传统的RLHF中，奖励函数通常由一个独立的奖励模型提供，需要额外的训练和推理；DPO利用人类偏好和模型输出之间的关系，直接用语言模型的对数概率来构建奖励函数，绕开了奖励模型的训练。

而和DPO相比，SimPO只基于当前优化的模型π_θ进行设计，完全摆脱了对参考模型π_ref的依赖。

具体来说，SimPO采用了长度归一化的对数概率作为奖励函数。

其中，β是一个正的缩放系数，|y|表示回复y的token长度，πθ(y|x)表示当前语言模型πθ生成回复y的概率。

对数概率是衡量生成质量的常用指标，较高的对数概率意味着在当前模型看来，这个回复是高质量、自然、连贯的。

因此，这种奖励方式可以让模型生成的回复更加符合自身已有知识。

长度归一化则是指，在函数当中，奖励值除以了回复长度|y|，起到了“惩罚”过长回复的作用。

这样做的原因是语言模型倾向于生成更长的文本，因为每个额外的token都会为总对数概率做贡献，但过长的回复往往会降低可读性和信息密度。

除以长度相当于计算平均每个token的对数概率，鼓励模型用尽可能简洁的方式表达完整的信息。

消融实验结果也证实，如果不进行长度归一化，模型很容易利用长度偏差，只有在生成文本较长时才有较好的表现。

除了使用对数概率和长度归一化，SimPO还引入了奖励差异项（公式中的γ）对目标函数进行改进。

引入γ相当于给正负样本的差异设定了一个阈值，主要目的就是加强优化信号，促使模型学习更加鲜明地区分正负样本。

在标准的Bradley-Terry损失中，只要正样本的奖励略高于负样本，损失就会很低，导致模型对正负样本的区分不够清晰；加入γ项后，模型必须使正样本的奖励明显高于负样本，才能取得较好的优化效果。

当然如果γ过大则可能会给优化带来困难，导致训练不稳定或收敛速度变慢，作者通过实验比较了不同γ值的效果，最终发现γ在0.8到1.6之间时SimPO可以取得最佳表现。

总体的消融实验结果表明，长度归一化和奖励差异项的引入都是让SimPO表现进一步提升的关键，无论是在AlpacaEval 2还是Arena-Hard当中，缺少两项技术中的任意一项，都会造成表现下降。

那么，SimPO的具体表现究竟怎样呢？

表现超越各种“PO”，还让8B模型战胜Claude 3

作者首先在AlpacaEval 2基准上对SimPO调整后的Llama3-Instruct-8B模型和榜单上的先进模型进行了比较。

该测试的主要指标是Win Rate及加入长度控制（LC）后的Win Rate，即模型的回答被评判者认为比GPT-4 Turbo（1106）更好的比例（这里评判者也是GPT4-Turbo）。

结果，SimPO调整后的8B模型，表现已经超过了Claude 3的超大杯Opus；和DPO相比，胜率也有10%左右的提升。

接着，作者又用AlpacaEval 2、Arena-Hard和MT-Bench基准，将SimPO的实际效果与一些其他PO进行了对比。

其中Arena-Hard与AlpacaEval 2类似都是比较胜率，但前者任务难度更大，需要多步推理和专业知识，此外baseline也换成了GPT4-0314。

MT-Bench则是一个多语言理解评测基准，评价方式是直接打分，裁判是GPT-4和GPT-4-Turbo。

参与比较的其他PO如下表所示，其中ORPO和SimPO一样都没有使用参考模型。

结果，在Arena-Hard与AlpacaEval 2上，调整Mistral-7B和Llama3-8B两种模型时，无论是Base还是Instruct版本，SimPO的效果都显著优于DPO等其他方式。

在MT-Bench测试当中，GPT-4-Turbo也都把最高分打给了SimPO，GPT-4给出的成绩中SimPO也与最高分十分接近。

另外SimPO的开销也大幅减少，在8块H100上，SimPO调整Llama3-8B的时间为60分钟，比DPO减少了20%；GPU消耗峰值为69GB，也比DPO少了10%。

但同时，作者也指出了SimPO还存在一些不足：

一是未明确考虑安全性和诚实性，采用的奖励函数主要关注了模型的表现，需要进一步加强安全措施；
二是在GSM8k等需要密集推理的任务，特别是数学问题上的表现有所下降，未来会考虑集成一些正则化策略进行改进。

有网友也指出，让一个8B模型取得超越Claude3-Opus的胜率，一定会有过拟合的现象出现。

对此作者表示确实存在这种可能，但也强调，在单独一个标准上成绩比Claude高，并不意味着全面超越，比如在Arena-Hard上的表现就不如Claude。

不过无论如何，SimPO创新性运用到的长度归一化和奖励差异项，都可以给大模型从业者带来新的启发。

论文地址：
https://arxiv.org/abs/2405.14734

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

浙江男子几口下肚，痛到崩溃！“当时觉得特别鲜”，医生：别拿命赌，有毒，没有特效解药

环球网资讯 2026-05-24 07:11:28
847 跟贴 847
投喂狮子时观光车车门突然打开！探访八达岭野生动物园：猛兽区投喂项目已关闭，同类观光车停运

红星新闻 2026-05-24 18:07:17
1157 跟贴 1157

仅因店员疏忽漏放吸管，女子多次扔吸管砸店员：惹到我，算你倒霉

星视频 2026-05-24 12:21:15
258 跟贴 258

从早忙到晚，一天50000斤都不够卖！杭州这口酸甜，不少人已安排！今年品质特别好

环球网资讯 2026-05-24 15:00:44
144 跟贴 144
水蜜桃饮品中水蜜桃添加量0.01克，康师傅回应称符合标准

南方都市报 2026-05-21 19:55:57
1180 跟贴 1180

集中爆发！宁波多地惊现罕见景观！有人半夜11点刷到立马起床出发，连夜奔赴

上观新闻 2026-05-23 11:46:10
817 跟贴 817

特斯拉中国将FSD更名为特斯拉辅助驾驶

每日经济新闻 2026-05-24 13:00:06
1007 跟贴 1007
乌称俄疑似使用“榛树”导弹打击基辅俄暂未回应

环球网资讯 2026-05-24 11:26:23
731 跟贴 731

进口蛋白粉先涨价再优惠淘宝618大促比日常价格还高

大风新闻 2026-05-23 17:12:31
316 跟贴 316
武契奇刚下飞机就去长城了在纪念品商店买买买

看看新闻Knews 2026-05-24 21:47:25
720 跟贴 720
中国沙地奇迹让赛考斯震惊了：Amazing

央视新闻 2026-05-24 21:56:14
231 跟贴 231
端午连休三天高速不免费

闪电新闻 2026-05-24 21:04:55
93 跟贴 93
粤超第四轮鏖战定乾坤，深圳湛江连胜霸榜、河源迎首胜

南方都市报 2026-05-24 23:36:13
10 跟贴 10
广湛高铁上新：广州至湛江北，最低折合149.4元/次

南方都市报 2026-05-24 13:23:52
220 跟贴 220
“东北超”开踢，为东北全面振兴注入鲜活动能

中国网 2026-05-24 14:57:04
430 跟贴 430
李斌：以前因亮点买车，现在因短板不买车

澎湃新闻 2026-05-24 07:30:26
225 跟贴 225
“碳水脸”？网友：袁爷爷让你们吃太饱了

农民日报 2026-05-24 17:21:57
35 跟贴 35
越南拟禁止2010年后出生者购买或使用烟草制品，旨在打造“越南无烟一代”

潇湘晨报 2026-05-24 13:21:32
214 跟贴 214
宿茂臻：我们领先后丢球太容易，克雷桑近一年改变很大

闪电新闻 2026-05-24 23:30:58
4 跟贴 4
天津24岁女孩惨死！长得很漂亮，最后遗言矛头指向无良公司

开着车去流浪 2026-05-25 01:45:49
0 跟贴 0
“带回家杀Z螂！小酷收到Z螂药！和不凡前仰后合哈哈大笑！还有毛巾很细节！”

新浪财经 2026-05-25 01:56:02
0 跟贴 0
那个300斤的纸箱，让我看清了"我不够好"的真相

晚风也遗憾 2026-05-25 01:25:03
0 跟贴 0

让中国孩子列队通过符拉迪沃斯托克广场，这个情况绝不正常！

让中国孩子列队通过符拉迪沃斯托克广场，这个情况绝不正常！

阿龙聊军事

2026-05-09 19:08:47

女性衰老的标志：1臭、2大、3小，如果你没有，说明还年轻！

女性衰老的标志：1臭、2大、3小，如果你没有，说明还年轻！

医学科普汇

2026-05-07 19:30:12

优质“蛋白质”排行榜！牛奶倒数第一，虾肉才排第5，建议了解

优质“蛋白质”排行榜！牛奶倒数第一，虾肉才排第5，建议了解

岐黄传人孙大夫

2025-12-20 10:00:03

医生忠告：患上高血压的人，一定要补充2种维生素，预防脑梗上门

医生忠告：患上高血压的人，一定要补充2种维生素，预防脑梗上门

健康科普365

2026-05-23 18:16:01

我年过六十岁才恍然大悟：为什么大多数女人都对六十岁以上的男人敬而远之，甚至会主动回避，两个原因

我年过六十岁才恍然大悟：为什么大多数女人都对六十岁以上的男人敬而远之，甚至会主动回避，两个原因

心理观察局

2026-05-04 08:51:10

42架！美军损失曝光

上观新闻

2026-05-23 22:31:40

皇马收官，现任主帅阿韦洛亚为避免尴尬，表示不会加入穆帅团队

皇马收官，现任主帅阿韦洛亚为避免尴尬，表示不会加入穆帅团队

福酱的小时光

2026-05-24 10:21:02

神舟二十三号成功发射，王亚平和刘洋再无缘，在为登月做准备？

神舟二十三号成功发射，王亚平和刘洋再无缘，在为登月做准备？

科学黑洞v

2026-05-24 23:17:26

李泽楷新欢曝光！47岁恋上女律师，气场碾压前任梁洛施

李泽楷新欢曝光！47岁恋上女律师，气场碾压前任梁洛施

可乐谈情感

2026-05-24 12:26:54

换帅如换刀，徐正源上任后铁人战绩2胜1平1负，积分追平前10轮

换帅如换刀，徐正源上任后铁人战绩2胜1平1负，积分追平前10轮

懂球帝

2026-05-25 00:32:30

美光CEO：当前全球内存短缺可能延续至2026年之后，行业大规模新产能释放至少要等到2028年

美光CEO：当前全球内存短缺可能延续至2026年之后，行业大规模新产能释放至少要等到2028年

新浪财经

2026-05-24 23:14:17

明朝最惨首辅：67岁被当猪抬上刑场，唯一被斩首的内阁大佬

明朝最惨首辅：67岁被当猪抬上刑场，唯一被斩首的内阁大佬

小豫讲故事

2026-05-22 06:00:13

50岁舒淇生日后大方承认：我卸了妆，就是个50岁的真实样子

50岁舒淇生日后大方承认：我卸了妆，就是个50岁的真实样子

陈意小可爱

2026-05-23 00:48:40

曾叫嚣让香港回归英国的陈家驹，潜逃英国沦为乞丐，活成笑话

曾叫嚣让香港回归英国的陈家驹，潜逃英国沦为乞丐，活成笑话

鉴史录

2026-05-24 15:10:38

发现一个现象：中产返贫三件套，已经升级为六件套了！

发现一个现象：中产返贫三件套，已经升级为六件套了！

番外行

2026-05-18 10:25:35

巴基斯坦总理：我们会取得成功，成为“小中国”

巴基斯坦总理：我们会取得成功，成为“小中国”

观察者网

2026-05-24 21:30:08

今夜开始下！山东将迎大范围降雨天气，多地局部暴雨

今夜开始下！山东将迎大范围降雨天气，多地局部暴雨

齐鲁壹点

2026-05-24 13:22:07

乌军收复590平方公里领土，俄呼吁国际社会阻止乌袭击炼油厂

乌军收复590平方公里领土，俄呼吁国际社会阻止乌袭击炼油厂

史政先锋

2026-05-23 14:58:09

血管斑块不是突然长出来的！6个习惯天天做，血管慢慢“通”回来

血管斑块不是突然长出来的！6个习惯天天做，血管慢慢“通”回来

芹姐说生活

2026-05-22 16:15:25

赵露思泰国演唱会各种大尺度，公然表演“胸震”，为曝光度无底线

赵露思泰国演唱会各种大尺度，公然表演“胸震”，为曝光度无底线

花哥扒娱乐

2026-05-22 20:17:55

追踪人工智能动态

12680文章数 176470关注度

往期回顾全部

科技要闻

我戴着摄像头上班，正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百我们一直劝他别干了

体育要闻

唐斯发牌，大头逆袭：骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万！代言和作品遭抵制

财经要闻

什么情况下，本轮AI大行情会结束？

汽车要闻

国民家轿再上新帝豪向上系列限时5.59万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

亲子

数码

本地

公开课

家居要闻

低调传承温润沉静

亲子要闻

六一儿童节，用贴纸给女儿化妆，和化妆师的手法一样！

数码要闻

618游戏本怎么选？ROG魔霸新锐2026来袭，福利秒杀让战力飞

本地新闻

用云锦的方式，打开江苏南京

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版