网易首页 > 网易号 > 正文 申请入驻

陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。

该方式在多项测试中性能都远超DPO,还能让8B模型战胜Claude 3的超大杯Opus。

而且与DPO相比,训练时间和GPU消耗也都大幅减少。

这种方法叫做SimPO,Sim是Simple的简写,意在突出其简便性。

与DPO相比,SimPO摆脱了对参考模型的需要,在简化训练流程的同时,还避免了训练和推理不一致的问题。

对于这项成果,普林斯顿PLI主任Sanjeev Arora教授这样称赞:

和(SimPO方法调整出的)模型聊天感觉让人难以置信。
Llama3-8B是现在最好的小模型,SimPO把它变得更好了。

成果发布并开源后,大模型微调平台Llama-Factory也迅速宣布引进。

摆脱对参考模型的需要

陈丹琦团队的SimPO,和斯坦福提出的DPO一样,都是对RLHF中的奖励函数进行优化。

在传统的RLHF中,奖励函数通常由一个独立的奖励模型提供,需要额外的训练和推理;DPO利用人类偏好和模型输出之间的关系,直接用语言模型的对数概率来构建奖励函数,绕开了奖励模型的训练。

而和DPO相比,SimPO只基于当前优化的模型π_θ进行设计,完全摆脱了对参考模型π_ref的依赖。

具体来说,SimPO采用了长度归一化的对数概率作为奖励函数。

其中,β是一个正的缩放系数,|y|表示回复y的token长度,πθ(y|x)表示当前语言模型πθ生成回复y的概率。

对数概率是衡量生成质量的常用指标,较高的对数概率意味着在当前模型看来,这个回复是高质量、自然、连贯的。

因此,这种奖励方式可以让模型生成的回复更加符合自身已有知识。

长度归一化则是指,在函数当中,奖励值除以了回复长度|y|,起到了“惩罚”过长回复的作用。

这样做的原因是语言模型倾向于生成更长的文本,因为每个额外的token都会为总对数概率做贡献,但过长的回复往往会降低可读性和信息密度。

除以长度相当于计算平均每个token的对数概率,鼓励模型用尽可能简洁的方式表达完整的信息。

消融实验结果也证实,如果不进行长度归一化,模型很容易利用长度偏差,只有在生成文本较长时才有较好的表现。

除了使用对数概率和长度归一化,SimPO还引入了奖励差异项(公式中的γ)对目标函数进行改进。

引入γ相当于给正负样本的差异设定了一个阈值,主要目的就是加强优化信号,促使模型学习更加鲜明地区分正负样本。

在标准的Bradley-Terry损失中,只要正样本的奖励略高于负样本,损失就会很低,导致模型对正负样本的区分不够清晰;加入γ项后,模型必须使正样本的奖励明显高于负样本,才能取得较好的优化效果。

当然如果γ过大则可能会给优化带来困难,导致训练不稳定或收敛速度变慢,作者通过实验比较了不同γ值的效果,最终发现γ在0.8到1.6之间时SimPO可以取得最佳表现。

总体的消融实验结果表明,长度归一化和奖励差异项的引入都是让SimPO表现进一步提升的关键,无论是在AlpacaEval 2还是Arena-Hard当中,缺少两项技术中的任意一项,都会造成表现下降。

那么,SimPO的具体表现究竟怎样呢?

表现超越各种“PO”,还让8B模型战胜Claude 3

作者首先在AlpacaEval 2基准上对SimPO调整后的Llama3-Instruct-8B模型和榜单上的先进模型进行了比较。

该测试的主要指标是Win Rate及加入长度控制(LC)后的Win Rate,即模型的回答被评判者认为比GPT-4 Turbo(1106)更好的比例(这里评判者也是GPT4-Turbo)。

结果,SimPO调整后的8B模型,表现已经超过了Claude 3的超大杯Opus;和DPO相比,胜率也有10%左右的提升。

接着,作者又用AlpacaEval 2、Arena-Hard和MT-Bench基准,将SimPO的实际效果与一些其他PO进行了对比。

其中Arena-Hard与AlpacaEval 2类似都是比较胜率,但前者任务难度更大,需要多步推理和专业知识,此外baseline也换成了GPT4-0314。

MT-Bench则是一个多语言理解评测基准,评价方式是直接打分,裁判是GPT-4和GPT-4-Turbo。

参与比较的其他PO如下表所示,其中ORPO和SimPO一样都没有使用参考模型。

结果,在Arena-Hard与AlpacaEval 2上,调整Mistral-7B和Llama3-8B两种模型时,无论是Base还是Instruct版本,SimPO的效果都显著优于DPO等其他方式。

在MT-Bench测试当中,GPT-4-Turbo也都把最高分打给了SimPO,GPT-4给出的成绩中SimPO也与最高分十分接近。

另外SimPO的开销也大幅减少,在8块H100上,SimPO调整Llama3-8B的时间为60分钟,比DPO减少了20%;GPU消耗峰值为69GB,也比DPO少了10%。

但同时,作者也指出了SimPO还存在一些不足:

  • 一是未明确考虑安全性和诚实性,采用的奖励函数主要关注了模型的表现,需要进一步加强安全措施;
  • 二是在GSM8k等需要密集推理的任务,特别是数学问题上的表现有所下降,未来会考虑集成一些正则化策略进行改进。

有网友也指出,让一个8B模型取得超越Claude3-Opus的胜率,一定会有过拟合的现象出现。

对此作者表示确实存在这种可能,但也强调,在单独一个标准上成绩比Claude高,并不意味着全面超越,比如在Arena-Hard上的表现就不如Claude。

不过无论如何,SimPO创新性运用到的长度归一化和奖励差异项,都可以给大模型从业者带来新的启发。

论文地址:
https://arxiv.org/abs/2405.14734

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
让中国孩子列队通过符拉迪沃斯托克广场,这个情况绝不正常!

让中国孩子列队通过符拉迪沃斯托克广场,这个情况绝不正常!

阿龙聊军事
2026-05-09 19:08:47
女性衰老的标志:1臭、2大、3小,如果你没有,说明还年轻!

女性衰老的标志:1臭、2大、3小,如果你没有,说明还年轻!

医学科普汇
2026-05-07 19:30:12
优质“蛋白质”排行榜!牛奶倒数第一,虾肉才排第5,建议了解

优质“蛋白质”排行榜!牛奶倒数第一,虾肉才排第5,建议了解

岐黄传人孙大夫
2025-12-20 10:00:03
医生忠告:患上高血压的人,一定要补充2种维生素,预防脑梗上门

医生忠告:患上高血压的人,一定要补充2种维生素,预防脑梗上门

健康科普365
2026-05-23 18:16:01
我年过六十岁才恍然大悟:为什么大多数女人都对六十岁以上的男人敬而远之,甚至会主动回避,两个原因

我年过六十岁才恍然大悟:为什么大多数女人都对六十岁以上的男人敬而远之,甚至会主动回避,两个原因

心理观察局
2026-05-04 08:51:10
42架!美军损失曝光

42架!美军损失曝光

上观新闻
2026-05-23 22:31:40
皇马收官,现任主帅阿韦洛亚为避免尴尬,表示不会加入穆帅团队

皇马收官,现任主帅阿韦洛亚为避免尴尬,表示不会加入穆帅团队

福酱的小时光
2026-05-24 10:21:02
神舟二十三号成功发射,王亚平和刘洋再无缘,在为登月做准备?

神舟二十三号成功发射,王亚平和刘洋再无缘,在为登月做准备?

科学黑洞v
2026-05-24 23:17:26
李泽楷新欢曝光!47岁恋上女律师,气场碾压前任梁洛施

李泽楷新欢曝光!47岁恋上女律师,气场碾压前任梁洛施

可乐谈情感
2026-05-24 12:26:54
换帅如换刀,徐正源上任后铁人战绩2胜1平1负,积分追平前10轮

换帅如换刀,徐正源上任后铁人战绩2胜1平1负,积分追平前10轮

懂球帝
2026-05-25 00:32:30
美光CEO:当前全球内存短缺可能延续至2026年之后,行业大规模新产能释放至少要等到2028年

美光CEO:当前全球内存短缺可能延续至2026年之后,行业大规模新产能释放至少要等到2028年

新浪财经
2026-05-24 23:14:17
明朝最惨首辅:67岁被当猪抬上刑场,唯一被斩首的内阁大佬

明朝最惨首辅:67岁被当猪抬上刑场,唯一被斩首的内阁大佬

小豫讲故事
2026-05-22 06:00:13
50岁舒淇生日后大方承认:我卸了妆,就是个50岁的真实样子

50岁舒淇生日后大方承认:我卸了妆,就是个50岁的真实样子

陈意小可爱
2026-05-23 00:48:40
曾叫嚣让香港回归英国的陈家驹,潜逃英国沦为乞丐,活成笑话

曾叫嚣让香港回归英国的陈家驹,潜逃英国沦为乞丐,活成笑话

鉴史录
2026-05-24 15:10:38
发现一个现象:中产返贫三件套,已经升级为六件套了!

发现一个现象:中产返贫三件套,已经升级为六件套了!

番外行
2026-05-18 10:25:35
巴基斯坦总理:我们会取得成功,成为“小中国”

巴基斯坦总理:我们会取得成功,成为“小中国”

观察者网
2026-05-24 21:30:08
今夜开始下!山东将迎大范围降雨天气,多地局部暴雨

今夜开始下!山东将迎大范围降雨天气,多地局部暴雨

齐鲁壹点
2026-05-24 13:22:07
乌军收复590平方公里领土,俄呼吁国际社会阻止乌袭击炼油厂

乌军收复590平方公里领土,俄呼吁国际社会阻止乌袭击炼油厂

史政先锋
2026-05-23 14:58:09
血管斑块不是突然长出来的!6个习惯天天做,血管慢慢“通”回来

血管斑块不是突然长出来的!6个习惯天天做,血管慢慢“通”回来

芹姐说生活
2026-05-22 16:15:25
赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

花哥扒娱乐
2026-05-22 20:17:55
2026-05-25 02:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12680文章数 176470关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

家居
亲子
数码
本地
公开课

家居要闻

低调传承 温润沉静

亲子要闻

六一儿童节,用贴纸给女儿化妆,和化妆师的手法一样!

数码要闻

618游戏本怎么选?ROG魔霸新锐2026来袭,福利秒杀让战力飞

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版