网易首页 > 网易号 > 正文 申请入驻

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

0
分享至


新智元报道

编辑:Aeneas 好困

【新智元导读】OpenAI第二天的直播,揭示了强化微调的强大威力:强化微调后的o1-mini,竟然全面超越了地表最强基础模型o1。而被奥特曼称为「2024年我最大的惊喜」的技术,技术路线竟和来自字节跳动之前公开发表的强化微调研究思路相同。

OpenAI 12天连播的第二弹,用短短三个单词体现了什么叫「字少事大」——强化微调(Reinforcement Fine-Tuning)。


首先,这是OpenAI第一次将之前仅限自家模型(如GPT-4o和o1系列)使用的强化学习技术,开放给外部开发者。

其次,开发者只需提供最低「几十个」高质量任务,就能通过强化微调实现领域专家模型的定制!并且,还能根据提供的参考答案对模型的回应进行评分。

最后,强化微调加强了模型在处理领域问题时的推理能力,并提升了在特定任务上的准确性。对于那些要求高精确性和专业知识的领域,强化微调将会发挥至关重要的作用。

从OpenAI的官方演示中不难看出,强化微调的效果可谓是相当显著——经过强化微调的o1 mini,竟然全面超越了当今最强的基础模型o1。

其中,强化微调版的o1 mini,在Top-1准确率上直接跃升180%达到了31%,远超o1的25%。



对此,奥特曼激动地表示:「这项工作效果出奇得好,是我2024年最大的惊喜之一!非常期待大家会用它去构建什么。」

目前,强化微调研究计划已进入Alpha阶段,并将于2025年第一季度公开发布。



为了搞清楚「强化微调」到底是个啥,我们便去问了问OpenAI自家的AI搜索。

没想到,结果却出人意料——这个技术思路,在一篇被ACL 2024录用为Oral的论文中,就已经提出了。

而更喜人的是,团队的成员全部来自字节跳动!


在这项工作中,研究人员提出了一种简单而有效的方法,来自增强LLM推理时的泛化能力——强化微调(Reinforced Fine-Tuning,ReFT)。


论文地址:https://arxiv.org/abs/2401.08967

简单来说,ReFT首先会使用SFT对模型进行预热,然后采用在线强化学习(PPO算法)进行优化。

也就是,对给定的问题自动采样大量的推理路径,并根据真实答案来获取奖励,从而进一步对模型进行微调。

在GSM8K、MathQA和SVAMP数据集上的大量实验表明,ReFT显著优于SFT,并且通过结合多数投票和重新排序等策略,可以进一步提升模型性能。

不仅如此,ReFT还有着卓越的泛化能力——在训练中仅需使用与SFT相同的问题集,而无需依赖额外或增强的训练数据。


强化微调,不是传统微调

这次上阵直播的四人,是OpenAI的研究员Mark Chen、John Allard、Julie Wang,以及伯克利实验室计算生物学家Justin Reese。


他们介绍说,这项功能已允许用户在自己的数据集上微调o1。

不过要强调的是,并不是传统的微调,而是强化微调。它真正利用了强化学习算法,把模型从高级中学水平提升到专家博士级别。

这个功能,能够帮助把自己的优质数据集转化为独一无二的用品,带来「魔力」。

强化微调(RFT),能让开发者、研究人员和机器学习工程师首次有机会使用强化学习来创建专家级模型,在特定领域的任务中有卓越表现。

对于法律、金融、工程、保险等领域,这项技术简直是量身打造的。

举例来说,OpenAI最近和汤森路透合作,利用强化微调对o1 Mini进行了微调,使其成为了一名法律助手,帮法律专业人士完成了一些复杂、需要深入分析的工作流程 。

史上首次,OpenAI微调支持强化学习

去年年初,OpenAI就推出了监督微调API。这项技术非常强大,核心目标是让模型复制在输入文本或图像中发现的特征。

在强化微调中,它不仅是教模型模仿输入,而是去学习在自定义域上以全新的方式进行推理。

当模型看到一个问题,研究者会给它空间来思考问题,然后给它的最终答案进行评分。

然后,利用强化学习的强大能力,他们会强化那些导致正确答案的思维路径,同时抑制那些导致错误答案的思维路径。

只需要数十到数千个高质量示例,模型就能学会以新的、有效的方式在定制领域中进行推理了!

用OpenAI研究者的话说,这实在太疯狂了,令人难以置信——仅用12个例子就能做到,这是传统微调难以实现的。

这也是史上首次,OpenAI的模型定制平台可以支持强化学习。

研究者强调说,OpenAI内部用来训练GPT-4o和o1系列等顶尖模型,就是用的同样技术。

强化微调的o1,诊断罕见病

伯克利实验室的Justin,就介绍了强化微调给他的研究带来的巨大帮助。


他研究的是,使用计算方法来理解罕见疾病背后的遗传原因。

然而,现在评估罕见疾病并不容易,首先要对医学有专业领域知识,还要对生物医学数据进行系统化推理。

而这,o1模型可以凭借其高级推理能力提供帮助。

在这个项目中,Justin和同事们从数百篇关于罕见疾病的科学病例报告中提取了疾病信息,包括患者的体征和症状。

他们希望能根据患者的症状,找出可能发生突变、导致这些症状的基因。

为此,他们和OpenAI团队一起训练了o1模型,让它更高效地推理疾病的成因。

而在「根据一系列症状预测可能引发遗传疾病的基因」这一任务上,o1-mini的表现超越了o1!

这非常重要,因为o1-mini比o1更小、更快、成本更低。

在OpenAI的开发平台上,他们已经对一个模型进行监督微调一年多了。


他们上传了一个训练数据集,包含1100个示例。

以下是一个单独的数据点,包括病例报告、指令、正确答案三个部分。


病例报告显示,这是一名51岁的女性,有眼距增宽、甲状旁腺功能亢进等症状。 在指令部分,研究者会提示模型,希望它做什么。 最后就是正确答案。

注意,训练过程中,并不会向模型展示这个答案,否则就是作弊了。

但是,研究者以这训练过程中用这个答案来评估模型。

可以看出,这个任务的难度,已经远远超越了「Strawberry中有几个r」的级别。

接下来,他们上传了一些验证数据,它的格式与训练数据完全相同,但验证数据集和训练数据集之间的正确基因没有重叠。


这就意味着,模型不能作弊,不能只是简单地记住症状列表并将其与基因匹配。

它必须真正从训练数据集泛化到验证数据集。

强化学习的部分,是这样体现的——

他们引入评分器的概念,将模型输出与正确答案比较,返回0到1之间的一个分数。0表示模型完全错误,1表示模型完全正确。

在这个例子中,模型得到了0.7的分数,因为FOXE 3是正确答案,在基因列表中排第二位。

它在列表中越往后,分数会越接近0。


最终,研究者提供了一套评分器合集,能有效覆盖在强化微调时可能会有的各种意图空间。

接下来,可以快速地复制一下评分器,然后就启动了一个训练任务。

厉害的地方在于,只需要提供数据集和评分器(体现领域专业知识),就可以利用OpenAI强化学习算法的全部能力,以及完整的分布式模型训练技术栈,来为自己的使用场景定制一个前沿模型了。

一句话就是:拿上你的数据集和评分器,OpenAI就会给你一个微调模型。


强化学习微调任务可能需要几个小时到几天的时间来运行

可以看到,验证集的奖励分数呈上升趋势。

由于训练数据集和验证数据集之间的基因没有重叠,这意味着:模型确实学会了这项任务中进行泛化!


模型学会通用推理能力

为了更深入地了解模型中微调过程中发生了什么变化,可以查看评估仪表板。


其中,研究者设置了三个不同运行,分别是运行在o1、o1 mini和强化微调后的o1 mini上的任务。

可以看到,奖励分数呈现右上角上升的趋势,但这对任务来说意味着什么呢?

为此,他们设置了三个不同的评估指标,分别是Top-1(第一项正确率)、Top-5(前五项正确率)和Top-max(是否包含正确答案)。

在Top-1指标中,o1 mini在约200条数据上的得分是17%。o1得到了25%,而微调后的o1 mini,得到了31%。

ChatGPT就此生成了一张更直观的图表。

这显示出,模型确实学会了如何在这类数据上进行推理的通用能力!


在Justin看来,强化学习将极大地振奋生物学研究社区,近期内的最佳方案,可能就是结合现有生物信息学工具和类o1模型的混合解决方案。

而以上,仅仅是强化微调在科学研究中的一个应用而已。

除了已经验证的生物化学、AI安全、法律以及医疗保健数据集,模型还会在数百种其他应用场景上发挥作用。

OpenAI的Alpha计划,会让更多人在最重要的任务上,推动o1模型能力的边界。

直播最后,依然是OpenAI式的圣诞冷笑话一则——

最近,圣诞老人在尝试制造一辆无人驾驶雪橇,但不知为何,他的模型总是无法识别树木,导致雪橇不停地撞上道路两旁的树。你们猜这是为什么?

答案是:因为他忘了给模型进行「pine-tune」(松树微调)!


参考资料:

https://openai.com/form/rft-research-program/

https://x.com/OpenAI/status/1865091561912164499

https://arxiv.org/pdf/2401.08967

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1979年邓小平访美,遭遇三次行刺,步步惊心,袭击者身份各异

1979年邓小平访美,遭遇三次行刺,步步惊心,袭击者身份各异

阿胡
2024-02-19 11:03:55
官方通报“9点办事大厅空岗”:干部迟到,已处分

官方通报“9点办事大厅空岗”:干部迟到,已处分

鲁中晨报
2025-01-07 21:00:11
中共中央、国务院:各地根据经济发展水平和人口老龄化程度 加大对养老服务支持力度

中共中央、国务院:各地根据经济发展水平和人口老龄化程度 加大对养老服务支持力度

财联社
2025-01-07 18:20:06
超1000万人次向北大转移!深圳疯狂建的医院“集中”大爆发!

超1000万人次向北大转移!深圳疯狂建的医院“集中”大爆发!

深圳梦
2025-01-07 22:31:00
比光刻机还重要?中国又1大国重器亮相,总投资达上千亿元

比光刻机还重要?中国又1大国重器亮相,总投资达上千亿元

常高俊April工作室
2025-01-04 22:20:05
中美科技战再升级!拜登出手,美国拟全面封杀中国无人机

中美科技战再升级!拜登出手,美国拟全面封杀中国无人机

喜欢农家生活的阿律
2025-01-08 03:19:24
感谢陈允斌老师的“芹菜根煮水”,才喝了5天,脸上都干净了

感谢陈允斌老师的“芹菜根煮水”,才喝了5天,脸上都干净了

荷兰豆爱健康
2025-01-05 14:19:30
妻儿、兄弟都是他的“收款员” 孙志刚贪腐细节披露→

妻儿、兄弟都是他的“收款员” 孙志刚贪腐细节披露→

环球网资讯
2025-01-07 20:32:17
河南:3月底前将所有符合条件的存量住房开发贷款项目纳入“白名单”机制

河南:3月底前将所有符合条件的存量住房开发贷款项目纳入“白名单”机制

观点机构
2025-01-07 08:47:04
2013-2024年,辽宁省被查官员(第10条大鱼)

2013-2024年,辽宁省被查官员(第10条大鱼)

沈阳生活圈i
2025-01-07 22:29:10
太豪横!佛山欧府办寿宴,现场邀约7位知名港星,又唱又跳显落魄

太豪横!佛山欧府办寿宴,现场邀约7位知名港星,又唱又跳显落魄

裕丰娱间说
2025-01-05 23:17:13
向全世界宣布!50亿光刻机厂落地浙江,阿斯麦傻了:越来越强大?

向全世界宣布!50亿光刻机厂落地浙江,阿斯麦傻了:越来越强大?

素年文史
2024-08-08 08:05:02
韩媒:韩国淑明女子大学初步判定,金建希硕士论文存在抄袭

韩媒:韩国淑明女子大学初步判定,金建希硕士论文存在抄袭

环球网资讯
2025-01-07 21:47:37
确认来中国访问行程了!特朗普意识到问题所在,中方必须提高警惕

确认来中国访问行程了!特朗普意识到问题所在,中方必须提高警惕

荧惑手心
2025-01-06 19:00:59
华东政法大学新年火了:一群学法的大学生,竟然不懂法?

华东政法大学新年火了:一群学法的大学生,竟然不懂法?

大道微言
2025-01-06 19:27:17
揭秘朝鲜金正恩早些年的日常生活:手机、香烟、饮料和饮食习惯

揭秘朝鲜金正恩早些年的日常生活:手机、香烟、饮料和饮食习惯

花仙历史说
2025-01-07 21:03:56
形势到底有多严峻?天呢!上海已经刷新国人的认知…

形势到底有多严峻?天呢!上海已经刷新国人的认知…

慧翔百科
2024-11-21 12:03:47
省委书记、省长、国家体育总局局长等,一同到这里“把冰雪点燃”

省委书记、省长、国家体育总局局长等,一同到这里“把冰雪点燃”

政知新媒体
2025-01-06 23:03:20
闲鱼变“黄”鱼?各种暗号满天飞,聊天记录揭示涉黄交易

闲鱼变“黄”鱼?各种暗号满天飞,聊天记录揭示涉黄交易

南城无双
2025-01-06 01:35:19
不磕了,赵丽颖都辟谣两次了,就当好朋友吧

不磕了,赵丽颖都辟谣两次了,就当好朋友吧

祝晓塬
2025-01-08 03:35:29
2025-01-08 04:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
11970文章数 65753关注度
往期回顾 全部

头条要闻

男子称到银行取现2.9万遭报警排查来源用途 银行回应

头条要闻

男子称到银行取现2.9万遭报警排查来源用途 银行回应

体育要闻

奥运冠军强强联合!郑钦文将搭档德约科维奇,出战澳网表演赛

娱乐要闻

星星缅北照片公开:眼神空洞表情恐惧

财经要闻

中共中央、国务院:大力发展养老金融

科技要闻

黄仁勋化身"美国队长" 发布RTX 50系列显卡

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

教育
亲子
艺术
时尚
家居

教育要闻

采访马来西亚来华留学生:全球华人都很拼,也要学会知足

亲子要闻

你永远猜不到萌娃下一秒会做出什么事!兔子:不是在喂我吗?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

年底聚会5款宝藏零食来啦!好吃到想囤一仓库

家居要闻

简约大气 居心之所

无障碍浏览 进入关怀版