网易首页 > 网易号 > 正文 申请入驻

OpenAI有望重拾开源,2025年或是开源模型快速进步的一年

0
分享至

来源:华泰睿思

我们认为,2025年或是开源模型快速进步的一年,国产大模型进展值得关注。

核心观点

25年1月31日,OpenAI正式上线o3-mini,从发布时间和模型性能看,符合24年12月OpenAI发布会的预期。o3-mini通过ChatGPT Plus/Team/Pro订阅,以及API方式提供,Plus/Team订阅用户的o3-mini使用限额为每天150条,开发人员则可以选择模型的(低/中/高算力)三种推理模式来优化其特定用例。o3-mini模型延续了模型降价趋势,OpenAI指出自推出GPT-4以来,token的定价降低了95%,同时保持了优秀的推理能力。此外,DeepSeek性能和开源生态已经引起了海外头部模型厂商重视,OpenAI CEO表示R1“impressive”,并且指出后续可能找到不同的开源策略,有望重拾模型开源。我们认为,2025年或是开源模型快速进步的一年,国产大模型进展值得关注。

OpenAI正式上线o3-mini,上线时间和模型性能符合预期

本次o3-mini上线为预期之内,24年12月OpenAI官方发布了最新款o3模型,即指出o3-mini将于25年1月底上线。从性能看,o3-mini比o1-mini具有更强的推理能力,响应速度比快24%。据OpenAI官方数据,测试人员在56%的时间内更喜欢o3-mini的回答,且在困难的问题上o3-mini的主要错误减少了39%。通过提高o3-mini的思考时间,o3-mini在AIME和GPQA等较难的推理和智能性评估中,能够达到与o1匹配的性能。o3-mini暂不支持视觉功能,可以使用o1进行视觉推理任务,后续有望跟进。

ChatGPT非会员开始支持推理功能,OpenAI逐步实现模型普惠化

我们认为,OpenAI免费功能不断下放,证明模型性能迭代迅速,模型普惠化加速进行。o3-mini上线时,OpenAI同步宣布免费计划用户可以通过在消息编写器中选中“Reason”按钮,或在模型回答后选择重新生成响应来使用o3-mini模型,标志着ChatGPT中首次向免费用户提供推理模型。随着GPT系列模型的不断迭代,OpenAI已逐步将语音、新版模型等功能下放给免费用户,一方面证明其技术实力,另一方面表明模型性能迭代迅速,之前需要收费的功能已经实现免费化和普惠化。

o3-mini并非应对DeepSeek才发布,但OpenAI已开始重视国产模型

近期由DeepSeek发布的V3和R1模型由于低廉的推理价格和o1级别的推理性能,得到了市场的广泛关注。我们认为,o3-mini并非应对DeepSeek才发布,而是24年12月发布时即确定好了发布时间。但是,DeepSeek的模型能力已经引起了OpenAI在内的海外头部厂商的重视:微软、亚马逊、英伟达先后上线R1模型;OpenAI CEO Sam Altman在Blog表示R1“impressive”,并且OpenAI也将“提供更好的模型”。我们看好2025年国内模型在算法和软硬件技术的持续优化,以及在开源领域的重大贡献。

DeepSeek开始引领开源潮流,OpenAI或将重拾开源

我们认为,开源模型的优势体现在社区共建和技术共享。以DeepSeek-R1为例,其开源仓库采用标准化、宽松的MIT License,完全开源,不限制商用,无需申请。因此,理论上所有的小参数模型均能够直接利用R1蒸馏出的标签数据,来增强推理性能。此外,DeepSeek-R1开源有望提振整个开源社区的共建氛围,使得更多开源模型能够“站在巨人肩膀上”加速迭代。在2月1日OpenAI在Reddit上举办的AKA活动上,Altman表示“闭源可能站在历史错误的一边”,后续可能找到不同的开源策略。我们认为,2025年或是开源模型快速进步的一年,国产大模型进展值得关注。

风险提示:宏观经济波动,技术进步不及预期。本报告基于客观事实整理,不构成投资建议。

正文

o3-mini和DeepSeek-R1均达到o1水平

o3-mini发布,通过提升思考时间能够达到与o1匹配的性能。25年1月31日,OpenAI正式上线o3-mini,通过ChatGPT Plus、Team和Pro订阅,以及API方式提供。其中Plus和Team订阅用户的o3-mini使用限额为每天150条,开发人员则可以选择模型的(低/中/高算力)三种推理模式,优化其特定用例。本次o3-mini上线为预期之内,24年12月OpenAI官方发布了最新款o3模型,即指出o3-mini将于25年1月底上线。从性能看,o3-mini比o1-mini具有更强的推理能力,响应速度比快24%。据OpenAI官方数据,测试人员在56%的时间内更喜欢o3-mini的回答,且在困难的问题上o3-mini的主要错误减少了39%。通过提高o3-mini的思考时间,o3-mini在AIME和GPQA等较难的推理和智能评估中,能够达到与o1匹配的性能。o3-mini暂不支持视觉功能,可以继续使用o1进行视觉推理任务。





o3-mini和DeepSeek-R1在更困难的“Humanity's Last Exam”测试中名列前茅。由于近期模型能力的迅速提升,传统的测试集已经无法更好的测出模型性能的差距。因此,Humanity's Last Exam应运而生,该测试集是涵盖人类前沿知识的多模态测试基准,由100多个主题的3000个具有挑战性的问题组成。从测评结果看,目前所有前沿模型的准确性都较低,凸显了当前前沿模型在专家级学术领域还有很大的改进空间。但是对比已有的前沿模型,o3-mini已经超过了o1的水平,而DeepSeek-R1紧随其后,性能同样超过了o1。



DeepSeek-R1引起海外关注,OpenAI或因此重拾开源路线

DeepSeek通过多代模型迭代,逐步实现成本降低和性能提升。DeepSeek的模型以文本模态为主。2024年5月发布V2版本,通过注意力机制的优化,提高了训练和推理效率,实现模型价格的下降。2024年12月V3发布,在V2基础上运用了更多的软硬件优化技术,并且在技术报告中指出V3模型单次成功训练成本(不含前期研究、消融实验、算法和数据准备成本)仅为558万美元,性能达到4o水平。2025年1月,R1正式版模型发布,成功大规模实践了强化学习,使得R1性能提升到o1水平。


DeepSeek-V3在V2的基础上,进一步优化软硬件算法,实现性能提升。DeepSeek V2主要的改进包括采用了MLA(多头隐注意力机制)和DeepSeekMoE架构,相比其前一代模型DeepSeek 67B(稠密架构),性能更强,训练成本节省42.5%,KV cache 降低了93.3%(以上数据来源为华泰计算机报告《国产大模型“凭”什么降价?》2024.06.10)。V3以V2为基础,增加了无辅助损失策略、多token预测(MTP)、计算通信重叠、内存占用优化等新的软硬件优化算法,使得模型性能再上台阶。


DeepSeek-R1采用多阶段训练流程。DeepSeek-R1-Zero将RL直接应用于基础模型,而不使用任何SFT数据。经过数千次RL步骤后,DeepSeek-R1-Zero在推理基准测试中表现出较强的性能。但是DeepSeek-R1-Zero存在可读性差、多语言混合问题等。因此,DeepSeek团队通过如下方法进行进一步优化:1)通过引入少量高质量数据作为冷启动,推理性能进一步改进或收敛加速。2)提出新的多阶段训练,穿插多次SFT和RL,最终基于DeepSeek-R1-Zero得到了DeepSeek-R1模型。DeepSeek-R1在工程相关任务、MMLU、MMLU-Pro、GPQA Diamond、长上下文等能力方面优于V3,达到o1级别水平。


DeepSeek-V3/R1由于低廉的推理价格和o1级别的推理性能,得到了市场的广泛关注。我们认为,o3-mini并非应对DeepSeek才发布,而是24年12月发布时即确定好了发布时间。但是,DeepSeek的模型能力已经引起了OpenAI在内的海外头部厂商的重视:微软、亚马逊、英伟达先后上线R1模型;OpenAI CEO Sam Altman在Blog表示R1“impressive”,并且OpenAI也将“提供更好的模型”以应对DeepSeek。我们看好2025年国内模型在算法和软硬件的持续优化,以及在开源领域的重大贡献。



DeepSeek开始引领开源潮流,OpenAI或将重拾开源。我们认为,开源模型的优势体现在社区共建和技术共享。以DeepSeek-R1为例,其开源仓库(包括模型权重)统一采用标准化、宽松的MIT License,完全开源,不限制商用,无需申请。因此,理论上所有的小参数模型均能够直接利用R1蒸馏出的标签数据,来增强推理性能。此外,DeepSeek-R1开源有望提振整个开源社区的共建氛围,使得更多开源模型能够“站在巨人肩膀上”加速迭代。在2月1日OpenAI在Reddit上举办的AKA活动上,Altman表示“闭源可能站在历史错误的一边”,后续可能找到不同的开源策略。我们认为,2025年或是开源模型快速进步的一年,开源闭源模型的差距有望进一步缩小,国产大模型进展值得关注。



风险提示

宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对AI投入产生负面影响,从而导致整体行业增长不及预期。

技术进步不及预期。若AI技术和大模型技术进步不及预期,或将对相关的行业落地情况产生不利影响。

本报告基于客观事实整理,不构成投资建议。

相关研报

研报:《计算机/电子: o3-mini发布,OpenAI或重拾开源》2025年2月3日

本文源自:券商研报精选

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

倍杰特董事权秋红减持3.05万股,成交均价8.50元

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
易中天:“中国式逻辑”下的疯狗、脑残和乌贼

易中天:“中国式逻辑”下的疯狗、脑残和乌贼

深度报
2025-05-13 23:37:11
达成40亿大单后,不到48小时,巴西又与中国签署1900亿元协议

达成40亿大单后,不到48小时,巴西又与中国签署1900亿元协议

三农老历
2025-05-15 11:05:56
破案!33分惨案夜,杰曼得0分的原因找到,北京名记隐晦说出实情

破案!33分惨案夜,杰曼得0分的原因找到,北京名记隐晦说出实情

后仰大风车
2025-05-15 07:10:03
贵州男子力大如牛,医生:“有4个肾!”妻子:怪不得他这么厉害

贵州男子力大如牛,医生:“有4个肾!”妻子:怪不得他这么厉害

坦然风云
2025-05-15 14:53:48
“裂开了,装百叶窗约等于裸奔!”评论区炸锅!网友: 我家也这样

“裂开了,装百叶窗约等于裸奔!”评论区炸锅!网友: 我家也这样

有趣的火烈鸟
2025-05-14 21:59:33
“三天是男人的极限”,女孩谎称提前开学去见男友,网友直接举报

“三天是男人的极限”,女孩谎称提前开学去见男友,网友直接举报

妍妍教育日记
2025-02-09 22:58:40
46岁李湘带女儿参加英国皇室聚会,王诗龄戴全套珠宝,胖得很贵气

46岁李湘带女儿参加英国皇室聚会,王诗龄戴全套珠宝,胖得很贵气

喜欢历史的阿繁
2025-05-15 15:20:10
导弹从天而降,印军指挥部被一锅端,击毙50名印军,莫迪首次发声

导弹从天而降,印军指挥部被一锅端,击毙50名印军,莫迪首次发声

不吃草de兔子
2025-05-12 19:32:00
背着中国,韩国偷偷把稀土倒卖给美国,结果美国收到后直接认怂了

背着中国,韩国偷偷把稀土倒卖给美国,结果美国收到后直接认怂了

阿芒娱乐说
2025-05-14 23:04:36
坐拥14亿用户的微信杀入电商,抖音、淘宝这下要慌了?

坐拥14亿用户的微信杀入电商,抖音、淘宝这下要慌了?

雷科技
2025-05-15 19:50:02
《绝密较量》全剧最大反派出现!是翻译工作的她,比利德还恶劣

《绝密较量》全剧最大反派出现!是翻译工作的她,比利德还恶劣

大歪歪
2025-05-15 16:36:43
江一燕回大理只抢到站票,占别人位置被撵走,直接坐地上太接地气

江一燕回大理只抢到站票,占别人位置被撵走,直接坐地上太接地气

界史
2025-05-15 17:05:29
商务部新闻发言人就暂停17家美国实体不可靠实体清单措施答记者问

商务部新闻发言人就暂停17家美国实体不可靠实体清单措施答记者问

经济观察报
2025-05-14 22:17:04
曝37岁赵丽颖与赵德胤隐婚,惹冯绍峰妈妈不满,后援会回应遭群嘲

曝37岁赵丽颖与赵德胤隐婚,惹冯绍峰妈妈不满,后援会回应遭群嘲

易同学爱谈娱乐
2025-05-15 08:20:52
五月份这五种水果再馋也别买!果农:又贵又坑人,看完少花冤枉钱

五月份这五种水果再馋也别买!果农:又贵又坑人,看完少花冤枉钱

菜卫卫的日常美食
2025-05-12 12:16:35
500亿美元!宁德时代爆了!

500亿美元!宁德时代爆了!

电动知家
2025-05-15 10:44:32
税局开始动刀了, 8部门联合严打,这11种行为查到必罚!

税局开始动刀了, 8部门联合严打,这11种行为查到必罚!

税海拾真
2025-04-09 16:34:35
触目惊心,国羽男女单打的断层,5年都填不满

触目惊心,国羽男女单打的断层,5年都填不满

真理是我亲戚
2025-05-15 20:22:06
特斯拉副总裁陶琳:上海超级工厂出口的焕新Model Y已在亚太多个市场交付,包含日本、澳大利亚、新加坡韩国等

特斯拉副总裁陶琳:上海超级工厂出口的焕新Model Y已在亚太多个市场交付,包含日本、澳大利亚、新加坡韩国等

和讯网
2025-05-15 10:01:28
深圳小区车内惊现眼镜王蛇,被它咬一口全村吃席

深圳小区车内惊现眼镜王蛇,被它咬一口全村吃席

一个岛岛
2025-05-14 12:10:58
2025-05-15 23:04:49
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
6881223文章数 543981关注度
往期回顾 全部

科技要闻

特朗普施压库克:不希望苹果在印度建厂!

头条要闻

"义乌最牛老板娘"重获200万外贸订单:抓紧90天出货

体育要闻

越过山丘!郑钦文:山海皆可平 罗马站4强

娱乐要闻

一场恋情瓜暴露了赵丽颖的真实处境

财经要闻

李强:把做强国内大循环摆到更加突出位置

汽车要闻

下半年上市/预计15万元左右 长安启源A06官图发布

态度原创

艺术
手机
亲子
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

手机要闻

四曲面屏iPhone曝光?屏下Face ID加持

亲子要闻

孩子小时候胖,长大就自然就瘦了,这是真的吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京和特朗普均缺席俄乌土耳其会谈