前瞻｜OpenAI发布o3与o4-mini，“强化学习+Scaling Law”提升多模态推理能力|算法|openai|深度思考模型|scaling

前瞻｜OpenAI发布o3与o4-mini，“强化学习+Scaling Law”提升多模态推理能力

2025-04-19 09:53:07　来源: 新浪财经

北京举报

分享至

文｜陈俊云许英博贾凯方高飞翔

北京时间4月17日凌晨，OpenAI发布o系列多模态推理大模型o3与o4-mini。该系列模型在大规模强化学习与图像思维链整合技术的加持下，多模态推理能力显著增强，工具应用能力大幅提升。推理性能提升同时推理成本亦显著降低，o3定价与o1相比降低了33%；o4-mini定价亦低于性能可比的Gemini 2.5 Pro和Claude 3.7 Sonnet定价的50%。投资层面看，o3与o4-mini多模态推理能力的进步有效的开阔了其应用场景；训练与推理阶段呈现出的计算量提升带来模型性能提升的特点亦证明了Scaling Law仍在延续。随着通用推理能力的进步，我们认为AI爆款应用有望在科研、编程等高价值场景率先解锁，软件、互联网有望受益。除去应用端的投资机会，我们认为硬件端的需求也必然会随着多模态技术的进步与应用而不断提高，中期维度，我们仍持续看好 AI 算力板块的投资机会。

▍事项：

北京时间4月17日，OpenAI发布了o3与o4-mini两款头部推理模型，引发资本市场高度关注。根据OpenAI官网，o3与o4-mini两款多模态模型作为OpenAI旗下o系列推理模型的最新版本，不仅可以自主组合并使用ChatGPT内如网页搜索和Python数据分析等多种工具，而且还能在1分钟内自主判断何时以及如何使用相关工具从而输出合乎格式要求的结果。根据OpenAI官网，自4月17日起，ChatGPT Plus、Pro和Teams用户均可在模型选择器中自由选择o3、o4-mini和o4-mini-high，ChatGPT Enterprise和Edu用户将在一周后获得获得访问权限，免费用户亦能通过Think模式使用o4-mini。

▍模型表现：Scaling Law继续生效，强化学习加持，多模态推理能力显著提升。

作为o系列首批多模态推理模型，o3与o4-mini测评结果亮眼。根据OpenAI官网，旗舰推理模型o3在通用知识、代码能力和多模态能力上均进步显著：1）通用知识方面，在不使用外部工具的前提下，o3模型通用知识测试GPQA-Diamond正确率83.3%（o1为78%），数学测试AIME 2025正确率88.9%（o1为79.2%）；2）代码能力方面，o3的SWE-Bench Verified测试集正确率为69.1%（o1为48.9%）；3）多模态能力方面，o3的MMMU测试集正确率82.9%（o1为77.6%），MathVista正确率87.5%（o1为71.8%）。此外，o3的重大错误率较其上一代模型o1降低了20%，可用性显著提升。而o4-mini作为小巧但效能更高的推理模型，在数学、编程和视觉任务中表现优秀，在非STEM任务（科学、技术、工程、数学）上的表现也超越了上代模型o3-mini。

根据OpenAI官网，o系列模型推理能力的进步是Scaling Law持续生效和强化学习技术不断进步的结果。在o3的开发过程中，OpenAI发现：1）大规模强化学习呈现出与GPT系列预训练相同的规律，即计算量越大模型性能越好；2）模型思考时间越长，推理结果质量越高。而o系列模型多模态能力的进步则来自于图像与思维链的整合，结合工具调用能力，模型还能在推理过程中即时操控图像，比如旋转、缩放、格式转换等，让图像处理成为其思考的一部分。

▍市场定位：成本优化显著，安全性与推理能力增强料将解锁应用场景。

定价方面，根据各公司官网，OpenAI旗舰推理模型o3的定价为输入10美元/百万Token，输出为40美元/百万Token，较上一代模型o1（输入15美元/百万Token，输出60美元/百万Token）降低了33%；而更加注重性价比的o4-mini的定价为输入1.1美元/百万Token，输出为4.4美元/百万Token，与性能大体相近的Gemini 2.5 Pro预览版（输入2.5美元/百万Token，输出15美元/百万Token）和Claude 3.7 Sonnet（输入3美元/百万Token，输出15美元/百万Token）相比定价低50%+。

推理能力方面，o3与o4-mini的多模态推理能力大幅提升，应用场景有望从文字为主的高容错场景逐步向更复杂且容错率更低的多模态场景（如工业生产场景等）拓展。在安全性上，OpenAI不仅为o3和o4-mini全面重构了安全训练数据集，新增了针对生物威胁（生物风险）、恶意软件生成、越狱提示等领域的拒绝示例，让两个模型在指令层级理解和越狱防护上都展现出强大的防护能力，还开发了系统层面的风险缓解机制，用于识别和标记涉及前沿风险领域的危险提示，为应用场景的进一步解锁奠定基础。

▍趋势展望：Scaling Law延续，强化学习与多模态值得关注。

根据OpenAI官网，o3模型不仅证明了训练阶段大规模强化学习呈现出计算量越大模型性能越好的特征，而推理阶段思考时间越长，推理结果质量越高。上述现象表明，无论在训练阶段还是在推理阶段，Scaling Law均在延续。在强化学习的加持下，o3与o4-mini这两款模型不仅学会了如何使用工具，还学会了判断何时使用工具，从而在视觉推理和多步骤工作流程任务中表现出色。此外，多模态技术的进步亦值得关注。根据OpenAI官网，此前GPT-4o作为原生多模态大模型因其架构为原生多模态模型，在语音对话中可直接处理音频并输出音频，而不需要借助工具进行语音和文字之间的来回转化，因此具备高度流畅的语音对话能力。我们预计在输入端，未来行业将集体转向“原生多模态”模式。

▍风险因素：

AI核心技术发展不及预期风险；科技领域政策监管持续收紧风险；私有数据相关的政策监管风险；全球宏观经济复苏不及预期风险；宏观经济波动导致欧美企业IT支出不及预期风险；AI潜在伦理、道德、用户隐私风险；企业数据泄露、信息安全风险；行业竞争持续加剧风险等。

▍投资策略。

本次o3与o4-mini的更新仍然是围绕底层算法层面，尤其是大语言模型的多模态推理能力。从技术角度，o3与o4-mini系列大模型的基础能力在大规模强化学习方法加持下得到显著提升，不仅证明了scale继续堆规模和训练计算投入的道路仍有不断的迭代空间，更表明推理阶段有望继续遵循Scaling Law，从而带来推理端算力需求的大幅增长。应用层面，o3与o4-mini模型的多模态推理与输出能力的进步有效的开阔了应用场景；安全性上的进步也为应用场景的解锁奠定了良好基础。随着底层算法能力提升带来的通用推理能力的进步，我们认为AI爆款应用有望从科研、编程等高价值场景率先解锁，软件、互联网有望受益。除去应用端的投资机会，我们认为硬件端的需求也必然会随着多模态的技术的进步与应用而不断提高，中期维度，我们仍持续看好 AI 算力板块的投资机会。

本文节选自中信证券研究部已于2025年4月18日发布的《前瞻研究行业全球AI人工智能产业重大事项点评—OpenAI发布o3与o4-mini，“强化学习+Scaling Law”提升多模态推理能力》报告，具体分析内容（包括相关风险提示等）请详见报告。若因对报告的摘编而产生歧义，应以报告发布当日的完整内容为准。

重要声明：

本资料定位为“投资信息参考服务”，而非具体的“投资决策服务”，并不涉及对具体证券或金融工具在具体价位、具体时点、具体市场表现的判断。需特别关注的是（1）本资料的接收者应当仔细阅读所附的各项声明、信息披露事项及风险提示，关注相关的分析、预测能够成立的关键假设条件，关注投资评级和证券目标价格的预测时间周期，并准确理解投资评级的含义。（2）本资料所载的信息来源被认为是可靠的，但是中信证券不保证其准确性或完整，同时其相关的分析意见及推测可能会根据中信证券研究部后续发布的证券研究报告在不发出通知的情形下做出更改，也可能会因为使用不同的假设和标准、采用不同观点和分析方法而与中信证券其它业务部门、单位或附属机构在制作类似的其他材料时所给出的意见不同或者相反。（3）投资者在进行具体投资决策前，还须结合自身风险偏好、资金特点等具体情况并配合包括“选股”、“择时”分析在内的各种其它辅助分析手段形成自主决策。为避免对本资料所涉及的研究方法、投资评级、目标价格等内容产生理解上的歧义，进而造成投资损失，在必要时应寻求专业投资顾问的指导。（4）上述列示的风险事项并未囊括不当使用本资料所涉及的全部风险。投资者不应单纯依靠所接收的相关信息而取代自身的独立判断，须充分了解各类投资风险，自主作出投资决策并自行承担投资风险。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.