网易首页 > 网易号 > 正文 申请入驻

OpenAI频繁调整产品更新路线图,最新面世推理模型o3和o4-mini

0
分享至

OpenAI GPT-5迟迟未推出,但GPT-5前的两个过渡模型o3和o4-mini已在当地时间4月16日推出了。

这是近期OpenAI频繁调整产品路线图后的最新发布。OpenAI此前曾调整o系列推理模型发布计划,打算不再单独推出o3模型,而是将推出GPT-5,由GPT-5集成o3。不过,4月初,OpenAI CEO山姆·奥尔特曼(Sam Altman)表示计划有变,因为“整合所有内容比预想的困难”,所以GPT-5还需要更多研发时间,o3和04-mini还是会先单独推出。

在GPT-5还需等待数月才能面世的空档期,可以用到o3和o4-mini模型的是ChatGPT Plus、Pro、Team用户和API(接口)用户,前代的o1、o3-mini模型将被取代,ChatGPT企业和教育用户后续也能使用o3和o4-mini。从能力上看,这两个新模型则在代码编辑和视觉思考能力方面有较明显的提升。

“这是我们目前最智能的模型,推理模型首次能代理使用ChatGPT的每个工具,包括搜索网络、使用Python分析上传的文件、推理视觉输入内容、生成图像。”OpenAI总结称。

具体而言,在外部专家评估中,o3面对困难现实任务时,犯的重大错误比前一代的o1少20%,o4-mini则在迅速反应、经济高效方面进行了优化。在数学能力AIME 2025基准测试中,o3、o4-mini分数分别为88.9、92.7,超过o1的79.2。在代码能力的Codeforces基准测试中,o3、o4-mini得分2706、2719,超过o1的1891。在博士级科学题GPQA Diamond、跨学科专家级问题Humanity’s Last Exam、视觉数学推理MathVista等基准测试中,o3和o4-mini得分也超过o1。

此外,o3-high(high为高能力模式)和o4-mini-high的代码编辑整体准确率分别为81.3%和68.9%,超过o1-high的64.4%。o3和o4-mini将图像信息融入思维链中,用户上传教科书图表、手绘草图后,模型可以直接进行解释。当用户问及某些问题时,o3和o4-mini还会主动使用多个工具,例如用户问及某地夏季能源使用情况时,模型会在网络上搜索公共数据、编写Python代码来预测并生成图像。

OpenAI举了几个案例。例如,将一个时间表图片交给o3,告知当下的时间并要求o3输出详细计划,确保用户能看到表中的所有景点和表演,o3就能输出一份详细的行程表;要求o3分析某项体育运动的新规则如何影响投手的表现和比赛时间,o3先搜寻了网络资料,再进行统计分析;上传一张照片,可以询问模型图中最大船只的名字、在哪里停靠等问题。



成本上,在AIME 2025基准测试中,o3的性价比高于o1。OpenAI称o3和o4-mini比o1更便宜。

随着OpenAI延后推出GPT-5,不只o3和o4-mini被作为基础模型更新换代时的过渡产品。此次OpenAI还推出了开源的编程代理工具Codex CLI。本周OpenAI还在API中引入GPT-4.1系列模型,GPT-4.1的性能超过GPT-4o。随着GPT-4.1推出,OpenAI准备弃用今年2月刚面世的GPT-4.5预览版。

OpenAI近期在产品路线规划上的反复调整,使其产品矩阵变得更为复杂,后续如何整合推理o系列和基础模型GPT数字系列(如GPT-4、GPT-5)将是OpenAI面临的一大挑战。近期频繁更新产品后,OpenAI后续还需依靠基础模型GPT-5来证明自身能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

停牌前暴涨16%!温州鞋王急抛百亿疫苗帝国

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
马斯克对全球宅男下手了!和AI女友谈恋爱,每月“只”收30美元

马斯克对全球宅男下手了!和AI女友谈恋爱,每月“只”收30美元

每日经济新闻
2025-07-16 14:08:12
周深的麻烦,越来越大了。

周深的麻烦,越来越大了。

会说话的舌
2025-07-16 12:02:00
晚年邓颖超透露:恩来在上海有另外一任“妻子”,俩人相处很默契

晚年邓颖超透露:恩来在上海有另外一任“妻子”,俩人相处很默契

南书房
2025-07-13 16:20:03
网友分享日本工地,超31度就停工休息,各种证书全部公示

网友分享日本工地,超31度就停工休息,各种证书全部公示

映射生活的身影
2025-07-15 09:46:22
为啥“宁空不租”现象越来越普遍?过来人说出了大实话,太难了

为啥“宁空不租”现象越来越普遍?过来人说出了大实话,太难了

装修秀
2025-07-16 10:30:03
湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

跳跳历史
2025-05-23 17:21:52
75年得知王恩茂境况,主席大怒:怎能当地委副书记?指示分配军队

75年得知王恩茂境况,主席大怒:怎能当地委副书记?指示分配军队

咸説历史
2025-06-26 16:58:18
为什么说,全世界都要“感谢”李在明?

为什么说,全世界都要“感谢”李在明?

爱下厨的阿酾
2025-07-11 03:59:37
老公带我去私人影院体验快乐,结果把我们双方带入深渊,不可收拾

老公带我去私人影院体验快乐,结果把我们双方带入深渊,不可收拾

亲爱的落落
2024-06-05 15:50:28
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀万
2025-05-23 06:05:02
吴千语的美图

吴千语的美图

情感大头说说
2025-07-15 13:19:46
美记:杨瀚森虽然不怎么说英语,但会用任何语言攻击对手

美记:杨瀚森虽然不怎么说英语,但会用任何语言攻击对手

雷速体育
2025-07-16 12:59:45
马斯克说,美国的稀土一点也不稀缺,但稀土却要到中国提炼加工

马斯克说,美国的稀土一点也不稀缺,但稀土却要到中国提炼加工

南权先生
2025-07-15 18:06:47
深度分析:打法“落后”的朱雨玲为何还能夺冠?多方原因共同助力

深度分析:打法“落后”的朱雨玲为何还能夺冠?多方原因共同助力

全言作品
2025-07-16 00:15:47
9岁男孩跟亲爸后妈出远门,却被后妈安排蜷缩在后备厢,亲妈发声

9岁男孩跟亲爸后妈出远门,却被后妈安排蜷缩在后备厢,亲妈发声

胡侃社会百态
2025-07-16 11:16:51
网友脑洞大开:各省“专属航母”设计惊艳亮相,河南舰给我笑喷了

网友脑洞大开:各省“专属航母”设计惊艳亮相,河南舰给我笑喷了

有趣的火烈鸟
2025-07-15 13:14:29
精明探窗者:中国如何抢救东德军工技术

精明探窗者:中国如何抢救东德军工技术

梁伫爱玩车
2025-07-16 00:35:28
三元里好猛!月底停水停电停网,清拆挡不住了

三元里好猛!月底停水停电停网,清拆挡不住了

乐居广州
2025-07-16 11:44:43
你和异性做过最癫狂的事是啥?网友:给他吃我的口水,有点恶心吧

你和异性做过最癫狂的事是啥?网友:给他吃我的口水,有点恶心吧

解读热点事件
2025-07-15 19:58:10
宗馥莉说:如果他想让你接班,定会铺好所有的路,现在看全是委屈

宗馥莉说:如果他想让你接班,定会铺好所有的路,现在看全是委屈

鋭娱之乐
2025-07-15 23:41:28
2025-07-16 15:20:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
224861文章数 619251关注度
往期回顾 全部

科技要闻

花5亿美元买个安心:苹果押注美国本土稀土

头条要闻

上海一碗面1588元另收10%服务费 网友直呼:太疯狂

体育要闻

不给杨瀚森传球,他有自己的理由

娱乐要闻

董璇自曝二婚!刚领证男方身份被扒

财经要闻

探究万亿市场的休闲零食

汽车要闻

向深向宽,亿咖通“落子”全球化新棋局

态度原创

家居
房产
数码
亲子
本地

家居要闻

浪漫典雅 法式风格别墅

房产要闻

三亚又有好地要卖,起拍楼面价飙到了1.6万/㎡!

数码要闻

英特尔 "Halo" 级平台终将至,Nova Lake 处理器或提供 "AX" 变体

亲子要闻

网红博主因儿子患ADHD停更上热搜,医生解答如何区分小孩是多动还是好动

本地新闻

裤子那里鼓鼓的,当代都市丽人都被女装做局了