网易首页 > 网易号 > 正文 申请入驻

GPT-5前菜!OpenAI最强模型o3上手:到底强在哪?

0
分享至

最近 OpenAI 的活确实有点多。在 3 月底推出 GPT-4o 原生图像生成再度火遍全球后,北京时间 4 月 15 日凌晨,OpenAI 又推出了全新 GPT-4.1 系列模型,替代旧款的 GPT-4 模型。

而就在今天(4 月 17 日)凌晨,OpenAI 如约继续推出了两款全新的 o 系列推理模型——o3、o4-mini,替代此前的 o1 和 o3-mini。更重要的是,o3、o4-mini 不仅拥有了更强大的推理能力,支持将图像直接纳入「思考过程」,还是首次能够独立使用全部 ChatGPT 工具的推理模型,被官方称为:

「我们(OpenAI)迄今为止发布的最智能的模型,代表了 ChatGPT 能力的一次飞跃。」

飞不飞跃我们先按下不谈,但有一点实在让人在意。OpenAI CEO 山姆·奥尔特曼(Sam Altman)今年 2 月就在 X 平台公开披露内部的模型路线图,指出 GPT-4.5(Orion)将是「OpenAI 最后一个非推理(思维链)模型」,还说之后的 GPT-5 将整合 GPT 系列和 o 系列模型:

「不再将 o3 作为独立模型推出。」

图/ X

但现在来看,山姆·奥尔特曼当时的承诺似乎一个都没有兑现,OpenAI 不仅发布了新的 GPT-4.1 系列非推理模型,还独立推出了 o3 推理模型。那还有一直活在传闻的 GPT-5,我们真的能在今年夏天看到吗?

OpenAI 又发一波模型,o3是最特别的一个

GPT-4.1 系列、o3、o4-mini 发布之前,关于 OpenAI 太多模型的吐槽其实就已经甚嚣尘上,不仅是普通 ChatGPT 用户,也包括很多开发者,也认为 OpenAI 的模型阵容让人「选择困难」。

好在,虽然过去两天 OpenAI 又连发了好几个新模型,但至少也同步砍掉了一些「旧模型」。在 GPT-4.1 正式推出后,OpenAI 就预告将于 4 月 30 日在 ChatGPT 全面下线 GPT-4 模型,同时还将在 API 中(面向开发者)弃用 GPT-4.5 预览版。

作为通用基座模型,GPT-4.1 实际分为了旗舰版、mini 版、nano 版,支持高达百万级 tokens 上下文,在性能、成本和速度上全面优于目前最主力的 GPT-4o 系列模型,但目前仅面向开发者上线 API。

但如果说 GPT-4.1 代表了 OpenAI 的现在,o3 和 o4-mini,可能就代表了 OpenAI 的未来。作为 OpenAI 探索推理模型技术路线的最新成果,o3 和 o4-mini 率先在推理链(chain-of-thought)中真正纳入图像理解能力。

图/ OpenAI

简单来说,它不仅能识别信息,还能把这些视觉输入纳入思维过程,成为完整逻辑链的一部分。不同于 GPT-4o 这类多模态模型,GPT-4o 虽然能「看图」,但更多是为了给出自然语言响应,而 o3、o4-mini 的图像处理是为了解决问题——它是推理的一环。

与此同时,作为官方认证的最强模型——o3,还是第一个调用 ChatGPT 全部工具的推理模型,包括搜索网络、Python、图像生成、代码解释器、文件读取等。并且在与 o1 相同的延迟和成本下,o3 在 ChatGPT 中实现了更高的性能。

但实际表现如何,还是上手体验才有结果。

OpenAI「最强推理模型」上手:名副其实

对于推理模型而言,推理能力自然是重中之重,先来一道伦理推理题,非常考验模型的推理能力,我们也对比了 DeepSeek-R1 以及 Gemini-2.5-Pro 两大顶尖模型。

但在揭晓回答之前,o3 最惊艳的就是思考过程推导的严谨和流畅,相比之下,DeepSeek-R1 的思考过程就显得相当冗长和重复,思考非常久,最终的回答却很难令人满意。

图/雷科技

在 DeepSeek-R1 的回答中,实际只回答了「愤怒的原因」,而没有回答出「崩溃的原因」。在 Gemini-2.5-Pro 的回答中,虽然更进一步推理出了「女儿撒谎」这个因素,但也很难导致「父亲崩溃」。

图/雷科技

o3 则相当完美地抓出「色盲」的关键判断,进一步根据生物遗传知识推导出最终的解释。这里还要一提的是,其实 DeepSeek-R1 在思考过程中也提到了「色盲」这个点,但并没有认为有效的推导。

此外,o3 以及 o4-mini 的一大突破在于将视觉能力纳入思维链之中,相比之前阿里推出的视觉推理模型 QVQ-Max 更进了一步。

你可以上传一张机场照片,它会识别出航站楼建筑、乘客流线和标识系统,再结合你的问题完成空间动线的规划或问题诊断。这种「图像不是输入素材,而是参与推理的变量」的设计,也是过去 o 系列推理模型所不具备的。

更重要的是,它可以根据图像实时思考分析策略。

比如最近 AI 行业非常关键的一件事,就是支付宝在前几天联合魔搭社区刚刚上线了支付 MCP Server 让 AI 智能体打通了「变现」的支付环节。我就拿一段演示视频发送给 o3,询问「视频里展示技术的关键之处」,甚至没有告诉它任何背景信息。

图/雷科技

而在实际测试中,o3 会提取不同时间的关键帧理解视频,再结合自身分析推理和联网能力,明确定位到了支付宝「支付  MCP Server」的,并且结合信息分析了支付宝「支付  MCP Server」的关键意义。

不仅如此,在一段关于短视频优化的测试中,o3 被要求分析后台数据并结合视频分镜做优化策略,输出的内容不仅覆盖「3 秒留人、节奏剪辑、文案钩子」等核心策略,还匹配了具体视觉节奏建议。

图/雷科技

这点来看,o3 很像一个有一定审美和经验的「专业创作者助手」,能针对实际的视频内容,而不是「简单套模板」的自动化建议。

而从这些测试也能看出,o3 懂得什么时候该分析、什么时候该搜索、什么时候该调用工具、什么时候该总结。而这种「主动思维+执行链条」,正是当下大模型集体演进的一个重要方向。

所以,它真的是 OpenAI 迄今为止最智能的模型吗?从目前的体验来看,确实称得上名副其实,甚至在不同推理模型的对比也是表现最强的。

用完 o3 最大的感受,你会觉得它在真正理解任务——而不只是理解你的意图。在思考过程中能够明显看到这一点,同时还有 o3 在视觉理解、工具调用以及强大的推理能力。

也正因为如此,用完 o3 后,那些关于 GPT-5 的想象也变得更具体了。

山姆·奥尔特曼明确说过,GPT-5 会整合 GPT 系列与 o 系列,而按照最新透露出的消息,GPT-5 的推出时间基本锁定在今年夏天。按照时间来看,GPT-4.1/GPT-4.5 和 o3/o4-mini 很可能就是最后一代「独立」模型,也是被「整合」的主力。

如果两者真的融合,那会不会是一个既能读百万 tokens,又能跨模态行动,还能自主调度工具进行思维链的大一统模型?无论如何,这确实是未来几个月 AI 行业最值得期待的悬念之一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰公司员工曝现状:办公室锦旗被打包,家长担心卷钱跑路

张雪峰公司员工曝现状:办公室锦旗被打包,家长担心卷钱跑路

一盅情怀
2026-03-27 16:19:26
“考研6年,输给一条黑裤袜”,女大学生啃老式考研,被嘲研王爷

“考研6年,输给一条黑裤袜”,女大学生啃老式考研,被嘲研王爷

妍妍教育日记
2026-03-28 07:45:03
张雪峰追悼会再度被看哭!现场人山人海,万束鲜花,凌晨三点奔赴

张雪峰追悼会再度被看哭!现场人山人海,万束鲜花,凌晨三点奔赴

裕丰娱间说
2026-03-28 08:03:03
江苏一市纪委监委通报:张国光、顾峰、李军、史肇源被查

江苏一市纪委监委通报:张国光、顾峰、李军、史肇源被查

扬子晚报
2026-03-28 08:07:08
娃哈哈停产了?知情人士回应

娃哈哈停产了?知情人士回应

第一财经资讯
2026-03-27 20:12:41
李昌钰与原配相伴56载,曾举行两次婚礼,79岁丧偶后与扬州女商人再婚,晚年多次到访中国,去年6月获聘复旦名誉教授

李昌钰与原配相伴56载,曾举行两次婚礼,79岁丧偶后与扬州女商人再婚,晚年多次到访中国,去年6月获聘复旦名誉教授

极目新闻
2026-03-28 07:54:17
广东省委:坚决拥护党中央决定

广东省委:坚决拥护党中央决定

观察者网
2026-03-28 08:45:14
网红“留几手”评论张雪峰去世言论引众怒:“死者又不是我爹,凭什么为大...”

网红“留几手”评论张雪峰去世言论引众怒:“死者又不是我爹,凭什么为大...”

品牌新
2026-03-27 14:06:12
小鹏汽车宣布更名

小鹏汽车宣布更名

大象新闻
2026-03-27 19:45:02
结束二连败!火箭6人上双稳更衣室氛围?休媒仍不满乌度卡用人

结束二连败!火箭6人上双稳更衣室氛围?休媒仍不满乌度卡用人

颜小白的篮球梦
2026-03-28 10:20:22
张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

未曾青梅
2026-03-26 22:48:49
万斯批评内塔尼亚胡!伊朗议长:美军士兵只能藏在酒店和公园,何谈对伊地面战!德国、加拿大、英国、法国、意大利、日本集体呼吁

万斯批评内塔尼亚胡!伊朗议长:美军士兵只能藏在酒店和公园,何谈对伊地面战!德国、加拿大、英国、法国、意大利、日本集体呼吁

每日经济新闻
2026-03-27 23:57:25
看了观众对何润东的评价,我才明白当年陈道明那番话的含金量

看了观众对何润东的评价,我才明白当年陈道明那番话的含金量

糊咖娱乐
2026-03-26 17:22:19
同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

农村情感故事
2026-03-23 07:31:39
“斩首术”应该获诺贝尔奖?如此“让领导先走”,真是伟大创造吗

“斩首术”应该获诺贝尔奖?如此“让领导先走”,真是伟大创造吗

瑜说还休
2026-03-27 17:31:33
特朗普称霍尔木兹为特朗普海峡

特朗普称霍尔木兹为特朗普海峡

界面新闻
2026-03-28 09:36:19
吉格斯:坎通纳干啥弗格森都不骂他;曼联有些教练团队烂透了

吉格斯:坎通纳干啥弗格森都不骂他;曼联有些教练团队烂透了

懂球帝
2026-03-28 05:45:32
此刻苏州堵了!张雪峰追悼会现场一公里的人,通道布满上万束鲜花

此刻苏州堵了!张雪峰追悼会现场一公里的人,通道布满上万束鲜花

火山詩话
2026-03-28 07:57:56
暴跌95%,裁员5万人,全球第二大车企爆大雷

暴跌95%,裁员5万人,全球第二大车企爆大雷

蒋东文
2026-03-27 21:09:47
恐怖!昨晚差点跟着张雪峰一起走了,上海女网友哭诉自己惊魂经历

恐怖!昨晚差点跟着张雪峰一起走了,上海女网友哭诉自己惊魂经历

火山詩话
2026-03-28 08:24:26
2026-03-28 11:04:49
雷科技 incentive-icons
雷科技
专注AI硬科技
36627文章数 811955关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

前大厂员工开"网络赌场" 三个月吸金1900万

头条要闻

前大厂员工开"网络赌场" 三个月吸金1900万

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

亲子
手机
健康
时尚
房产

亲子要闻

科学运动 助力提升女性生育力

手机要闻

全球首台阔比例大折叠手机!华为Pura X2要改名

干细胞抗衰4大误区,90%的人都中招

推广中奖名单-更新至2026年3月11日推广

房产要闻

6.8万方!天河员村再征地,金融城西区开发全面提速

无障碍浏览 进入关怀版