网易首页 > 网易号 > 正文 申请入驻

OpenAI发新模型!首次实现“图像思维”,可利用所有ChatGPT工具

0
分享至

OpenAI周三发布新款AI模型o3和o4-mini,模仿人类的推理过程,解决复杂编程和视觉任务的推理。同时,该公司也发布开源AI agent CodeX CLI,用于帮助用户执行编程任务,从而改善市场竞争能力。

OpenAI此次推出的主要新型推理模型名为o3,同时还发布了一款更小型的模型,命名为o4-mini。这一发布延续了去年9月OpenAI首个推理模型o1的问世,当时o1主要专注于解决复杂问题,并通过多步骤的方式进行思考和作答。

该公司表示,新发布的o3模型在响应用户提示之前会花费更多时间进行计算,目标是解决与科学、数学和编程相关的更复杂的多步骤问题。借助o3,用户可以上传白板笔记、草图和其他图像内容,让AI进行分析与讨论。这些模型还能对图像进行旋转、缩放等编辑操作。

跑分进步 首次实现“图像思维”

据最新测试结果,o3和o4-mini(无工具版本)在AIME 2024数学竞赛题目中的准确率分别达91.6%和93.4%,远超前代模型o1的74.3%。在AIME 2025题目中,两者准确率分别达88.9%和92.7%。在Codeforces编程竞赛评分中,支持终端工具的o3和o4-mini分别取得了2706和2719的ELO分数,显著领先于o1的1891和o3-mini的2073,显示出在复杂数学与代码任务中的强大推理与执行能力。


同时,o3(无工具)在博士水平科学问答中的准确率为83.3%,高于前代模型o1的78.0%,而o4-mini(无工具)也紧随其后,达81.4%。在右图所示的“人类最后的考试”高难度跨学科题目中,开启Python与浏览工具的o3模型准确率达24.9%,显著优于o1-pro的8.12%和o3-mini的13.4%,显示出多工具组合在处理复杂问题上的巨大潜力。值得注意的是,Deep Research实验系统在该测试中表现最佳,准确率达26.6%。这进一步突显OpenAI新模型在推理链、跨模态理解和工具协同方面的持续进步。


在多模态推理方面,OpenAI新发布的o3和o4-mini模型在多项视觉推理测试中全面超越前代模型o1。在MMMU大学级视觉问题解决任务中,o3的准确率达82.9%,领先于o1的77.6%;o4-mini表现相近,为81.6%。在MathVista视觉数学推理测试中,o3取得86.8%的成绩,远高于o1的71.8%;而o4-mini则达84.3%。在CharXiv科学图表推理测试中,o3的准确率为78.6%,大幅领先o1的55.1%,o4-mini则达到72%。整体来看,o3在处理图像与文本结合任务中展现出强大能力,o4-mini则在保持高性能的同时提升了响应速度与成本效率,展现出OpenAI多模态模型在复杂视觉任务中的显著进展。


与此同时,o4-mini则提供了价格、速度和性能之间的“有竞争力的平衡”,这是开发者在选择AI模型为其应用提供支持时经常考虑的三大因素。两款模型现已向OpenAI付费用户开放。


OpenAI在公告中写道,o3和o4-mini是首批能够“图像思维”的AI模型:

这是我们首次推出能够独立使用全部ChatGPT工具的推理模型——包括网页浏览、Python编程、图像理解和图像生成能力。这使得它们在解决复杂的多步骤问题时更加高效,并朝着自主执行任务的方向迈出了真正一步。”

该公司解释称,这意味着“它们不仅能看图,还能将视觉信息直接整合进推理链条之中”。


OpenAI表示,o3在SWE-bench verified测试中表现达到了当前最先进的水平(不使用自定义结构),该测试主要评估编程能力,o3的得分为69.1%。o4-mini的得分也相当出色,达到68.1%。作为对比,OpenAI此前最好的模型o3-mini在该测试中得分为49.3%,而Anthropic的Claude 3.7 Sonnet得分为62.3%。


DeepSeek压力下 OpenAI也想开源了?

OpenAI在2022年底推出ChatGPT,引发了生成式人工智能的热潮。当时这款产品搭载的是GPT-3.5模型。此后,该公司陆续发布了多个日益复杂的系统,包括多个推理模型。但OpenAI目前面临着来自中国新兴企业DeepSeek、Anthropic以及马斯克旗下xAI等公司的巨大压力,这些公司不断推出一系列具备类似前沿能力的AI模型。

分析认为,编程已成为生成式AI应用中增长最快的领域之一,也是OpenAI的一个关键竞争战场。Anthropic和谷歌母公司Alphabet都大力宣传其新一代AI系统的编程能力。其他创业公司,如Cursor的开发商Anysphere,也凭借面向程序员的AI工具获得了广泛关注。

为在这个竞争激烈的市场中更具优势,OpenAI周三宣布推出Codex CLI,这是一款旨在与如o3等模型协同工作的AI代理,可帮助用户完成编程任务。该产品是开源的,意味着将免费向用户开放,并可直接在用户的计算机终端程序中运行。

奥特曼此前曾表示,公司正在开发一个开源版本的推理模型,计划在未来几个月内发布,此举是为了回应DeepSeek旗下开源系统R1走红后的市场影响。

OpenAI还表示,未来几周内将推出o3-pro,这是o3的一个升级版本,使用更多计算资源生成回答,仅向ChatGPT Pro订阅用户开放。而奥特曼此前曾表示,o3和o4-mini可能是OpenAI在GPT-5发布之前推出的最后一批独立推理模型。GPT-5预计将融合传统模型(如GPT-4.1)与推理模型,实现统一发展方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
理想汽车CEO李想开i8现身苏超预热新车,结果“李想老婆身材”上热搜

理想汽车CEO李想开i8现身苏超预热新车,结果“李想老婆身材”上热搜

金融界
2025-07-21 17:15:34
从喜剧黑马到人设崩塌? 她的走红,全靠贾玲让位和抱团炒作!

从喜剧黑马到人设崩塌? 她的走红,全靠贾玲让位和抱团炒作!

毒舌八卦
2025-07-21 20:03:12
特朗普还未登机访华,五角大楼突然下达禁令,不许任用中国工程师

特朗普还未登机访华,五角大楼突然下达禁令,不许任用中国工程师

掌青说历史
2025-07-21 09:10:41
世事无常,四川高考生刘萍去世,前一天收录取通知书,第二天溺水

世事无常,四川高考生刘萍去世,前一天收录取通知书,第二天溺水

育学笔谈
2025-07-21 19:35:23
49岁赵薇,传来新消息!

49岁赵薇,传来新消息!

山西晚报
2025-07-21 18:51:54
比卢普斯:利拉德会成为NBA史上薪水最高的助教,我会让他每天都忙个不停

比卢普斯:利拉德会成为NBA史上薪水最高的助教,我会让他每天都忙个不停

雷速体育
2025-07-22 09:12:19
还是卖水的有钱!继宗庆后,润田老板娘自爆黑料,老公4婚5个孩子

还是卖水的有钱!继宗庆后,润田老板娘自爆黑料,老公4婚5个孩子

乌娱子酱
2025-07-21 15:13:25
森林北汪峰逛日本药店,露肩上衣配热裤显头大腿粗,膝盖满是淤青

森林北汪峰逛日本药店,露肩上衣配热裤显头大腿粗,膝盖满是淤青

心静物娱
2025-07-21 09:53:52
突发!俄罗斯发动大规模空袭

突发!俄罗斯发动大规模空袭

第一财经资讯
2025-07-22 09:36:48
全球局势骤变!莫斯科遇袭,美使馆爆炸,俄德破裂,印为俄撑腰

全球局势骤变!莫斯科遇袭,美使馆爆炸,俄德破裂,印为俄撑腰

南宫一二
2025-07-22 01:38:28
英法等25国联合声明,以色列严正拒绝

英法等25国联合声明,以色列严正拒绝

鲁中晨报
2025-07-22 07:40:35
“怕被传染皮肤病”,高铁一次性座椅套卖爆!12306回应:座椅套的清洗时间不固定

“怕被传染皮肤病”,高铁一次性座椅套卖爆!12306回应:座椅套的清洗时间不固定

每日经济新闻
2025-07-21 22:57:59
近百辆小米YU7流入二手市场!工信部出手,新车半年内禁止转卖?

近百辆小米YU7流入二手市场!工信部出手,新车半年内禁止转卖?

派大星纪录片
2025-07-21 18:50:51
《中华小当家》或迎大结局,男主角被处决,网友直呼童年结束

《中华小当家》或迎大结局,男主角被处决,网友直呼童年结束

鲁中晨报
2025-07-21 15:08:14
探花看腻了,看乌克兰00后老师isabella star的作品,欲罢不能

探花看腻了,看乌克兰00后老师isabella star的作品,欲罢不能

说真话的小陈
2025-07-21 09:47:24
广州一知名老板跳楼身亡,仅53岁,公司停业,1000多员工讨要工资

广州一知名老板跳楼身亡,仅53岁,公司停业,1000多员工讨要工资

180视角
2025-07-21 18:05:31
中雨大雨暴雨!河南的雨下到哪了?未来三天,河南降水频繁“打卡”

中雨大雨暴雨!河南的雨下到哪了?未来三天,河南降水频繁“打卡”

鲁中晨报
2025-07-22 09:40:08
男子因臆想被嘲笑,深夜潜入女同事家中伤人:我要拍下她害怕的样子

男子因臆想被嘲笑,深夜潜入女同事家中伤人:我要拍下她害怕的样子

潇湘晨报
2025-07-21 18:20:21
马未都:香港宁愿要20万菲佣,也不接受内地保姆,原因很简单

马未都:香港宁愿要20万菲佣,也不接受内地保姆,原因很简单

深度报
2025-07-20 22:11:45
效果明显!朝阳暴走团消失了,民警在现场巡控,白衣哥怒骂立大功

效果明显!朝阳暴走团消失了,民警在现场巡控,白衣哥怒骂立大功

鋭娱之乐
2025-07-21 17:43:03
2025-07-22 10:27:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
132470文章数 2650133关注度
往期回顾 全部

科技要闻

洋老板"认怂"放权,合资电车终于能打了?

头条要闻

俄罗斯商品馆"退潮" 从遍地开花到大规模闭店不到一年

体育要闻

这四位大兄弟,你们真敢要3000万呐

娱乐要闻

五哈全员为宝石老舅送祝福

财经要闻

白宫力推的5000亿美元AI计划陷僵局

汽车要闻

劳斯莱斯前设计师全新力作 荣威M7正式亮相

态度原创

健康
亲子
房产
公开课
军事航空

呼吸科专家破解呼吸道九大谣言!

亲子要闻

拯救孤岛上的她,产后抑郁要注意!

房产要闻

历时15年!广州最难拆的一条村,也终于走到了句点

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美客机空中险与美军B-52轰炸机相撞