网易首页 > 网易号 > 正文 申请入驻

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉

0
分享至

得分比第二名翻倍,成本却仅为1/20?!

o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。



根据ARC Prize官方介绍,本轮测试得出的关键结论如下:

  • o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;
  • o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;
  • 在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%



按照最新ARC测试,中杯o3堪称目前OpenAI所有模型中的“性价比之王”

不过值得注意的是,相比2024年12月OpenAI在“双十二”直播活动中发布的o3模型,最新成绩可谓“大幅缩水”。

当时o3在低推理能力设置下(Low)得分高达75.7%,并且让模型推理更长时间后,其得分更是首次超越人类(85%)飙升至87.5%。



那么问题来了,为何短短几个月过去,o3模型在ARC测试上的得分差异明显呢?

原来前后两个模型虽然名称一样,但实际并非相同的模型

  • OpenAI当下最新的o3,已针对聊天和产品应用进行了微调。

△图源:ARC Prize官网

甚至,OpenAI研究员们也强调,最新发布的o3并未专门针对ARC-AGI测试进行训练。

也就是说,中杯o3第一次挑战ARC难题就取得了好成绩。





宾大沃顿商学院教授Ethan Mollick更是直言:

  • 现在有更多的证据表明, o3代表着一次重大进步。



与此同时,时代杂志发表的一篇独家文章表示,o3优于94%的专业病毒学家。其在这一专业领域的准确率达到了43.8%,相比之下博士级人类专家的准确率仅为22.1%。



中杯o3 ARC-AGI测试成绩出炉

ARC-AGI是一项旨在评判大模型的“智力”,或者说“AGI能力”的基准测试。

里面包含了一系列拼图问题,要求AI从不同颜色的方块中识别出视觉模式,并生成正确的 “答案” 网格。这些问题主要是为了迫使AI适应未曾见过的新问题。



正如开头所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“称王称霸”。而在看到这一成绩后,ARC官方感受到了进一步更新的紧迫性。

于是在2024年3月,他们上新了ARC-AGI-2版本,核心目标是测试模型能否高效地获取超出其训练数据的新技能。

具体而言,在ARC-AGI-1基础之上,官方引入了更多符号解释、多组合规则以及需要更深层次抽象的任务,难度再次大升级。

正是基于以上两个测试基准,在OpenAI最新上线了o3和o4-mini之后,ARC又重新进行了测试。

除了中杯o3取得的好成绩,更多测试结果如下:

首先是o3 (high),ARC官方自称耗费超过5万美元,最终仍未获得o3 (high)的完整测试结论。

理由是,在高推理能力设置下,模型在大多数情况下均无法响应或超时,最后只有不到一半的任务返回了结果。

不过参与审查的Mike Knoop表示,建议默认使用o3 (high)设置,除非遇到超时才切换到Medium选项。

同时他认为,虽然中杯o3的准确率远低于o3-preview(去年12月的版本),但毫无疑问o3整体在准确率和成本优化方面做得非常出色。

  • 如今,你在其他任何地方都买不到o3级别的AI推理能力。

一言以蔽之,本轮测试结果表明,中杯o3在继承o3-preview大部分新功能的前提下,成本有了大幅下降。



除此之外,ARC官方还得出了三个关键发现:

1、早期响应准确率更高:模型越早返回的任务,准确率越高。而那些耗时更长(无论是运行时间还是token使用量)的任务,失败的可能性更大。

2、高级推理可能效率低下:在相同任务上比较中杯o3和o3 (high)时,发现后者始终使用更多token来得出相同的答案。

3、每秒token数的最小变化:在o系列模型中,不同任务的每秒token数差异较小。特别是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。



One More Thing

顺带一提,ARC官方早前还测试过DeepSeek-R1。

最终结果是,在ARC-AGI-1基准上,DeepSeek-R1得分为15.8%,远低于o3模型。



你怎么看o3的新测试?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

华人学者助力"数学大一统理论"新突破!4位数学家近10年完成证明

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
著名运动医学专家、陆军军医大学一附院教授唐康来病逝,年仅56岁

著名运动医学专家、陆军军医大学一附院教授唐康来病逝,年仅56岁

澎湃新闻
2025-06-20 21:36:27
反转!易建联翻不了身?央视专访临时被换未能播出 仍受风波影响

反转!易建联翻不了身?央视专访临时被换未能播出 仍受风波影响

念洲
2025-06-21 06:38:24
美女博主借宿伊朗单身男性家中,获热情招待,晚上:咱俩能一起睡吗?我保证不动

美女博主借宿伊朗单身男性家中,获热情招待,晚上:咱俩能一起睡吗?我保证不动

小萝卜丝
2025-06-21 11:05:37
以色列市长暴露了以色列的损失到底有多惨

以色列市长暴露了以色列的损失到底有多惨

海格讲
2025-06-21 04:15:04
地下车库被淹3人遇难后续,淹前画面曝光,家属发声,果然有情况

地下车库被淹3人遇难后续,淹前画面曝光,家属发声,果然有情况

联友说娱
2025-06-21 10:22:40
普京:俄罗斯愿与中国开展全面合作

普京:俄罗斯愿与中国开展全面合作

澎湃新闻
2025-06-21 00:08:04
中国霸气通报:不再抗议交涉,以后直接击落

中国霸气通报:不再抗议交涉,以后直接击落

大道微言
2025-06-21 07:45:06
伊拉克代表称50架以色列战机侵犯该国领空

伊拉克代表称50架以色列战机侵犯该国领空

新京报
2025-06-21 11:15:16
伊朗一夜变天!军政核心建筑全被夷平

伊朗一夜变天!军政核心建筑全被夷平

霹雳炮
2025-06-18 23:05:55
突然宣布:演唱会取消!赔偿交通住宿费!曾毅因身体原因暂停工作

突然宣布:演唱会取消!赔偿交通住宿费!曾毅因身体原因暂停工作

南方都市报
2025-06-21 10:40:02
央视取消播出易建联专访,各方均未回应

央视取消播出易建联专访,各方均未回应

大象新闻
2025-06-21 11:59:18
特朗普:将与哈佛大学达成“令人难以置信的、历史性的”协议

特朗普:将与哈佛大学达成“令人难以置信的、历史性的”协议

澎湃新闻
2025-06-21 10:32:27
抢七揭晓!FMVP榜更新:SGA领跑前四不变 麦康纳杀至第五

抢七揭晓!FMVP榜更新:SGA领跑前四不变 麦康纳杀至第五

直播吧
2025-06-21 10:01:19
伊朗国家安全委员会:除非以色列支付战争赔款,否则炮击不会结束

伊朗国家安全委员会:除非以色列支付战争赔款,否则炮击不会结束

碳基生物关怀组织
2025-06-20 17:15:06
上海人挺住! 雷电+大到暴雨+8级大风都来了! 这波有点猛, 最强时段在↗

上海人挺住! 雷电+大到暴雨+8级大风都来了! 这波有点猛, 最强时段在↗

鲁中晨报
2025-06-21 08:45:15
目击者回忆北语教授张爱玲在清华被砸倒:她当时正在骑自行车

目击者回忆北语教授张爱玲在清华被砸倒:她当时正在骑自行车

南方都市报
2025-06-20 20:01:19
太狼狈了!武汉大学淋了3小时大雨的毕业典礼被质问,没有场馆吗

太狼狈了!武汉大学淋了3小时大雨的毕业典礼被质问,没有场馆吗

火山诗话
2025-06-21 06:19:54
伊朗称伊斯法罕省核设施遭以军袭击

伊朗称伊斯法罕省核设施遭以军袭击

财联社
2025-06-21 13:43:07
北大学子受惊了!因以色列和伊朗开战,北京大学发布紧急通知…

北大学子受惊了!因以色列和伊朗开战,北京大学发布紧急通知…

火山诗话
2025-06-21 08:59:57
她被封禁!彻底凉凉

她被封禁!彻底凉凉

潇湘晨报
2025-06-21 07:58:06
2025-06-21 14:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
10706文章数 176170关注度
往期回顾 全部

科技要闻

Siri有救了?苹果被曝正讨论史上最大收购

头条要闻

"电报"创始人捐精生下超100个子女:都有资格继承财产

体育要闻

周通:2年前想过退役,没想到能踢世俱杯

娱乐要闻

70岁寇振海跳舞,网友:和依萍抢饭碗

财经要闻

租金大撤退!房东正在批量跑路!

汽车要闻

扔掉"旧地图”一汽-大众大众品牌要找"新大陆"

态度原创

教育
艺术
手机
房产
游戏

教育要闻

残障毕业生就业难?今晚19点35分,山东教育卫视《教育纵深》为您解码“无碍”就业的“特教”方案

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

手机要闻

小米15系列两周卖46万台,vivo X200系列卖33万台

房产要闻

坑惨2000多人!恒大财富海南高管被曝非吸12.6亿元!

改名了也别担心!《捞女游戏》承诺游戏内容绝无删减!