网易首页 > 网易号 > 正文 申请入驻

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉

0
分享至

得分比第二名翻倍,成本却仅为1/20?!

o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。

根据ARC Prize官方介绍,本轮测试得出的关键结论如下:

  • o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;
  • o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;
  • 在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%

按照最新ARC测试,中杯o3堪称目前OpenAI所有模型中的“性价比之王”

不过值得注意的是,相比2024年12月OpenAI在“双十二”直播活动中发布的o3模型,最新成绩可谓“大幅缩水”。

当时o3在低推理能力设置下(Low)得分高达75.7%,并且让模型推理更长时间后,其得分更是首次超越人类(85%)飙升至87.5%。

那么问题来了,为何短短几个月过去,o3模型在ARC测试上的得分差异明显呢?

原来前后两个模型虽然名称一样,但实际并非相同的模型

  • OpenAI当下最新的o3,已针对聊天和产品应用进行了微调。

△图源:ARC Prize官网

甚至,OpenAI研究员们也强调,最新发布的o3并未专门针对ARC-AGI测试进行训练。

也就是说,中杯o3第一次挑战ARC难题就取得了好成绩。

宾大沃顿商学院教授Ethan Mollick更是直言:

  • 现在有更多的证据表明, o3代表着一次重大进步。

与此同时,时代杂志发表的一篇独家文章表示,o3优于94%的专业病毒学家。其在这一专业领域的准确率达到了43.8%,相比之下博士级人类专家的准确率仅为22.1%。

中杯o3 ARC-AGI测试成绩出炉

ARC-AGI是一项旨在评判大模型的“智力”,或者说“AGI能力”的基准测试。

里面包含了一系列拼图问题,要求AI从不同颜色的方块中识别出视觉模式,并生成正确的 “答案” 网格。这些问题主要是为了迫使AI适应未曾见过的新问题。

正如开头所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“称王称霸”。而在看到这一成绩后,ARC官方感受到了进一步更新的紧迫性。

于是在2024年3月,他们上新了ARC-AGI-2版本,核心目标是测试模型能否高效地获取超出其训练数据的新技能。

具体而言,在ARC-AGI-1基础之上,官方引入了更多符号解释、多组合规则以及需要更深层次抽象的任务,难度再次大升级。

正是基于以上两个测试基准,在OpenAI最新上线了o3和o4-mini之后,ARC又重新进行了测试。

除了中杯o3取得的好成绩,更多测试结果如下:

首先是o3 (high),ARC官方自称耗费超过5万美元,最终仍未获得o3 (high)的完整测试结论。

理由是,在高推理能力设置下,模型在大多数情况下均无法响应或超时,最后只有不到一半的任务返回了结果。

不过参与审查的Mike Knoop表示,建议默认使用o3 (high)设置,除非遇到超时才切换到Medium选项。

同时他认为,虽然中杯o3的准确率远低于o3-preview(去年12月的版本),但毫无疑问o3整体在准确率和成本优化方面做得非常出色。

  • 如今,你在其他任何地方都买不到o3级别的AI推理能力。

一言以蔽之,本轮测试结果表明,中杯o3在继承o3-preview大部分新功能的前提下,成本有了大幅下降。

除此之外,ARC官方还得出了三个关键发现:

1、早期响应准确率更高:模型越早返回的任务,准确率越高。而那些耗时更长(无论是运行时间还是token使用量)的任务,失败的可能性更大。

2、高级推理可能效率低下:在相同任务上比较中杯o3和o3 (high)时,发现后者始终使用更多token来得出相同的答案。

3、每秒token数的最小变化:在o系列模型中,不同任务的每秒token数差异较小。特别是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。

One More Thing

顺带一提,ARC官方早前还测试过DeepSeek-R1。

最终结果是,在ARC-AGI-1基准上,DeepSeek-R1得分为15.8%,远低于o3模型。

你怎么看o3的新测试?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
稻城亚丁景区弯道占比超八成,游客建议“接驳车合理收费”……记者实探→

稻城亚丁景区弯道占比超八成,游客建议“接驳车合理收费”……记者实探→

环球网资讯
2026-06-02 21:36:26
马刺重返总决赛,年度支持指南首次停更

马刺重返总决赛,年度支持指南首次停更

赛场名场面
2026-06-03 00:24:59
史诗级签约!李宁第18位代言人,球衣销量全队第一,耐克最大败笔

史诗级签约!李宁第18位代言人,球衣销量全队第一,耐克最大败笔

你的篮球频道
2026-06-02 07:25:57
电影表演艺术家魏宗万逝世,享年89岁,曾饰演《三国演义》中的司马懿

电影表演艺术家魏宗万逝世,享年89岁,曾饰演《三国演义》中的司马懿

齐鲁壹点
2026-06-02 21:03:12
广西一18岁女孩半夜进入公园后失联,警方通报:女孩遗体已被找到

广西一18岁女孩半夜进入公园后失联,警方通报:女孩遗体已被找到

扬子晚报
2026-06-02 18:57:23
结束访华不到20天,特朗普紧急下禁令,要斩断中国“经济命脉”?

结束访华不到20天,特朗普紧急下禁令,要斩断中国“经济命脉”?

傲傲讲历史
2026-06-02 11:48:57
52岁董卿最新近况曝光,到北京探望朋友,私底下状态真实又漂亮

52岁董卿最新近况曝光,到北京探望朋友,私底下状态真实又漂亮

乡野小珥
2026-06-02 22:39:59
生理性喜欢,男人无法抗拒!

生理性喜欢,男人无法抗拒!

周哥一影视
2026-06-02 22:33:52
安徽省纪委监委通报:蒋志刚被查!另有4名干部被通报

安徽省纪委监委通报:蒋志刚被查!另有4名干部被通报

凤凰网安徽
2026-06-02 19:02:08
释永信老照片曝光!21岁的他推着师傅去医院看病,看起来老实本分

释永信老照片曝光!21岁的他推着师傅去医院看病,看起来老实本分

火山詩话
2026-06-02 06:21:21
日本人在美网探问:如果日本再次侵略中国,中国人会不会害怕?

日本人在美网探问:如果日本再次侵略中国,中国人会不会害怕?

深析古今
2026-05-31 14:13:27
王博:迫不得已才使用两小外开局,不过收到了不错的效果

王博:迫不得已才使用两小外开局,不过收到了不错的效果

懂球帝
2026-06-02 23:51:02
穆迪首席经济学家:若一周左右特朗普还无法解决美伊冲突 恐致美国经济衰退

穆迪首席经济学家:若一周左右特朗普还无法解决美伊冲突 恐致美国经济衰退

财联社
2026-06-02 11:04:18
六台:小蜘蛛经纪人已和巴萨会面,商谈一份为期五年的协议

六台:小蜘蛛经纪人已和巴萨会面,商谈一份为期五年的协议

懂球帝
2026-06-02 14:37:11
有线电视悄悄退费!3项收费全面取消,家里老人别再白白交钱

有线电视悄悄退费!3项收费全面取消,家里老人别再白白交钱

小柱解说游戏
2026-06-02 01:20:21
离谱!白云机场航班落地滑行58分钟,乘客直言太煎熬

离谱!白云机场航班落地滑行58分钟,乘客直言太煎熬

小怪吃美食
2026-06-03 00:05:14
最大回撤40%,可以抄底了?

最大回撤40%,可以抄底了?

好买研习社
2026-06-02 17:54:42
我国“玻璃硬盘”明年有望大规模量产:一片能存360TB数据

我国“玻璃硬盘”明年有望大规模量产:一片能存360TB数据

IT之家
2026-06-02 10:15:05
社死现场:孟良崮的岩台上摆满“贡品”,那群人的脸还好吗?

社死现场:孟良崮的岩台上摆满“贡品”,那群人的脸还好吗?

浪子说
2026-06-03 00:05:03
江浙沪父母到底有多能托举?网友调侃:这辈子只剩喝咖啡的苦

江浙沪父母到底有多能托举?网友调侃:这辈子只剩喝咖啡的苦

另子维爱读史
2026-06-01 09:59:38
2026-06-03 00:51:00
量子位 incentive-icons
量子位
追踪人工智能动态
12731文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

嫉妒前女友入职银行 男子入室杀人:你只不过长得漂亮

头条要闻

嫉妒前女友入职银行 男子入室杀人:你只不过长得漂亮

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

手机
数码
亲子
家居
军事航空

手机要闻

华为畅享100 Pro Max被曝立项:代号叶问,真的要打十个了!

数码要闻

追觅MOVA TPEAK Open体验:开放声场耳机也能做「六边形战士」

亲子要闻

六一儿童节快乐!

家居要闻

流线型轮廓 包容多元身形

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版