网易首页

无障碍浏览进入关怀版

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

全球顶级模型集体0分，AI终极大考人类5分钟秒杀！Keras之父戳破AGI神话

2025-03-25 12:17:06　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子英智

【新智元导读】AI界「智商大考」ARC-AGI-2重磅出炉了！一个人类用5分钟轻松解开的谜题，却让最顶尖LLM全线崩盘得分挂零，o3更是从曾经76%暴跌至4%。它正式宣告，人类还未实现AGI。

时隔6年，ARC-AGI-2正式推出！

一大早，Keras之父François Chollet官宣了全新迭代后的ARC-AGI-2，再次拉高了AI「大考」的难度。

这些对人类再简单不过的题目，LLM最先败北，先上结果：

基础大模型（GPT-4.5、Claude 3.7 Sonnet、Gemini 2 ），全部得0分。

CoT推理模型（Claude Thinking、R1、o3-mini），得分也不过4%。

相较之下，2024年ARC Prize冠军模型（53.5%）却在新版本考试中，成绩仅剩3.5%。

OpenAI的o3-low模型也从75.7%骤降至4%。而且，每项任务成本效率也是o3-low和o1-pro最高，达到200美金。

相反，在ARC-AGI-2里的每个任务，都至少有两名人类能在两次尝试内成功解决。

ARC-AGI-2的出世，证明了「人类尚未实现AGI」！

现场400人实测，普通人无训练能拿下60%准确率，10人小组能达到100%

初代ARC-AGI（2019年），曾在去年揭示了AI重大转变，LLM从「纯记忆」向「测试时推理」的进化。

许多之前一眼就看透的问题，在ARC-AGI-2中，至少需要几分钟的深思熟虑——人类测试者平均需要5分钟才能解题。

最新ARC-AGI-2，恰恰暴露了当前AI三大短板：符号解释、组合推理、上下文规则应用。

这些皆需要LLM在测试时，展现真正的适应能力，具备灵活应对新问题的「流体智力」，而不是靠预训练数据「硬背」过关。

值得一提的是，2025年ARC奖本周将在Kaggle平台上线，总奖金高达100万美元。

今年的竞赛在去年基础上再加码，计算资源翻倍，旨在推动开源项目发展，助力打造能战胜ARC-AGI-2的系统。

AI「大考」难度进阶，AGI梦碎？

其他AI基准测试，基本都聚焦于测试「博士以上水平」的技能，来考察超越人类的能力或专业知识。

但ARC-AGI关注的是对人类相对容易，对AI却困难重重的任务。

这样一来，就能精准定位那些不会因为规模扩大就自动消失的能力差距。

ARC奖将此融入对AGI的衡量标准：对人类容易、对AI困难的任务之间的差距，即「人机差距」。

当这个差距变为零，也就是不存在能难倒AI的任务时，我们就实现了AGI。

要弥补这些能力差距，需要全新的见解和思路。ARC-AGI不只是衡量AGI的进展，更重要的是激励研究人员探索新思路。

AI系统在不少特定领域（如围棋、图像识别）已超越人类。但这些只是狭隘、专门的能力。

「人机差距」揭示了AGI所欠缺的部分：高效获取新技能的能力。

ARC-AGI-2登场，基础LLM挂零

今日正式发布的ARC-AGI-2基准测试，在对人类难度不变的前提下，极大提高了对AI的难度挑战。

在一项有400人参与的对照研究中，ARC-AGI-2的每个任务，都至少有两名参与者能在两次或更少的尝试内解决。

这和给AI设定的规则一致，每个任务AI都有两次尝试机会。

与ARC-AGI-1类似，ARC-AGI-2采用「两次尝试通过（pass@2）」的评估体系，因为部分任务存在显著的模糊性，需要两次猜测来消除歧义，同时也用于排查数据集中可能无意出现的模糊或错误之处。

经过人类测试，相较于ARC-AGI-1，作者对ARC-AGI-2任务质量更具信心。

以下是ARC-AGI-2的官方更新内容：

所有评估集（公开、半私有、私有）的任务数量从100个增加至120个。
剔除了评估集中易受暴力搜索破解的任务，即2020年原始Kaggle竞赛中已被解决的所有任务。
开展人类测试，以校准评估集难度，确保任务独立同分布，并验证至少有两名人类可在两次尝试内解决任务，这与对AI的要求一致。
根据研究成果，设计了新任务来挑战AI推理系统，涵盖符号解释、组合推理、上下文规则等多个方面。

2019年推出的ARC-AGI-1，主要是为了挑战深度学习，尤其是防止模型单纯「记忆」训练数据集。

ARC-AGI包含一个训练数据集和多个评估集，其中私有评估集用于2024年ARC奖竞赛。训练集的作用是让模型学习解决评估集中任务所需的核心知识。

为了完成评估集中的任务，AI必须展现出适应全新任务的能力。

打个比方，训练集就像是教你认识小学算术符号，而评估集则要求用这些符号知识去解代数方程。你不能靠死记硬背得出答案，必须把知识灵活运用到新问题上。

ARC-AGI-2对AI的要求更高，要想战胜它，必须具备高度的适应性和高效性。

下面是ARC-AGI-2的示例任务，满足两个条件：一是至少有两名人类能在两次尝试内解决；二是所有前沿AI推理系统都无法解决。

符号解释

前沿AI推理系统在处理需要赋予符号超出视觉模式意义的任务时，表现欠佳。

系统能进行对称性检查、镜像、变换，甚至识别连接元素，但就是无法理解符号本身的语义。

组合推理
AI推理系统在处理需要同时应用多个规则，或者应用相互关联规则的任务时，困难重重。

相反，要是任务只有一两条全局规则，这些系统就能发现并运用规则。

上下文规则应用
AI推理系统在面对需根据上下文灵活应用规则的任务时，也会陷入困境。

它们往往只关注表面模式，无法理解背后的选择原则。

两人组队拿满分，o3仅4%

ARC-AGI-2由以下数据集构成：

校准指的是这些任务具有独立同分布（IDD）特性。理论上，在公开、半私有和私有评估集上，未出现过拟合情况的分数应具有直接可比性。

为收集相关数据，在严格受控的环境下，对400多位人类进行了测试。

接下来几周，公开任务的人类可解性数据将与ARC-AGI-2论文一同发布。

对所有公开的AI系统重新评估，ARC-AGI-2起始分数如下：

带*的分数，是根据目前收集到的部分结果，还有o1-pro的定价估算出来的。完整结果一出来，马上会公布。

所有分数均按照「两次尝试通过（pass@2）」标准，且基于半私有评估集得出（ARC-AGI-1人类小组和ARChitects除外，分别基于公开评估集和私有评估集）。

人类小组的效率计算基于115-150美元的到场费用，外加解决每个任务奖励5美元。

对成本进行了优化以提升到场率（实际到场率为注册人数的70%）。尽管人类智能成本效率的极限可能在每个任务2-5美元区间，但基于实际收集的数据，报告中每个任务17美元。

等OpenAI o3 low/high的API开放，将对其正式版本进行测试。

用从ARC-AGI-1转到ARC-AGI-2的任务进行预估，o3-low得分约为4%，如果计算量特别大（每个任务数千美元），o3-high得分有望达到15-20%。

智能并非仅是能力

从现在开始，所有ARC-AGI的报告都将附带一项效率指标。

首先选择成本作为指标，因为在对比人类与AI性能时，成本具有最直接的可比性。

智能并非仅是解决问题和获取高分的能力。获取和运用这些能力的效率，是智能的关键要素。

核心问题不仅在于「AI能否掌握解决任务的技能？」，更在于「以怎样的效率或成本来掌握？」

前沿AI系统在ARC-AGI-1与ARC-AGI-2上的得分

仅靠规模远远不够

在资源与搜索时间不受限的情况下，暴力搜索最终能够解决ARC-AGI问题。

但这绝非真正的智能。智能在于高效地找到解决方案，而非盲目穷举。

关注效率是ARC-AGI的核心原则。

明确量化智能的成本，要求解决方案不仅展示能力，更要展现对资源的高效利用，这才是AGI的本质。

全新的ARC-AGI排行榜页面将从分数和成本两个维度同步呈现。

截至2025年3月24日，ARC-AGI新排行榜同时展示分数与效率

本周竞赛盛大开启！

随着ARC-AGI-2的发布，2025年ARC Prize重磅回归！竞赛将于3月至11月期间在Kaggle平台举办。

竞赛设有12.5万美元的保底进展奖，以及高达70万美元的大奖，团队得分超过85%即可解锁！

此外，还有17.5万美元的奖项待后续公布细则。

Kaggle竞赛规则禁止使用互联网API，每次提交仅可使用约50美元的计算资源。

为获取获奖资格，参赛者需在竞赛结束时开源解决方案。

去年的竞赛成果斐然，超过1500支团队踊跃参与，产出了40篇极具影响力的研究论文。

获奖研究人员提出的创新理念已在AI行业得到广泛应用。

参考资料：

https://x.com/arcprize/status/1904269307284230593

https://x.com/fchollet/status/1904265979192086882

https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

刚刚，谷歌最强Gemini 2.5 Pro免费了！数学碾压人类研究生，拿下全球TOP 1

返回网易首页下载网易新闻客户端

相关推荐

热点推荐

智谱CEO张鹏：AI智能体和大模型相似，存在规模定律

经济观察报 2025-03-31 16:48:05
2 跟贴 2
GPT-4o图像生成的秘密，OpenAI 没说，网友已经拼出真相？

机器之心Pro 2025-03-31 11:06:42
8 跟贴 8

故事：我变成了董事长老爸的“小三”？

盛阅文化 2023-02-16 09:52:17

OpenAI招了个高中辍学的，入职Sora团队专攻AGI

量子位 2024-12-05 14:10:36
0 跟贴 0

慈禧唯一忌惮的男人，三次掰手腕获胜，功高盖主还能全身而退

魏惊蛰 2023-06-21 18:01:45

狙击Manus？面壁选了一条更难的路：发力端侧智能体

雷科技 2025-03-31 19:31:40
0 跟贴 0
微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40
0 跟贴 0

夹缝人生：10 个被生活裹挟的人物故事

专栏全民故事计划

多团队联合揭示“灾难性过度训练”现象，模型扩展需被重新审视

DeepTech深科技 2025-03-31 22:29:03
0 跟贴 0

旧社会的混混有多狠？为了抢地盘，敢跳热油锅把自己炸了

故事档案局 2023-03-29 10:05:03

OpenAI放大招：免费开放ChatGPT搜索，无需注册

每日经济新闻 2025-02-06 10:49:09
24 跟贴 24
中国科学院院士张钹：构建智能体需要具备思考能力、执行能力和感知能力三个条件

每日经济新闻 2025-03-31 14:40:07
1 跟贴 1

林彪叛逃纪实：逃亡前策划谋杀，逃亡时利用女儿打掩护却反遭告密

李满 2023-04-20 23:07:44

朱啸虎再放炮：所有AI应用都是套壳，说有壁垒是忽悠人！DeepSeek出来后，中国软件企业的春天可能要来了

每日经济新闻 2025-03-31 21:48:11
1 跟贴 1
京东布局具身智能等前沿科技，4月将上线AI数字人“千人千面”｜钛媒体AGI

钛媒体APP 2025-03-30 11:20:10
4 跟贴 4
2025年图灵奖：强化学习的前世今生

经济观察报 2025-03-31 21:29:07
0 跟贴 0
淘宝愚人节推出2035热搜榜，定向记忆删除、全球情侣基因筛选服务上榜

武汉广播电视台 2025-03-31 15:38:31
0 跟贴 0
3月29日，美国网红甲亢哥河南之旅，登通天云梯直呼Oh my god！

大象新闻 2025-03-29 22:52:12
2202 跟贴 2202
卷积网络又双叒叕行？OverLoCK:仿生的卷积神经网络视觉基础模型

机器之心Pro 2025-03-31 17:08:03
0 跟贴 0
72白洞：黑洞的镜像反转

白给的小知识 2025-03-27 16:45:40
20 跟贴 20
#王伟烈士墓前又放满战机模型

东方卫视 2025-03-30 11:34:08
8 跟贴 8
街霸2：全能大兵与警王秀意外颇多局，极限连左右战局的结果！

凌风游戏达人 2025-03-27 19:29:53
3 跟贴 3
摸DeepSeek过河也得自身硬! 想开后的文小言，真香！

量子位 2025-03-31 16:20:45
1 跟贴 1
吉卜力只是开胃小菜，GPT-4o一键抠图换装换背景！推理也初步显现

机器之心Pro 2025-03-31 11:19:31
3 跟贴 3
CVPR 2025 | EmoEdit：情感可编辑？深大VCC带你见证魔法！

机器之心Pro 2025-03-31 17:16:47
0 跟贴 0
学者：我国个人所得税“起征点”不宜进一步提高

中国经济网 2025-03-31 13:58:06
1695 跟贴 1695
男子自制航母和潜艇模型走红网络，婉拒求购

南昌晚报 2025-03-31 16:50:26
1 跟贴 1
中国侧卫家族战机技术迭代与体系化发展：从歼11A到歼11BG的跨越

爱上孤独s 2025-03-30 00:23:53
0 跟贴 0
三荣1/72德国KF51“黑豹”主战坦克3D打印树脂成品模型开箱测评

DS北风 2025-03-30 20:00:00
0 跟贴 0
不遵守规则者，必将引火烧身

猫仔观影 2025-03-31 10:36:58
1 跟贴 1
10万个蚕盒被抢空！突然爆了！浙江妈妈：有娃的都懂

环球网资讯 2025-03-31 15:13:24
959 跟贴 959
学俄语，为你打开一扇大门

环球时报国际 2025-03-31 09:28:55
1581 跟贴 1581
中航智成1/72歼-16战斗机低可视涂装合金成品模型开箱测评

DS北风 2025-03-29 22:05:00
0 跟贴 0
川菜进阶版，青蒜炒鸡蛋的另一种表达方式

美食状元哥 2025-03-28 22:43:08
5 跟贴 5
大陆渔船再遭撞击！台当局不念手足之情，解放军忍耐已到极限

苏浩 2025-03-29 16:01:42
0 跟贴 0
真正的有钱人都不露富1

果丸影视 2025-03-31 08:01:45
3 跟贴 3
俄军突袭打出奇迹，3名士兵极限逃亡，乌军大部队被遛的晕头转向

兵器杂志 2025-03-30 14:11:20
0 跟贴 0
北京业主花500万买的绿地洋房结果傻眼窗外是400座坟

北京日报客户端 2025-03-31 13:35:31
296 跟贴 296
这才是真正的报复

炙青剪辑 2025-03-27 17:09:03
1 跟贴 1
当你有两只一样的小猫，真的会怀疑是不是镜像，网友：连斑纹都是一致的

青观察 2025-03-30 11:55:44
0 跟贴 0
梦幻西游：周年区第233天，进阶第一组175净台宝宝

大飞游戏解说 2025-03-29 13:55:01
5 跟贴 5
深圳宝安区“王炸”地块挂牌出让：起始价86.27亿元，总建筑面积逾27万平方米

澎湃新闻 2025-03-31 16:56:30
157 跟贴 157
无人机颠覆现代战争规则，彩虹4三千米外击中敌军，引得沙特赞赏

小峰军事观察 2025-03-30 17:53:35
0 跟贴 0
《当身体到达极限，不屈的意志会带我杀出重围》

神秘研究院 2025-03-29 16:10:52
0 跟贴 0
光年是光行走一年的距离，但是光行走一光年真的需要一年吗？

宇宙时空 2025-03-31 19:32:18
3 跟贴 3

多穿一缕都会影响比赛成绩……

印象逍遥子

2025-03-30 22:22:58

CBA季后赛首轮对阵：京辽等4队轮空广东PK上海+新疆战同曦

CBA季后赛首轮对阵：京辽等4队轮空广东PK上海+新疆战同曦

醉卧浮生

2025-03-31 21:54:00

曾令旭发文感叹：辽宁与山东的比赛是我解说生涯目前为止耗时最长的比赛，没有之一

曾令旭发文感叹：辽宁与山东的比赛是我解说生涯目前为止耗时最长的比赛，没有之一

雷速体育

2025-03-31 21:07:08

沉默25天，美方公开发声，不准中方阻止港口交易，李嘉诚骑虎难下

沉默25天，美方公开发声，不准中方阻止港口交易，李嘉诚骑虎难下

说天说地说实事

2025-03-30 21:53:12

东平一女子欠债被悬赏！竟有人留言愿帮她还，网友：真的美若天仙

东平一女子欠债被悬赏！竟有人留言愿帮她还，网友：真的美若天仙

火山诗话

2025-03-30 19:31:45

震惊！网传江苏某集团3亿拿下10家宝马4S店，华东区BMW一夜变天…

震惊！网传江苏某集团3亿拿下10家宝马4S店，华东区BMW一夜变天…

火山诗话

2025-03-31 17:01:21

西方媒体集体沉默！中国救援队带野战医院救援缅甸，外网评论破防

西方媒体集体沉默！中国救援队带野战医院救援缅甸，外网评论破防

行者聊官

2025-03-31 17:26:34

机关算尽太聪明！“千亿儿媳”彻底成笑话，恶果已经开始显现

机关算尽太聪明！“千亿儿媳”彻底成笑话，恶果已经开始显现

火之文

2025-03-31 17:53:25

辣眼！贵州自行车赛选手途中掏出生殖器小便，全过程8秒被直播？

辣眼！贵州自行车赛选手途中掏出生殖器小便，全过程8秒被直播？

乌娱子酱

2025-03-31 13:58:09

陆方舟任上海闵行区委书记

澎湃新闻

2025-03-31 19:40:33

女子穿瑜伽裤在健身房擦边，跟没穿有什么区别，网友：没眼看

女子穿瑜伽裤在健身房擦边，跟没穿有什么区别，网友：没眼看

说真话的小陈

2025-03-31 14:20:40

四川一80后副区长流泪忏悔：沉迷高端手机、高档汽车等借贷781万！为还贷款开始受贿

四川一80后副区长流泪忏悔：沉迷高端手机、高档汽车等借贷781万！为还贷款开始受贿

大风新闻

2025-03-31 17:41:10

外媒：芬兰总统称已告诉特朗普，需要为在乌克兰实现停火设最后期限

外媒：芬兰总统称已告诉特朗普，需要为在乌克兰实现停火设最后期限

环球网资讯

2025-03-31 15:05:11

最滑稽男明星！说一半看稿，哭一半喝水，粉底液脱妆，笑不活了！

最滑稽男明星！说一半看稿，哭一半喝水，粉底液脱妆，笑不活了！

玫瑰讲娱

2025-03-31 20:19:25

美国贝莱德正在加速“逃离”中国？李嘉诚的43个港口暂时卖不成了

美国贝莱德正在加速“逃离”中国？李嘉诚的43个港口暂时卖不成了

半野闲人

2025-03-31 01:07:59

王新伟当选辽宁省省长

新华社

2025-03-31 15:59:03

争议之下，朱啸虎现身再放炮：所有AI应用都是套壳，创业公司别浪费钱训练底层模型｜钛媒体AGI

争议之下，朱啸虎现身再放炮：所有AI应用都是套壳，创业公司别浪费钱训练底层模型｜钛媒体AGI

钛媒体APP

2025-03-31 17:03:09

回暖是一场彻底的骗局

难得君

2025-03-31 11:20:20

男朋友特别大，女生能接受吗？！

男朋友特别大，女生能接受吗？！

健身厨屋

2025-03-31 18:50:43

恭喜杜锋，你如愿以偿！广东季后赛首轮就打上海，做好一轮游准备

恭喜杜锋，你如愿以偿！广东季后赛首轮就打上海，做好一轮游准备

多特体育说

2025-03-31 22:09:03

AI产业主平台领航智能+时代

12442文章数 65989关注度

往期回顾全部

刚刚，谷歌最强Gemini 2.5 Pro免费了！数学碾压人类研究生，拿下全球TOP 1
2025-03-31 20:09
Midjourney V7内测图首曝，电影级画质干翻GPT-4o！人物蜡像感消失，AI生图迎最强地震
2025-03-31 15:31
盖茨预警：AI解放人类速度惊人！医生和教师最先被取代，一周只要2天上班
2025-03-31 15:23

科技要闻

朱啸虎放狠话遭行业围攻，普通人该信谁？

头条要闻

马斯克想得挺美：我可能会去火星那里将是美国一部分

体育要闻

奥运选手成跨国大毒枭 FBI悬赏1000万美元通缉

娱乐要闻

金秀贤记者会说谎被拆穿！就是他本人!

财经要闻

200亿估值人形机器人，陷停摆危机

汽车要闻

《重返巅峰》:雷诺集团的"非典型复兴"与中国方程式

态度原创

本地

房产

手机

艺术

公开课

本地新闻

春色满城关不住｜来重庆酉阳，赴一场世外桃源之约

房产要闻

16.88亿！金茂、广州地铁拿下天河、番禺宅地！

手机要闻

苹果加速扩张印度生产，富士康今年拟生产2500万-3000万部iPhone

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉 Reporting Infringements