网易首页 > 网易号 > 正文 申请入驻

全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

0
分享至


新智元报道

编辑:桃子 英智

【新智元导读】AI界「智商大考」ARC-AGI-2重磅出炉了!一个人类用5分钟轻松解开的谜题,却让最顶尖LLM全线崩盘得分挂零,o3更是从曾经76%暴跌至4%。它正式宣告,人类还未实现AGI。

时隔6年,ARC-AGI-2正式推出!

一大早,Keras之父François Chollet官宣了全新迭代后的ARC-AGI-2,再次拉高了AI「大考」的难度。


这些对人类再简单不过的题目,LLM最先败北,先上结果:

基础大模型(GPT-4.5、Claude 3.7 Sonnet、Gemini 2 ),全部得0分。

CoT推理模型(Claude Thinking、R1、o3-mini),得分也不过4%。


相较之下,2024年ARC Prize冠军模型(53.5%)却在新版本考试中,成绩仅剩3.5%。

OpenAI的o3-low模型也从75.7%骤降至4%。而且,每项任务成本效率也是o3-low和o1-pro最高,达到200美金。


相反,在ARC-AGI-2里的每个任务,都至少有两名人类能在两次尝试内成功解决。

ARC-AGI-2的出世,证明了「人类尚未实现AGI」!


现场400人实测,普通人无训练能拿下60%准确率,10人小组能达到100%

初代ARC-AGI(2019年),曾在去年揭示了AI重大转变,LLM从「纯记忆」向「测试时推理」的进化。

许多之前一眼就看透的问题,在ARC-AGI-2中,至少需要几分钟的深思熟虑——人类测试者平均需要5分钟才能解题。

最新ARC-AGI-2,恰恰暴露了当前AI三大短板:符号解释、组合推理、上下文规则应用。

这些皆需要LLM在测试时,展现真正的适应能力,具备灵活应对新问题的「流体智力」,而不是靠预训练数据「硬背」过关。

值得一提的是,2025年ARC奖本周将在Kaggle平台上线,总奖金高达100万美元。

今年的竞赛在去年基础上再加码,计算资源翻倍,旨在推动开源项目发展,助力打造能战胜ARC-AGI-2的系统。

AI「大考」难度进阶,AGI梦碎?

其他AI基准测试,基本都聚焦于测试「博士以上水平」的技能,来考察超越人类的能力或专业知识。

但ARC-AGI关注的是对人类相对容易,对AI却困难重重的任务。

这样一来,就能精准定位那些不会因为规模扩大就自动消失的能力差距。

ARC奖将此融入对AGI的衡量标准:对人类容易、对AI困难的任务之间的差距,即「人机差距」。

当这个差距变为零,也就是不存在能难倒AI的任务时,我们就实现了AGI。


要弥补这些能力差距,需要全新的见解和思路。ARC-AGI不只是衡量AGI的进展,更重要的是激励研究人员探索新思路。

AI系统在不少特定领域(如围棋、图像识别)已超越人类。但这些只是狭隘、专门的能力。

「人机差距」揭示了AGI所欠缺的部分:高效获取新技能的能力。

ARC-AGI-2登场,基础LLM挂零

今日正式发布的ARC-AGI-2基准测试,在对人类难度不变的前提下,极大提高了对AI的难度挑战。

在一项有400人参与的对照研究中,ARC-AGI-2的每个任务,都至少有两名参与者能在两次或更少的尝试内解决。

这和给AI设定的规则一致,每个任务AI都有两次尝试机会。

与ARC-AGI-1类似,ARC-AGI-2采用「两次尝试通过(pass@2)」的评估体系,因为部分任务存在显著的模糊性,需要两次猜测来消除歧义,同时也用于排查数据集中可能无意出现的模糊或错误之处。

经过人类测试,相较于ARC-AGI-1,作者对ARC-AGI-2任务质量更具信心。

以下是ARC-AGI-2的官方更新内容:

  • 所有评估集(公开、半私有、私有)的任务数量从100个增加至120个。

  • 剔除了评估集中易受暴力搜索破解的任务,即2020年原始Kaggle竞赛中已被解决的所有任务。

  • 开展人类测试,以校准评估集难度,确保任务独立同分布,并验证至少有两名人类可在两次尝试内解决任务,这与对AI的要求一致。

  • 根据研究成果,设计了新任务来挑战AI推理系统,涵盖符号解释、组合推理、上下文规则等多个方面。

2019年推出的ARC-AGI-1,主要是为了挑战深度学习,尤其是防止模型单纯「记忆」训练数据集。


ARC-AGI包含一个训练数据集和多个评估集,其中私有评估集用于2024年ARC奖竞赛。训练集的作用是让模型学习解决评估集中任务所需的核心知识。

为了完成评估集中的任务,AI必须展现出适应全新任务的能力。

打个比方,训练集就像是教你认识小学算术符号,而评估集则要求用这些符号知识去解代数方程。你不能靠死记硬背得出答案,必须把知识灵活运用到新问题上。

ARC-AGI-2对AI的要求更高,要想战胜它,必须具备高度的适应性和高效性。

下面是ARC-AGI-2的示例任务,满足两个条件:一是至少有两名人类能在两次尝试内解决;二是所有前沿AI推理系统都无法解决。


符号解释

前沿AI推理系统在处理需要赋予符号超出视觉模式意义的任务时,表现欠佳。

系统能进行对称性检查、镜像、变换,甚至识别连接元素,但就是无法理解符号本身的语义。



组合推理
AI推理系统在处理需要同时应用多个规则,或者应用相互关联规则的任务时,困难重重。

相反,要是任务只有一两条全局规则,这些系统就能发现并运用规则。



上下文规则应用
AI推理系统在面对需根据上下文灵活应用规则的任务时,也会陷入困境。

它们往往只关注表面模式,无法理解背后的选择原则。


两人组队拿满分,o3仅4%

ARC-AGI-2由以下数据集构成:


校准指的是这些任务具有独立同分布(IDD)特性。理论上,在公开、半私有和私有评估集上,未出现过拟合情况的分数应具有直接可比性。

为收集相关数据,在严格受控的环境下,对400多位人类进行了测试。

接下来几周,公开任务的人类可解性数据将与ARC-AGI-2论文一同发布。

对所有公开的AI系统重新评估,ARC-AGI-2起始分数如下:


带*的分数,是根据目前收集到的部分结果,还有o1-pro的定价估算出来的。完整结果一出来,马上会公布。

所有分数均按照「两次尝试通过(pass@2)」标准,且基于半私有评估集得出(ARC-AGI-1人类小组和ARChitects除外,分别基于公开评估集和私有评估集)。

人类小组的效率计算基于115-150美元的到场费用,外加解决每个任务奖励5美元。

对成本进行了优化以提升到场率(实际到场率为注册人数的70%)。尽管人类智能成本效率的极限可能在每个任务2-5美元区间,但基于实际收集的数据,报告中每个任务17美元。

等OpenAI o3 low/high的API开放,将对其正式版本进行测试。

用从ARC-AGI-1转到ARC-AGI-2的任务进行预估,o3-low得分约为4%,如果计算量特别大(每个任务数千美元),o3-high得分有望达到15-20%。

智能并非仅是能力

从现在开始,所有ARC-AGI的报告都将附带一项效率指标。

首先选择成本作为指标,因为在对比人类与AI性能时,成本具有最直接的可比性。

智能并非仅是解决问题和获取高分的能力。获取和运用这些能力的效率,是智能的关键要素。

核心问题不仅在于「AI能否掌握解决任务的技能?」,更在于「以怎样的效率或成本来掌握?」


前沿AI系统在ARC-AGI-1与ARC-AGI-2上的得分


仅靠规模远远不够

在资源与搜索时间不受限的情况下,暴力搜索最终能够解决ARC-AGI问题。

但这绝非真正的智能。智能在于高效地找到解决方案,而非盲目穷举。

关注效率是ARC-AGI的核心原则。

明确量化智能的成本,要求解决方案不仅展示能力,更要展现对资源的高效利用,这才是AGI的本质。

全新的ARC-AGI排行榜页面将从分数和成本两个维度同步呈现。


截至2025年3月24日,ARC-AGI新排行榜同时展示分数与效率

本周竞赛盛大开启!

随着ARC-AGI-2的发布,2025年ARC Prize重磅回归!竞赛将于3月至11月期间在Kaggle平台举办。

竞赛设有12.5万美元的保底进展奖,以及高达70万美元的大奖,团队得分超过85%即可解锁!

此外,还有17.5万美元的奖项待后续公布细则。

Kaggle竞赛规则禁止使用互联网API,每次提交仅可使用约50美元的计算资源。

为获取获奖资格,参赛者需在竞赛结束时开源解决方案。

去年的竞赛成果斐然,超过1500支团队踊跃参与,产出了40篇极具影响力的研究论文。

获奖研究人员提出的创新理念已在AI行业得到广泛应用。

参考资料:

https://x.com/arcprize/status/1904269307284230593

https://x.com/fchollet/status/1904265979192086882

https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

刚刚,谷歌最强Gemini 2.5 Pro免费了!数学碾压人类研究生,拿下全球TOP 1

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
多穿一缕都会影响比赛成绩……

多穿一缕都会影响比赛成绩……

印象逍遥子
2025-03-30 22:22:58
CBA季后赛首轮对阵:京辽等4队轮空 广东PK上海+新疆战同曦

CBA季后赛首轮对阵:京辽等4队轮空 广东PK上海+新疆战同曦

醉卧浮生
2025-03-31 21:54:00
曾令旭发文感叹:辽宁与山东的比赛是我解说生涯目前为止耗时最长的比赛,没有之一

曾令旭发文感叹:辽宁与山东的比赛是我解说生涯目前为止耗时最长的比赛,没有之一

雷速体育
2025-03-31 21:07:08
沉默25天,美方公开发声,不准中方阻止港口交易,李嘉诚骑虎难下

沉默25天,美方公开发声,不准中方阻止港口交易,李嘉诚骑虎难下

说天说地说实事
2025-03-30 21:53:12
东平一女子欠债被悬赏!竟有人留言愿帮她还,网友:真的美若天仙

东平一女子欠债被悬赏!竟有人留言愿帮她还,网友:真的美若天仙

火山诗话
2025-03-30 19:31:45
震惊!网传江苏某集团3亿拿下10家宝马4S店,华东区BMW一夜变天…

震惊!网传江苏某集团3亿拿下10家宝马4S店,华东区BMW一夜变天…

火山诗话
2025-03-31 17:01:21
西方媒体集体沉默!中国救援队带野战医院救援缅甸,外网评论破防

西方媒体集体沉默!中国救援队带野战医院救援缅甸,外网评论破防

行者聊官
2025-03-31 17:26:34
机关算尽太聪明!“千亿儿媳”彻底成笑话,恶果已经开始显现

机关算尽太聪明!“千亿儿媳”彻底成笑话,恶果已经开始显现

火之文
2025-03-31 17:53:25
辣眼!贵州自行车赛选手途中掏出生殖器小便,全过程8秒被直播?

辣眼!贵州自行车赛选手途中掏出生殖器小便,全过程8秒被直播?

乌娱子酱
2025-03-31 13:58:09
陆方舟任上海闵行区委书记

陆方舟任上海闵行区委书记

澎湃新闻
2025-03-31 19:40:33
女子穿瑜伽裤在健身房擦边,跟没穿有什么区别,网友:没眼看

女子穿瑜伽裤在健身房擦边,跟没穿有什么区别,网友:没眼看

说真话的小陈
2025-03-31 14:20:40
四川一80后副区长流泪忏悔:沉迷高端手机、高档汽车等借贷781万!为还贷款开始受贿

四川一80后副区长流泪忏悔:沉迷高端手机、高档汽车等借贷781万!为还贷款开始受贿

大风新闻
2025-03-31 17:41:10
外媒:芬兰总统称已告诉特朗普,需要为在乌克兰实现停火设最后期限

外媒:芬兰总统称已告诉特朗普,需要为在乌克兰实现停火设最后期限

环球网资讯
2025-03-31 15:05:11
最滑稽男明星!说一半看稿,哭一半喝水,粉底液脱妆,笑不活了!

最滑稽男明星!说一半看稿,哭一半喝水,粉底液脱妆,笑不活了!

玫瑰讲娱
2025-03-31 20:19:25
美国贝莱德正在加速“逃离”中国?李嘉诚的43个港口暂时卖不成了

美国贝莱德正在加速“逃离”中国?李嘉诚的43个港口暂时卖不成了

半野闲人
2025-03-31 01:07:59
王新伟当选辽宁省省长

王新伟当选辽宁省省长

新华社
2025-03-31 15:59:03
争议之下,朱啸虎现身再放炮:所有AI应用都是套壳,创业公司别浪费钱训练底层模型|钛媒体AGI

争议之下,朱啸虎现身再放炮:所有AI应用都是套壳,创业公司别浪费钱训练底层模型|钛媒体AGI

钛媒体APP
2025-03-31 17:03:09
回暖是一场彻底的骗局

回暖是一场彻底的骗局

难得君
2025-03-31 11:20:20
男朋友特别大,女生能接受吗?!

男朋友特别大,女生能接受吗?!

健身厨屋
2025-03-31 18:50:43
恭喜杜锋,你如愿以偿!广东季后赛首轮就打上海,做好一轮游准备

恭喜杜锋,你如愿以偿!广东季后赛首轮就打上海,做好一轮游准备

多特体育说
2025-03-31 22:09:03
2025-03-31 23:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
12442文章数 65989关注度
往期回顾 全部

科技要闻

朱啸虎放狠话遭行业围攻,普通人该信谁?

头条要闻

马斯克想得挺美:我可能会去火星 那里将是美国一部分

体育要闻

奥运选手成跨国大毒枭 FBI悬赏1000万美元通缉

娱乐要闻

金秀贤记者会说谎被拆穿!就是他本人!

财经要闻

200亿估值人形机器人,陷停摆危机

汽车要闻

《重返巅峰》:雷诺集团的"非典型复兴"与中国方程式

态度原创

本地
房产
手机
艺术
公开课

本地新闻

春色满城关不住|来重庆酉阳,赴一场世外桃源之约

房产要闻

16.88亿!金茂、广州地铁拿下天河、番禺宅地!

手机要闻

苹果加速扩张印度生产,富士康今年拟生产2500万-3000万部iPhone

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?