网易首页 > 网易号 > 正文 申请入驻

全新 ARC-AGI-2 测试登场:AI 模型得分惨淡,被人类碾压

0
分享至

IT之家 3 月 25 日消息,Arc Prize 基金会是一家由知名人工智能研究员弗朗索瓦・肖莱(François Chollet)共同创立的非营利组织,该基金会于本周一在其博客上宣布推出一个名为 ARC-AGI-2 的全新测试,旨在衡量领先人工智能模型的通用智能水平。这项测试的难度极高,截至目前,大多数 AI 模型都在该测试中表现不佳。

根据 Arc Prize 排行榜的数据显示,以推理能力著称的 AI 模型,如 OpenAI 的 o1-pro 和 DeepSeek 的 R1,在 ARC-AGI-2 测试中的得分仅为 1% 至 1.3%。而包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 等强大的非推理型模型,得分也仅在 1% 左右。

ARC-AGI 测试由一系列类似谜题的问题组成,要求 AI 从一组不同颜色的方块中识别出视觉模式,并生成正确的“答案网格”。这些问题的设计旨在迫使 AI 适应其未曾见过的新问题。为了建立人类基线,Arc Prize 基金会邀请了超过 400 人参加 ARC-AGI-2 测试。平均而言,这些参与者组成的“小组”能够正确回答测试中 60% 的问题,这一成绩远远超过了任何 AI 模型的得分。

Arc-AGI-2 的一个示例问题

在 X 平台上,肖莱表示,ARC-AGI-2 测试比之前的 ARC-AGI-1 测试更能准确衡量 AI 模型的实际智能水平。Arc Prize 基金会的测试旨在评估 AI 系统是否能够在训练数据之外高效地获取新技能。

肖莱指出,与 ARC-AGI-1 不同,新的 ARC-AGI-2 测试防止了 AI 模型依赖“蛮力”—— 即大量的计算能力 —— 来寻找解决方案。他此前曾承认,这是 ARC-AGI-1 的一个主要缺陷。为了弥补这一缺陷,ARC-AGI-2 引入了一个新的指标:效率。它还要求模型实时解读模式,而不是依赖记忆。

“智能不仅仅是解决问题或取得高分的能力,”Arc Prize 基金会联合创始人格雷格・卡姆拉德(Greg Kamradt)在其博客中写道,“这些能力的获取和部署效率是至关重要的决定性因素。我们提出的核心问题不仅仅是‘AI 能否获得解决任务的技能?’,还包括‘以何种效率或代价?’”

ARC-AGI-1 在大约五年内无人能敌,直到 2024 年 12 月,OpenAI 发布了其先进的推理模型 o3,该模型超越了所有其他 AI 模型,并在评估中达到了人类水平的表现。然而,正如当时所指出的,o3 在 ARC-AGI-1 上的性能提升是以高昂的成本为代价的。

OpenAI 的 o3 模型(低配版)—— 第一个在 ARC-AGI-1 上取得突破的版本,在该测试中得分高达 75.7%,但在 ARC-AGI-2 测试中,即使使用价值 200 美元的计算能力,其得分也仅为 4%。

ARC-AGI-2 的推出正值科技行业许多人呼吁需要新的、未饱和的基准来衡量 AI 进展之时。Hugging Face 联合创始人托马斯・沃尔夫(Thomas Wolf)最近在接受 TechCrunch 采访时表示,AI 行业缺乏足够的测试来衡量所谓的通用人工智能的关键特质,包括创造力。

与此同时,Arc Prize 基金会还宣布了 2025 年 Arc Prize 竞赛,挑战开发者在 ARC-AGI-2 测试中达到 85% 的准确率,同时每项任务的花费不超过 0.42 美元(IT之家注:现汇率约合 3 元人民币)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
霍建华和张馨予李晨的出轨瓜!

霍建华和张馨予李晨的出轨瓜!

八卦疯叔
2026-05-18 11:08:04
日本预测,未来20年亚洲最发达的“四座城市”,我国几座榜上有名

日本预测,未来20年亚洲最发达的“四座城市”,我国几座榜上有名

牛牛叨史
2024-07-19 23:32:16
军事 | 特朗普警告“台独”,说明了什么?

军事 | 特朗普警告“台独”,说明了什么?

新民周刊
2026-05-18 09:11:21
厦门市纪委监委通报,区政协原主席曹放被查

厦门市纪委监委通报,区政协原主席曹放被查

人民资讯
2026-05-18 20:58:12
一张合影价值千万!黄仁勋到访老字号,老板娘情商格局直接拉满

一张合影价值千万!黄仁勋到访老字号,老板娘情商格局直接拉满

魔都姐姐杂谈
2026-05-18 12:56:52
萨提亚诊所里的惊人发现:孩子从不会感激你拼命赚钱,也不会记你带他见过多大的世面,唯独这两样东西,会刻进骨子里跟着他走完这辈子

萨提亚诊所里的惊人发现:孩子从不会感激你拼命赚钱,也不会记你带他见过多大的世面,唯独这两样东西,会刻进骨子里跟着他走完这辈子

心理观察局
2026-05-17 09:48:12
后台最硬女神探,遇到破不了的案,直接冤枉路人死刑!

后台最硬女神探,遇到破不了的案,直接冤枉路人死刑!

莫地方
2026-05-16 01:40:03
不跟伊朗打了?美国一算总账,损失了39架飞机

不跟伊朗打了?美国一算总账,损失了39架飞机

聊历史的阿稼
2026-05-19 03:07:21
一个男人有钱没钱,一眼就能看出:没钱的人,大多有这两个习惯

一个男人有钱没钱,一眼就能看出:没钱的人,大多有这两个习惯

心理观察局
2026-05-19 06:12:15
黄仁勋在上海张江落脚了,80米高,造型有点意思啊!

黄仁勋在上海张江落脚了,80米高,造型有点意思啊!

GA环球建筑
2026-05-18 00:05:24
阿森纳1-0豪取三连胜,领先曼城五分,英超冠军悬念尚存

阿森纳1-0豪取三连胜,领先曼城五分,英超冠军悬念尚存

铿锵格斗
2026-05-19 06:18:10
《主角》爆是爆了,弃剧观众却不少,理由:一颗老鼠屎毁了一锅粥

《主角》爆是爆了,弃剧观众却不少,理由:一颗老鼠屎毁了一锅粥

天马幸福的人生
2026-05-14 19:18:37
表面是艺人,实际上家世显赫的4位上海明星,背景强大令人想不到

表面是艺人,实际上家世显赫的4位上海明星,背景强大令人想不到

可乐谈情感
2026-05-18 15:24:27
赖清德称“没有‘台独’问题”,外交部:欲盖弥彰

赖清德称“没有‘台独’问题”,外交部:欲盖弥彰

澎湃新闻
2026-05-18 16:32:55
2家手机巨头,同时盯上了你的口袋:1个技术流,1个堆料狂

2家手机巨头,同时盯上了你的口袋:1个技术流,1个堆料狂

晚风也遗憾
2026-05-18 01:50:19
这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

阿凫爱吐槽
2025-12-17 17:24:39
马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

丰谭笔录
2025-12-12 11:16:23
国宴服务员惊艳全网,颜值气质绝非偶然

国宴服务员惊艳全网,颜值气质绝非偶然

椰青美食分享
2026-05-18 12:26:51
演员李雪琴:14岁时父母离异,她患过抑郁症,走红后母亲被判刑

演员李雪琴:14岁时父母离异,她患过抑郁症,走红后母亲被判刑

娘娘不想上班
2026-05-18 14:50:40
黎耀祥儿子开豪车戴名表被吐槽炫富!本尊出面护子:这些全是我的

黎耀祥儿子开豪车戴名表被吐槽炫富!本尊出面护子:这些全是我的

我爱追港剧
2026-05-17 23:40:37
2026-05-19 07:19:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
344970文章数 607204关注度
往期回顾 全部

科技要闻

苹果WWDC26定档6月9日凌晨:iOS27将亮相

头条要闻

赖清德要求美国继续向台出售武器 外交部表态

头条要闻

赖清德要求美国继续向台出售武器 外交部表态

体育要闻

58顺位的保罗,最强第三中锋

娱乐要闻

票房会破14亿!口碑第一电影出现了

财经要闻

中国芯片,怎么突然不便宜了?

汽车要闻

40.98万起!充电5分钟纯电续航420km 腾势N9闪充版胜算有多少?

态度原创

游戏
房产
艺术
亲子
公开课

《GTA6》多个取景地在现实已消失!开发太久的弊端

房产要闻

突发!海口重磅调规!碧桂园要解套;新埠岛要起飞了!

艺术要闻

民进党忽然公开国民党领袖日记,舆论哗然!

亲子要闻

不能做危险的事情 #大型挖掘机挖土玩具 #工程车玩具

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版