网易首页 > 网易号 > 正文 申请入驻

GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA

0
分享至


新智元报道

编辑:庸庸 乔杨

【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA!

ARC-AGI是唯一可以用来衡量通用人工智能进展的基准,创造者François Chollets曾经掷下豪言——

「它不可能轻易被击败!」

为了测试这一点,他于2020年在 Kaggle(Google LLC旗下的数据科学竞赛平台)上主办了首届ARC-AGI竞赛。

获胜团队icecuber在测试集上仅取得了21%的成功率,这个成绩强有力地证明了François的断言是正确的。

此后几年,来自世界各地的挑战者不断刷新这个纪录,但进展缓慢。ARC-AGI似乎成为了一座不可跨越的高山。

可是这周二,ARC-AGI基准无法被挑战的神话被GPT-4o撼动了!GPT-4o以在公共测试集50%、在训练集的保留子集71%的准确率成为了新的SOTA!


ARC-AGI上周被大肆宣传为LLM无法解决的基准。这个说法激发了我亲爱的同事Ryan Greenblatt的斗志,因此他上周试图用 LLMs 来解决这个问题。Ryan在一组示例中获得了 71% 的准确率,而人类的准确率为 85%;这(GPT-4o)是SOTA。


这个消息也迅速登上了HN热搜榜。


值得一提的是,今年Mike Knoop、François和Lab42联手创建了2024年ARC奖,奖金池超过110万美元。

为了完成这个挑战,Ryan放弃了一个星期的项目,设计了很多花哨的技巧,争取了高性能:

训练集:71% vs. 人类基线 85%

测试集:51% vs. 之前的 SOTA 34%(人类基线未知)

但遗憾的是,此提交不符合 ARC-AGI 奖项和主要排行榜的资格,因为它使用闭源模型和过多的运行时计算。

可能Ryan会提交到私人排行榜中吧。


什么是ARC-AGI?

ARC-AGI的数据集由视觉问题组成,输入输出示例是由彩色单元格组成的网格,任务是猜测从输入到输出的转换规律,然后补全缺失的网格。


看起来很简单对吧,就像是小学的奥数题,让GPT-4o来解决也并不困难。

不过,公共测试集中的任务要难得多,对于人类来说,也会有些棘手,但并非不可解决。

每一项ARC-AGI任务都是经过人工验证的,包括公共测试集,确保ARC-AGI的所有任务都可以由人类解决。

毕竟这是一个通用人工智能基准,如果连人类自己都难倒了,那拿去测试LLM也说不过去。

据报道,亚马逊土耳其机器人( Amazon Mechanical Turk,MTurk) 训练分布的人类基线是85%,但没有针对公开测试集的人类基线,不过我们已知的是,公开测试集更难,那么针对公开测试集的人类基线应该会更低。

Ryan给出了测试集中的一些代表性的问题,以及他基于GPT-4o的解决方案是否回答正确。

问题1:


问题2:


问题3:


从Ryan给出的这3个例子中可以看出,GPT-4o答对了三分之一。(跟小编的胜率一样,前2个图密密麻麻,没看出个所以然来…)

怎么让GPT-4o做到的

Ryan的解决方案的主要思路非常简单:让GPT-4o生成约8000个尝试实现转换的python程序,选择一个在所有示例(通常有 3 个示例)中都正确的程序,然后提交该函数应用于额外测试输入时产生的输出。

Ryan以图像和各种ASCII表示形式向GPT-4o展示了该问题。

这种方法在本质上与AlphaCode中应用的方法类似,在AlphaCode中,一个模型会生成数百万个试图解决编程问题的完成项,然后对这些完成项进行汇总,以确定要提交的内容。

从更高层次上来解释,Ryan使用的方法是:

  • 向GPT-4o介绍ARC-AGI 的问题,并为问题中的每个网格提供图像表示法和各种文本表示法。

  • 指导GPT-4o推理背后的规律,进一步推理如何用代码实现转换,最后用代码实现。

  • 使用几次提示以及几个精心手写的分步推理示例来实际让GPT-4o有效地进行此推理。生成的提示通常长度约为30k个token(包括图像)。

  • 从GPT-4o中抽取大量的完成样本(每个问题约5000个)。

  • 针对每个问题选取最有希望的12个补全,然后通过向GPT-4o展示该程序在示例中的实际输出,并要求GPT-4o修改代码使其正确,从而尝试修复每个补全。

  • 然后,根据对正确示例程序的多数投票结果,选出3个提交程序。

概括来说,Ryan通过足够长的、精雕细琢的少样本提示,生成许多可能的Python程序,从大约5k个猜测中,使用示例选出最佳猜测,然后进行调试。

除了对训练集进行迭代外,Ryan还对公共测试集的100个问题子集进行了少量迭代。

在这里介绍的所有结果都是在不重叠的公共测试集的另一个子集上计算得出的。

训练集和测试集不是独立的,而且测试集的难度更大,因此使用测试集的子集进行迭代有助于快速更好地了解问题随难度的变化。

不幸的是,这些测试集不是独立同分布(Independent Identically Distribution,IID):这使得迭代变得更加困难和混乱。

关于方法的更多细节,以及完整的解决方案,可以参阅项目的GitHub:


https://github.com/rgreenblatt/arc_draw_more_samples_pub

采样每增加一倍,精度提高3%

如果有更多的采样,性能会有所提高吗?

答案是会的!

缩放Python采样数量可以可靠地提高性能,每增加一倍,精度提高3%。

而且这距离AlphaCode使用的数百万个样本还很远!


GPT-4o存在的非推理弱点

  • GPT-4o看不清楚。GPT-4o在网格上的视力很糟糕,当被要求描述一个较大的网格中的内容时,它通常无法正确「看清」输入,并陈述有关某些位置的颜色或存在的形状的错误事实。

  • GPT-4o不太擅长编码(特别是对于此类几何操作问题),并且经常犯一些简单的错误,例如差一错误(Off-by-one error,OBOE)。

  • 当上下文中的token超过32k时,其性能会下降。

消除这些非推理弱点将显著提高解决方案的性能,而这些问题似乎很可能通过规模化(scalling)来解决。

距离ARC-AGI大奖还有多远?

如何才能达到ARC-AGI所设定的85%的大奖目标呢?


Ryan做出了非常「数据化」的预测。

70% 的可能性:一个由3名顶尖ML工程师组成的团队,通过微调GPT-4o(包括 SFT 和 RL)、1000万美元的计算量和1年的时间,可以使用 GPT-4o 超越MTurk 85%的人类基线(简单训练集)。

35% 概率:在上述同等条件下,公共测试集上的概率也可达85%。目前还不清楚哪些人在测试集上的表现 >=85%,尽管这对于聪明的人来说可能并不难。

80% 的概率:下一代多模态大模型(例如 GPT-5)将能够大幅提高 ARC-AGI 的性能。

LLM有学习能力吗

Ryan引用了François Chollets的一段话——

如果你是对的(LLMs可以进行情境学习),那么,LLMs在ARC谜题上会表现得很好,因为 ARC 谜题并不复杂。你不需要认真思考它,它们实际上对人类来说非常明显。 即使是孩子也可以做到,但LLMs不能。即使 LLMs 的知识比你多100,000倍,仍然做不到。ARC唯一的特殊之处在于它的设计初衷就是为了抵制记忆。这是 LLM性能的巨大障碍。 如果仔细观察LLMs,很明显他们并没有真正即时合成新程序来解决他们面临的任务。

Ryan则认为,LLMs在进行上下文学习时实际上做了一些相关的「学习」。

尽管整体性能非常弱,远远不如人类(否则他就不需要在他的解决方案中抽取数千个样本),但这仍然是一种学习。

「我的观点并不是说GPT-4o相对于人类来说是聪明的,但我确实认为它是具有『智能』的。」

参考资料:

https://x.com/bshlgrs/status/1802766374961553887

https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辽宁奔驰女暴打修车匠,修车匠怒而拔刀,将母女俩当街捅死

辽宁奔驰女暴打修车匠,修车匠怒而拔刀,将母女俩当街捅死

安妮Emotiong
2024-05-22 20:22:41
71岁男子清晨去世?医生叹息:中老年人,早上千万牢记“3不要”

71岁男子清晨去世?医生叹息:中老年人,早上千万牢记“3不要”

阿纂历史
2024-06-26 18:51:35
谷俊山威胁领导廖锡龙:我让你离开你就得离开,廖是如何回应?

谷俊山威胁领导廖锡龙:我让你离开你就得离开,廖是如何回应?

历史龙元阁
2024-05-28 00:56:55
中国第六代战斗机疑试飞!美国专家亲口证实,担忧被我们抢先?

中国第六代战斗机疑试飞!美国专家亲口证实,担忧被我们抢先?

老李得娱乐
2024-06-27 10:57:12
沪深两市成交6264亿,总市值73.81万亿,市场形势已经非常严峻!

沪深两市成交6264亿,总市值73.81万亿,市场形势已经非常严峻!

三周檀的鲲
2024-06-27 16:57:54
西藏旅游的惊心之旅,我亲眼目睹了藏族姑娘的水葬仪式全过程

西藏旅游的惊心之旅,我亲眼目睹了藏族姑娘的水葬仪式全过程

小哥很OK
2024-06-26 16:11:21
四川一落马官员被判刑!官方曝光:表面光背后脏!上午讲廉政,下午收回扣!

四川一落马官员被判刑!官方曝光:表面光背后脏!上午讲廉政,下午收回扣!

鲁中晨报
2024-06-27 13:47:06
阿里,全球第一!!!

阿里,全球第一!!!

罗超pro
2024-06-27 20:22:31
不想下台就继续进攻,基辅保卫战不打了,乌军总司令收到反攻命令

不想下台就继续进攻,基辅保卫战不打了,乌军总司令收到反攻命令

强国视角
2024-06-27 15:27:16
欧洲杯安慰奖!出局8队奖金:4队超1000万,乌克兰排第1

欧洲杯安慰奖!出局8队奖金:4队超1000万,乌克兰排第1

叶青足球世界
2024-06-27 14:55:53
被CBA终身禁赛的外援,在中国赚了700万美元,却公然侮辱中国女性

被CBA终身禁赛的外援,在中国赚了700万美元,却公然侮辱中国女性

咖啡店的老板娘
2024-06-26 22:26:23
博主:公募追索薪水这事确认了!假如顶格300万年薪,多发的上缴

博主:公募追索薪水这事确认了!假如顶格300万年薪,多发的上缴

火山诗话
2024-06-27 07:35:17
侄女说:“姑姑,我考上211,你给我5万,考上985,你给我10万”

侄女说:“姑姑,我考上211,你给我5万,考上985,你给我10万”

好笑娱乐君每一天
2024-06-27 01:19:41
接吻的时候,如果男人摸这“三个隐私地方”,说明绝对是情场老手

接吻的时候,如果男人摸这“三个隐私地方”,说明绝对是情场老手

第7情感
2024-06-27 07:46:23
49岁李健喜当爹?孟小蓓半年胖30斤疑怀孕,两人保持距离零交流

49岁李健喜当爹?孟小蓓半年胖30斤疑怀孕,两人保持距离零交流

八卦王者
2024-06-27 15:30:49
一晚输1个亿后,他放弃267亿家产去当和尚:除了钱,我一无所有

一晚输1个亿后,他放弃267亿家产去当和尚:除了钱,我一无所有

寒士之言本尊
2024-06-27 18:04:57
本是杨幂女助理,却因颜值太高被导演相中,与胡歌搭档后一炮而红

本是杨幂女助理,却因颜值太高被导演相中,与胡歌搭档后一炮而红

木子爱娱乐大号
2024-06-27 17:17:21
蔡磊夫妇,“翻车”了,直播镜头后的蔡磊,藏不住了?

蔡磊夫妇,“翻车”了,直播镜头后的蔡磊,藏不住了?

李昕言温度空间
2024-06-05 14:54:34
二十大后首个正部级落马“老虎”受审!

二十大后首个正部级落马“老虎”受审!

政知新媒体
2024-06-27 17:30:18
生意做太大,1800名博士生毕业前7天被劝退学?涉及学费1.6亿元

生意做太大,1800名博士生毕业前7天被劝退学?涉及学费1.6亿元

妮子说美食
2024-06-27 19:55:59
2024-06-27 21:10:44
新智元
新智元
AI产业主平台领航智能+时代
11205文章数 65539关注度
往期回顾 全部

科技要闻

朱啸虎:高度怀疑GPT-5还能不能做出来

头条要闻

李尚福、魏凤和被开除党籍、军籍 取消上将军衔

头条要闻

李尚福、魏凤和被开除党籍、军籍 取消上将军衔

体育要闻

排名只比国足高14位 他们打进欧洲杯16强

娱乐要闻

李雪琴北大学历情况被扒,牵扯多人

财经要闻

争5亿房产、传4P丑闻,百亿大佬又开打了

汽车要闻

32万公里实车直播拆解 极氪凭事实证明实力!

态度原创

房产
游戏
亲子
数码
公开课

房产要闻

大动作来了!丁村城市更新征收补偿方案曝光!

月厨狂喜!《月姬重置版》中文实体版今日发售

亲子要闻

家庭条件不好的萌兰拥有最好饲养员,懂事的么么儿究竟有多幸运?

数码要闻

一加平板Pro正式发布 搭载骁龙8 Gen3 售价2799元起

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版