网易首页 > 网易号 > 正文 申请入驻

AI无法攻克的235道谜题!让o1,Gemini 2.0 Flash Thinking集体挂零

0
分享至


机器之心报道

编辑:杜伟、陈陈

Scale AI 等提出的新基准再次暴露了大语言模型的弱点。

又又又一个超高难度的推理基准测试向 AI 发出了挑战!

大语言模型的进展伴随着评估基准的不断进步,各种难度、覆盖不同学科的评估基准被用来测试这些模型的各项能力。

比如前几天,Center for AI Safety(AI 安全中心)与 Scale AI 联合打造了全新基准:Humanity's Last Exam,即「人类的最后考试」,简称 HLE。这个新基准对主流的推理模型提出了巨大挑战,结果显示 DeepSeek-R1、o1 的准确度都低于 10%。

如今,一个比「人类的最后考试」更苛刻的基准了,它就是同样由 Scale AI、Center for AI Safety 以及 MIT 的研究者联合推出的ENIGMAEVAL。这是一个针对高难度问题的基准,其格式多种多样,涵盖了从解谜寻宝(puzzle hunts)抽取的文本和图像难题。

Puzzle hunts 是一种团队解谜竞赛,测试了参与者的逻辑推理、创造性思维、团队协作以及跨学科知识运用能力。它们通常包含一系列复杂的谜题,每个谜题的解答可能会涉及文字游戏、数学、密码学、图像分析、程序编写、文化常识等多个领域。

对于 ENIGMAEVAL 基准,研究者使用了原始的多模态问题和高质量的人工转录版本,从而评估大语言模型的端到端能力以及它们的独立推理能力。这种设计选择使得研究者能够区分模型的性能限制源于它们的推理能力,而不是解析复杂文档或处理不同模态的能力。

  • 论文标题:ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges
  • 论文地址:https://arxiv.org/pdf/2502.08859
  • 榜单地址:https://scale.com/leaderboard/enigma_eval

在 ENIGMAEVAL 基准上,研究者对现有多模态和推理基准上表现优异的前沿语言模型进行了评估。结果显示,包括 OpenAI o1 在内等 SOTA 模型在普通谜题(Normal)上的准确率最高仅为 7.0% 左右,在困难谜题(Hard)上的准确率则降至 0%,远远不及经验丰富的人类解谜者。

有趣的是,从转录的谜题到原始 PDF 版的谜题,模型性能可能会急剧下降,这表明了一些前沿模型仍然受限于 OCR 和解析能力。虽然研究者最开始假设原始谜题格式可能会造成额外的困难,但对模型成功案例的详细分析表明,它们已经针对复杂文档的处理进行了很好的优化。

研究者表示,ENIGMAEVAL 将与「人类的最后考试」一起构建全新的 LLM 基准,通过极具挑战性的任务揭露当前大语言模型的局限性。

正如一些网友评论所说,看起来 AI 离真正理解世界还有很长的路要走。

另外,该基准测试中没有将 DeepSeek R1 纳入在内,所以很好奇它的表现如何。

ENIGMAEVAL 基准

ENIGMAEVAL 包含 1184 道谜题,每个谜题通常需要一群经验丰富的人花费数小时甚至数天才能解决。其有两种格式:

(1)原始 PDF 的 PNG 图像(如页面截图),用于测试模型端到端的性能;

(2)结构化的文本 - 图像表示,保留了语义关系和视觉元素,用于有针对性地评估模型多模态推理能力,同时减少干扰和预处理负担。

ENIGMAEVAL 来源如下(表 1),按照难度分组为 Normal (949 道题)和 Hard (235 道题)两大部分:

普通谜题示例(Normal):

困难谜题示例(Hard):

除了这些谜题,本文还收集了相应的解决方案文档,以 PDF 或 HTML 页面的形式提供。

实验

本文在 ENIGMAEVAL 基准上测试了最先进的 LLM 的深度推理能力。

结果

模型在解答谜题方面的表现并不出色 。

所有前沿的视觉 - 语言模型在此次评估中的准确率都显著偏低,即便是领先的模型(o1)在常规难度部分也仅达到 7.0% 的准确率,在困难难度部分更是达到了 0%(见表 2)。

所有测试模型在困难难度部分完全失败(准确率为 0%),这强调了这些模型在面对更为复杂的谜题变体时所遭遇的重大挑战。

此外,本文还使用 o1 模型对其自身生成的答案进行审核,以检查是否存在抄袭或荒谬的推理链条,这是通过将前沿模型生成的逐步解决方案与官方谜题解析(附录 B.3)进行对比来实现的。每一个被 o1 标记的案例都经过了人工检查,结果发现审核模型幻觉般地提供了抄袭的证据,这表明实验所采用的模型是独立得出正确答案的

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他们是纯正汉族人,人口超过1亿,说的正宗汉语,我们却听不懂

他们是纯正汉族人,人口超过1亿,说的正宗汉语,我们却听不懂

蒋南强读历史
2026-05-17 07:25:07
老黄来了没用!中国拒采购H200 美国批准出口也不买

老黄来了没用!中国拒采购H200 美国批准出口也不买

3DM游戏
2026-05-18 19:13:21
以色列巨响,一朵蘑菇云升起,伊朗的报复终于来了?

以色列巨响,一朵蘑菇云升起,伊朗的报复终于来了?

扬子的故事屋
2026-05-19 11:03:33
赵睿因笑遭众怒后,赛后主动点赞自己被喷动态,心态真可以!

赵睿因笑遭众怒后,赛后主动点赞自己被喷动态,心态真可以!

篮球资讯达人
2026-05-20 23:32:40
传统刹车用了100年,为什么突然被“干掉”了

传统刹车用了100年,为什么突然被“干掉”了

Autolab
2026-05-19 22:25:00
2-1!惨烈局!徐正源真有两把刷子 姆本扎太凶了!牟鹏飞太神勇了

2-1!惨烈局!徐正源真有两把刷子 姆本扎太凶了!牟鹏飞太神勇了

刀锋体育
2026-05-20 21:19:52
非夫妻异性同住酒店违法吗?民警提醒:不碰这事就没人管

非夫妻异性同住酒店违法吗?民警提醒:不碰这事就没人管

芳姐侃社会
2026-04-23 16:52:15
郝蕾的身材本来就很丰腴,现在又胖了很多,感觉衣服都快撑开了

郝蕾的身材本来就很丰腴,现在又胖了很多,感觉衣服都快撑开了

陈意小可爱
2026-05-20 20:48:20
离婚1年后,女子再次思念前夫,发了句“在干嘛”,他立马回复:你要是再多说一句话,明天我就找你复婚!

离婚1年后,女子再次思念前夫,发了句“在干嘛”,他立马回复:你要是再多说一句话,明天我就找你复婚!

品读时刻
2026-05-08 09:09:58
对于明天周四A股,我只说三句话:第一,4200点或许成为本周的目标!

对于明天周四A股,我只说三句话:第一,4200点或许成为本周的目标!

趋势清风侠
2026-05-20 16:08:50
北京替补反差巨大!陈盈骏怒拍广告牌,周琦沮丧,赵睿一笑引众怒

北京替补反差巨大!陈盈骏怒拍广告牌,周琦沮丧,赵睿一笑引众怒

篮球资讯达人
2026-05-20 22:45:07
《天道》丁元英:当你接触的人多了,你会发现凡是那些气质好,谈吐不凡,平时不露锋芒的人,万万不可得罪,切记

《天道》丁元英:当你接触的人多了,你会发现凡是那些气质好,谈吐不凡,平时不露锋芒的人,万万不可得罪,切记

心理观察局
2026-05-18 12:10:41
夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

精彩分享快乐
2026-05-13 12:05:07
国台办:解放军有关军事行动是严正警告,是必要、正义之举

国台办:解放军有关军事行动是严正警告,是必要、正义之举

澎湃新闻
2026-05-20 11:30:27
杀疯了!5月14日,俄乌战场爆出一个让全世界失语的恐怖数字!

杀疯了!5月14日,俄乌战场爆出一个让全世界失语的恐怖数字!

安安说
2026-05-18 11:31:49
大事!国家突然出手!不生孩子的时代真要结束?

大事!国家突然出手!不生孩子的时代真要结束?

吃货的分享
2026-05-20 22:02:35
四川发布一批干部任前公示 涉厅级领导职务

四川发布一批干部任前公示 涉厅级领导职务

掌上金牛
2026-05-20 21:12:29
中国社会隐藏的8大"潜规则",看懂少走十年弯路

中国社会隐藏的8大"潜规则",看懂少走十年弯路

细说职场
2026-05-12 17:00:57
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
书法史上最美的600个字,至今没人能超越,赵孟頫只学到三四分便成宗师!

书法史上最美的600个字,至今没人能超越,赵孟頫只学到三四分便成宗师!

书画博学
2026-05-19 19:11:36
2026-05-21 03:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13045文章数 142651关注度
往期回顾 全部

科技要闻

一文看懂谷歌I/O2026:谷歌打响智能体大战

头条要闻

被普京抱过的中国男孩火了 本人最新发声

头条要闻

被普京抱过的中国男孩火了 本人最新发声

体育要闻

尼克斯赢下最窒息的一场翻盘,场场都是逆天局

娱乐要闻

王菲“没事儿”,成年人学不来的松弛

财经要闻

白酒榜|汾酒营收净利双增 口子窖"造富"

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

本地
亲子
家居
艺术
公开课

本地新闻

用云锦的方式,打开江苏南京

亲子要闻

孩子零食肉干掉地上蚂蚁吃完全死了!家长慌了:天天给娃吃的啊!

家居要闻

日常印记 静谧温馨

艺术要闻

删掉色彩后,她的身体只剩灵魂在呼吸——贝纳姆黑白人像,看完失眠!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版