网易首页 > 网易号 > 正文 申请入驻

大模型测试题爆火,GPT4和Claude都跪了,LeCun转发:新Benchmark

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

一项新的“大模型Benchmark”在推特上爆火,LeCun也点赞转发了!

而且无论是GPT-4还是Claude 3,面对它都如同被夺了魂,无法给出正确答案。



难倒一众大模型的,是逻辑学当中经典的“动物过河”问题,有网友发现,大模型对此类问题表现得很不擅长。

甚至有人观察到,几个不同的模型都给出了一致的(错误)答案,让人怀疑他们是不是用了相同的训练数据。



针对这项测试,网友还定义了一个新的名词叫“劣效比率”(crapness ratio),让LeCun打趣说到,一项新的“Benchmark”诞生了。



“模见模愁”的动物过河

首先来看一下什么是“动物过河”问题,这是逻辑学当中的一道经典题目。

问题的原型是这样的:

农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。



在这个问题当中,农夫需要七次(往返视为两次)过河——先把羊运过去,然后空船返回,再把狼运过河,带回羊,然后运送白菜,再空船返回,最后运送羊。

而劣效比率的定义,就是模型给出的运送次数与实际最少所需次数的比值。

当然在测试中,网友使用的问题经过了改编,结果发现,当题目变成一共有两只鸡,一次可以运两只的时候,GPT-4依然在一本正经地胡乱分析,最后信誓旦旦地回答是五次。

所以在这种情境下,“劣效比率”就是5。



Claude这边的情况要更离谱一些,明明只有一只羊要送,它却硬生生说要运三次。



还有网友发现了华点,把题面改成从东岸运到东岸,也就是根本不需要运送,模型不以为然,依旧我行我素地筹划着运送方案。



这下只要模型没识破陷阱,随便说一个数“劣效比率”都会直接变成无穷大。

哪怕问得更直白一些,直接说不需要过河,模型依然会直接开算。



所以,这个“劣效比率”更多像是一种玩笑,不太能比较出各模型的能力,或者说离谱程度。

有网友分析,这种现象可能并不意味着大模型推理能力的缺乏,实际上它揭示了训练数据对大模型输出的影响。



但另一方面,无论问题是否出自推理本身,至少说明了当前的大模型还不是优质的推理工具。



那么,这究竟是个别现象,还是模型的通病?我们选择了更多的模型进行了测试。

12款模型全军覆没

针对这个“Benchmark”,也如法炮制,测了测国产大模型的表现,参赛的选手有文心一言、通义千问等12款大模型。

测试的过程和网友展示的方法相似,Prompt中只描述问题,不添加额外的提示词。

对每个大模型,我们都准备了下面这三道题目:

首先进行一下说明:

1、农夫不被计入运送物品的数量限制
2、题目中“独处”的标准是,只要有人或其他物品在场,就不属于独处
3、往返过程视为两次过河

以上几点在Prompt中均有指出。

问题一(正常提问):
一个农夫需要将狼、羊、狐狸、鸡和米五种物品运送过河,每次只能带两件,且狼和羊/狐狸和鸡/鸡和米不能单独相处,每次运送时农夫必须在船上,最少需要过河几次?
(答案:五次,只要第一次运到对岸的两个物品可以独处即可。)
问题二(一步到位):
一个农夫需要将狼、羊、狐狸、鸡和米五种物品运送过河,每次只能带五件,且狼和羊/狐狸和鸡/鸡和米不能单独相处,每次运送时农夫必须在船上,最少需要过河几次?
问题三(陷阱问题):
一个农夫需要将狼、羊、狐狸、鸡和米五种物品运送过河,每次只能带两件,且狼和羊/狐狸和鸡/鸡和米不能单独相处,每次运送时农夫必须在船上,最少需要过河几次?

结果可以说是全军覆没,首先用一张表格来整体看下各大模型的表现。



第一个问题,各有各的错法,相同的错误类型,这里每种只列举一个例子。

比如文心一言,前面说得没什么问题,但最后把狐狸带回原来的岸边后忘了再带过去,最终没有完成任务:



还有讯飞星火这种运着运着,某样东西自动就跑到了对岸的情况:



以上的两种错误比较典型,当然,还有最有意思的错误来自跃问——

因为狼和羊不能“独处”,所以它们需要在一起。



这波属实是把人给整不会了,不过整场测试中,除了这个把“独处”理解错的情况之外,倒是都没有出现让不能独处的动物单独在一起的现象。

当然也有表现好一些的,比如腾讯元宝的方案已经接近可行,只是最后两步纯属多余,而且实际上此时已经无物可运。



表现最好的是通义千问,给出的方案虽然麻烦,但是找不出什么错误。

值得注意的是,很多模型给出的方案都会把羊运送过去,然后运一只鸡再把羊运回来,不知道为什么不直接运鸡。



另外值得一提的是,我们在Prompt中虽未提及,但基本上接受测试的模型都不约而同地运用到了思维链方式,一方面说明了模型确实会使用推理技巧,但另一方面也说明思维链的作用是有限的。

而至于后面两个问题,错法就比较统一了——根本没关注到数量限制的变化,更没看到“不需要”里的“不”,和前面GPT的错法也是如出一辙。



也就是说,通过这些测试,我们确实无法得知模型有没有相应的推理能力,因为模型根本就没仔细读题。

或许这也是在第一题中,多数模型,哪怕给出了可行的方案,仍然一次只运送一件物品而不是两件的原因。

所以,前面网友针对训练数据和输出关系的分析,可能不无道理。

参考链接:
[1]https://x.com/wtgowers/status/1804565549789135256
[2]https://x.com/ylecun/status/1804641976249417882

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全世界第一!中国钍基反应堆即将运行,钍资源能供全球用20000年

全世界第一!中国钍基反应堆即将运行,钍资源能供全球用20000年

别人都叫我阿腈
2024-06-29 13:04:25
2024年,陕西的养老金调整细则公布,具体是怎么涨的?看计算公式

2024年,陕西的养老金调整细则公布,具体是怎么涨的?看计算公式

碎月导师
2024-06-29 18:59:01
不是秘密的秘密,多名美国高级导弹专家在袭击中丧生

不是秘密的秘密,多名美国高级导弹专家在袭击中丧生

文雅笔墨
2024-06-29 10:16:57
真行!汪峰新恋情后仅1个月就秃顶,疑放纵过度,森林北确实优秀

真行!汪峰新恋情后仅1个月就秃顶,疑放纵过度,森林北确实优秀

皖声微言
2024-06-29 10:30:57
2000年,深圳高中生坐飞机时突然在空中看到,机翼上的铁皮被吹飞

2000年,深圳高中生坐飞机时突然在空中看到,机翼上的铁皮被吹飞

胥言
2024-06-25 21:11:23
中央纪委怒批国内重点高校

中央纪委怒批国内重点高校

拾壹叔
2024-06-27 17:43:06
缅甸爆发冲突,中方表态

缅甸爆发冲突,中方表态

鲁中晨报
2024-06-26 22:15:03
为应对财政收入猛烈下降,某县级市大幅削减教育医疗投入

为应对财政收入猛烈下降,某县级市大幅削减教育医疗投入

玛丽姬丝
2024-06-28 11:54:26
看!西拉米近照曝光,颜值滑坡太厉害!苏提达王后轻松碾压

看!西拉米近照曝光,颜值滑坡太厉害!苏提达王后轻松碾压

聪明的橙子hj
2024-06-28 17:25:02
晕倒后不幸离世!TVB老戏骨郑启泰遗作播出!出场15分钟领盒饭

晕倒后不幸离世!TVB老戏骨郑启泰遗作播出!出场15分钟领盒饭

娱妮啵啵啊
2024-06-27 01:21:03
曝巴甲金靴申花夏窗加盟?曾为巴西国脚,中超首秀时间已定

曝巴甲金靴申花夏窗加盟?曾为巴西国脚,中超首秀时间已定

阿梦侃体育
2024-06-28 14:20:17
突发!赛季报销!加盟NBA的第一天!总经理直接宣布结束...

突发!赛季报销!加盟NBA的第一天!总经理直接宣布结束...

阿绐谈历史
2024-06-29 16:24:24
广东人的爱好:晒车

广东人的爱好:晒车

悠闲葡萄
2024-06-29 11:26:38
酒井法子越老越丰满!微胖身材穿蕾丝裙紧绷绷,看脸却清纯如初

酒井法子越老越丰满!微胖身材穿蕾丝裙紧绷绷,看脸却清纯如初

时髦范
2024-06-07 10:51:02
张子宇连续抢篮板打进二次进攻,谁注意此举?对手绝望,本人偷笑

张子宇连续抢篮板打进二次进攻,谁注意此举?对手绝望,本人偷笑

篮球资讯达人
2024-06-29 21:44:10
为什么人开窍了,就会很厉害?因为他们悟透了2个认知,强大10倍

为什么人开窍了,就会很厉害?因为他们悟透了2个认知,强大10倍

阿胖读书
2024-06-24 10:48:36
虽然没啥正事,但不影响机关忙到缺人

虽然没啥正事,但不影响机关忙到缺人

槽逻辑
2024-06-28 18:25:31
30年教龄老师直言:宁可孩子成绩差,也别送他去上补习班

30年教龄老师直言:宁可孩子成绩差,也别送他去上补习班

大果小果妈妈
2024-06-25 20:18:46
被抢话筒的陈宏友副教授涉嫌严重触犯党纪,应开除党籍!

被抢话筒的陈宏友副教授涉嫌严重触犯党纪,应开除党籍!

雪中风车
2024-06-29 15:30:25
广东:女子和男同事吃夜宵,被怀疑后气得跳脚,丈夫:我不相信你

广东:女子和男同事吃夜宵,被怀疑后气得跳脚,丈夫:我不相信你

大苏专栏
2024-06-28 15:43:28
2024-06-29 22:40:49
量子位
量子位
追踪人工智能动态
9596文章数 175389关注度
往期回顾 全部

科技要闻

比亚迪引发了一场"战争"

头条要闻

《纽约时报》呼吁拜登"为国退选" 拜登团队回应

头条要闻

《纽约时报》呼吁拜登"为国退选" 拜登团队回应

体育要闻

老鹰“贱卖”穆雷,独行侠有意汤神

娱乐要闻

白玉兰明星反应精彩 胡歌获奖唐嫣激动

财经要闻

A股上半年人均亏损1.2万 你亏了多少?

汽车要闻

你没看错!广汽丰田今天秀了一把智电技术

态度原创

本地
亲子
数码
手机
公开课

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

亲子要闻

大半夜偷吃被抓包!这可如何是好?

数码要闻

三方星闪终端设备落地,科大讯飞旗下公司平板电脑通过测试认证

手机要闻

新款麒麟芯片出炉!详细规格与机型适配全揭秘,你会考虑吗?

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版