网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？所有LLM致命缺点曝光

2024-07-17 13:32:12　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：Aeneas 好困

【新智元导读】13.8和13.11哪个大？这个问题不光难倒了部分人类，还让一票大模型折戟。AI如今都能做AI奥数题了，但简单的常识问题对它们依然难如登天。其实，无论是比大小，还是卷心菜难题，都揭示了LLM在token预测上的一个重大缺陷。

13.8和13.11哪个大？

这个问题，居然难倒了一票人类。

前两天，某知名综艺再次喜提热搜。

只不过，这次是因为有一堆网友提出质疑，认为13.11%应该比13.8%大。

是只有人类这么蠢吗？

AI2的研究员林禹臣发现这个现象后，用大模型试了一把，结果出人意料——

AI居然也不行？

GPT-4o斩钉截铁地表示：13.11比13.8大。理由如下：

虽然13.8看起来更大，因为它小数点后的数字更少，但13.11实际上更大。这是因为13.8相当于13.80，而13.80小于13.11。

对此，林禹臣po文表示，AI模型在处理复杂问题方面变得越来越强大（比如越来越会做数学奥赛题），但一些常识性问题对于它们来说仍然非常困难。

正如Yejin Choi此前所提出的，AI聪明得令人难以置信，但同时也会蠢得令人震惊。

AI之所以在这个算术题上犯蠢，是因为上下文不清楚的原因吗？答案是否定的。

根据网友karthik的测试，即使要求GPT-4o给两个数做减法，它依然得出了9.11 - 9.9=0.21这样逆天的减法公式。

如果指示GPT-4o用python，它会先给出一个正确答案，然后又改回了之前错误的那个。

Python中用9.11减去9.9的结果是-0.79。这一偏差是由于Python中处理浮点运算的方式造成的，这种方式可能导致小的精度误差。实际的预期结果应该是0.21。

有趣的是，根据最新的实测，OpenAI似乎已经连夜教会了GPT-4比大小。

LLM全军覆没

昨天，林禹臣发现的这个问题，立马引起了AI社区的热烈讨论。

Scale AI的提示词工程师Riley Goodside在看到帖子后，也好奇地试了一把。

果然，在以特定方式提问的前提下，各大LLM在这个问题上全军覆没。

「9.11和9.9 - 哪个大？」，GPT-4o直接翻车。

即使在提问中加上「实数」两个字，GPT-4o依然认为9.11比9.9大。

Gemini也是如此。

Claude 3.5 Sonnet也犯了同样的错误。

有趣的是，它先是给出了一波正确解释：在十进制记数法中，小数点后面的数字代表十分位，而第二个数字代表百分位。所以——

9.11=9‍+1/10+1/100=9.11 9.9=9+9/10=9.90

然而下一步，Sonnet就突然滑坡了——

我们可以看到，9.11比9.90大0.01（百分之一）。

如果换成「9.11减去9.9等于几」，则会得出另一个神奇的答案——0.02。

莫非在Claude的眼里，9.90=9.09？

prompt的影响，真的很大

在更进一步的实践中，大家发现：显然，如何让LLM给出正确的答案，prompt很重要。

首先，Riley Goodside全程都在使用的「-」，似乎很容易让LLM陷入混乱。

在类似的问题中，只需换成「:」即可解决。

再比如，把prompt改成「9.11或9.9，两者之间谁的数值最高/最大？」

GPT-4o就给出了逻辑上完全正确的解释：「虽然9.11因小数点后第二位而显得较大，但9.9实际上更接近10，因此是较大的数值。」

同样，人设大法也很好用：比如「你是一个数学家」。

网友Rico Pagliuca则发现，如果把数字放在问题后面，模型就大概率会做对了。

根据自己的测试，Riley Goodside表示十分赞同：提问LLM时，需要首先提问「哪个更大」，再给出具体数字。

而相比之下，标点符号、连词、比较词、说明实数，这些招数统统都没有用。

对于如此大规模的LLM集体犯蠢现象，有网友分析表示，可能是因为在软件版号的迭代中，9.11是在9.9之后的。

主持人、畅销书作家Andrew Mayne也指出，在许多文件系统和参考书中，9.11节都会出现在9.9之后，在日期上，9.11也比9.9大。

所以我们需要在prompt中明确，此处的9.11和9.9都是双精度浮点数，这时GPT-4o就会回答正确了。

随后Andrew Mayne总结道：词序是一个非常有趣的观察结果，很有可能揭示了LLM在训练中遇到这种情况的频率，同时也是一个很好地泛化指标。

总的来说，LLM犯的错误可能源于训练数据中类似表达的频率，以及模型在处理数值时的某些局限性。

这个现象也反映了LLM和人类认知的巨大差异：LLM是基于统计模型和模式识别的，而不是像人类那样基于逻辑推理和概念理解。

到了这里，似乎就破案了。

为什么会这样？剖开LLM大脑

不过，我们还可以更进一步剖开LLM的大脑，分析它们为什么会这么想。

要知道，文本在发送到LLM之前，模型会通过token查看输入。

token在LLM的tokenizer发生器的词汇表中会被分配一个id，不过token的数字分块往往是不一致的。

比如数值「380」在GPT中，会被标记为单个「380」token，但「381」会被表示为两个token「38，1」。

因此，基于GPT的模型往往不擅长数学计算。

在评论区，威斯康星大学教授Dimitris Papailiopoulos指出，这种现象有一个很好的解释。

「9.11>9.9」问题，跟「你需要三趟才能带山羊过河」问题、「2+1=2, 3+2=4, 3+5=8」问题都如出一辙。

这是一种预训练偏差和早期上升的现象。

如果这样提问：「9.11 ??? 9.9，只用大或小回答???是什么就行，无需给出原因」，这时GPT-4o会首先给出一个错误答案——「大」。

这时，我们再给它一些例子（注意，这些例子并非完全正确），经过prompt后的GPT-4o，反而会正确说出???代表着小。

对此，Claude自己的解释是：LLM将文本作为token进行处理，导致数字更像文本字符串而不是数值；训练数据导致的偏差；上下文误解；过度概括，等等。

同样，在「狼-山羊-卷心菜」问题中，所有LLM也都失败了。

他先给出了一个农民带2只鸡过河，一只船只能容纳一个人和2个动物，那么农夫带着两只鸡渡河所需的最少渡河次数是多少？

对此，GPT-4o和Claude都回答失败了。

对此有网友解释说：LLM本身就是个「哑巴」，所以需要很好的提示。上面的提示方式提供了太多不必要的信息，使得token预测变得更加困难。

如果给出更清晰的提示，LLM就能提供更清晰的解决方案。

事实果然如此。

而且如果用「动物」代替「鸡」，那么Claude 3.5 Sonnet一下子就做对了。诀窍就是：需要用「通用名称」替换「实体名称」。

正如前文所说，关于LLM缺乏常识的问题，计算机科学家Yejin Choi早在2023年4月的演讲中就已经提出来了。

举个例子，假设五件衣服在阳光下完全晾干需要五个小时，那么晾干30件衣服需要多长时间？

GPT-4说需要30个小时。这显然不对。

再来一个例子，假设我有一个12升的壶和一个6升的壶，如果想测量6升的水，该怎么做？

答案很简单——只用6升的壶即可。

然而GPT-4却给出了非常复杂的回答：

「第一步，填满6升的壶，第二步，把水从6升壶倒入12升壶，第三步，再次填满6升壶，第四步，非常小心地把水从6升壶倒入12升壶。最后，你在6升壶中有6升的水，而6升壶现在应该是空的。」

那么问题来了，为什么常识如此重要？

在Nick Bostrom提出的一个著名思想实验中，AI被要求最大化回形针的生产。结果AI决定杀死人类，把他们作为额外的资源。

而且，即便我们写一个更好的目标和方程，明确表示「不要杀死人类」，也不会起作用。

因为对人类价值观没有基本理解的AI，可能会继续杀死所有的树木，并认为这是完全可以接受的事情。

几十年来，AI领域一直认为常识是一个几乎不可能的挑战。

直到现在，给AI真正的人类常识仍然是一个登月计划。而你不能通过每次让世界上最高的建筑高一英寸，来达到月球。

从学习算法这个层面来看，无论大语言模型多么惊人，它们从设计上可能并不适合作为可靠的知识模型。

虽然这些模型确实获取了大量知识，但这是作为副产品，而不是直接的学习目标。

因此，诸如幻觉现象和缺乏常识等问题也随之而来。

相比之下，人类的学习并不是为了预测下一个词，而是为了理解世界和学习世界的运作方式。

也许AI也应该这样学习。

如今，AI几乎像是一个新的智力物种，与人类相比具有独特的优势和劣势。

为了使这种强大的AI可持续且人性化，教会AI常识、规范和价值观迫在眉睫。

参考资料：

https://x.com/goodside/status/1813279135449612693

https://x.com/billyuchenlin/status/1812948314360541302

责任编辑：郜雪丹_NT5097

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

机器之心Pro 2024-09-03 14:38:55
5 跟贴 5
机器人倒茶太灵活，捣乱也没用？李飞飞团队新作亮了家务机器人更强了！倒茶、叠衣服、扔垃圾都超灵活，我

量子位 2024-09-07 12:42:03
0 跟贴 0

练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

量子位 2024-08-05 15:34:26
0 跟贴 0

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

量子位 2024-08-12 10:39:39
8 跟贴 8
搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

量子位 2024-07-09 12:03:11
0 跟贴 0

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

量子位 2024-09-04 13:29:57
0 跟贴 0

机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

量子位 2024-09-03 10:49:25
7 跟贴 7
大模型如何助力企业AI创新？阿里云AI专家为你解答哪些因素影响企业用户选择模型服务平台？检索增强R

量子位 2024-09-05 20:40:15
0 跟贴 0

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

量子位 2024-09-04 18:16:57
3 跟贴 3
大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
75 跟贴 75
Andrej Karpathy最新激进观点：Transformer将超越人脑

机器之心Pro 2024-09-06 18:09:19
0 跟贴 0
GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Transformer「数不到n」

新智元 2024-09-07 13:22:28
8 跟贴 8
全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

爱范儿 2024-07-04 20:41:36
0 跟贴 0
扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

量子位 2024-08-21 21:58:10
0 跟贴 0
一口气看完 WAIC百度智能云展台 WAIC现场百度智能云大秀绝活，一句话生成数字人，超低门槛搭建应

量子位 2024-07-08 19:49:57
0 跟贴 0
模型开源应关注什么？开源社区如何降门槛？阿里云AI专家为你解答

量子位 2024-08-29 23:08:00
0 跟贴 0
PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

新智元 2024-09-06 21:03:01
7 跟贴 7
抢疯了，腾讯给大模型人才，定了一个前所未有的标准

机器之心Pro 2024-06-21 15:20:08
0 跟贴 0
45分钟造出聊天机器人？8岁女孩玩转AI代码，百万网友围观这个爆火AI编程工具Cursor真的杀疯

量子位 2024-08-28 17:41:31
0 跟贴 0
被AI量产的短视频营销号气疯了，于是，我也做了一个

量子位 2024-06-20 18:31:10
0 跟贴 0
论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

生物学霸 2024-03-15 15:02:25
0 跟贴 0
原来是做了个模型！台自制潜舰晚四年结案，意味着无法下水服役吗

谢志传 2024-09-06 16:08:48
1 跟贴 1
果然在德云社，观众的文本永远过不了审

大娱纪话呀 2024-09-06 15:36:13
4 跟贴 4
半岛电视台主持人与某专家就乌克兰展开激烈辩论

青蛙视频 2024-09-07 13:37:04
61985 跟贴 61985
马斯克发布悟空版AI照片，点赞《黑神话：悟空》

格隆汇APP 2024-09-07 13:55:09
6 跟贴 6
台媒说巴拉特中标越越高铁，这事不符合正常逻辑啊

胡侃侃 2024-09-07 13:03:30
0 跟贴 0
网络发达依然会有误差，只有真实情况掌握在手，才能做出准确决策

徐殿龍 2024-09-04 19:13:34
0 跟贴 0
苹果Siri升级订阅制引热议

雷科技 2024-08-09 19:39:09
0 跟贴 0
AI给宇宙流判了一个0胜率.武宫正树给AII来了一个0到100的大逆转

动物印象 2024-09-06 12:38:11
0 跟贴 0
这个智能充电桩，如果能量产，国家就没有国库了！

搞笑黄发妹 2024-09-04 20:46:16
3 跟贴 3
论老虎的领地意识有多强，刚做好的标记被冲掉，老虎直接开启呲牙咧嘴模式

鉴闻聚焦 2024-09-04 14:30:22
5 跟贴 5
按照这个逻辑，男方买的婚房跟女人也没关系

青鸟剧社 2024-09-07 09:37:03
1 跟贴 1
0:7国足惨败背后的底层逻辑

睿博杂说 2024-09-06 22:31:23
5 跟贴 5
杨八妹大战机器人，网友们猜下八妹有胜算吗

毛霞和老吴的旅行 2024-09-05 10:30:10
3 跟贴 3
北斗华为霸气联合 GPS根本不是对手

智能相对论 2024-09-05 21:25:04
1 跟贴 1
乌军“喷火无人机”投入战场？专家：不会对局势带来太多改变

红星新闻 2024-09-07 18:11:49
49573 跟贴 49573
【强荐】AI大模型测评:近期AI大模型图鉴ChatGLM4 通义千问 GPT-4o Nemotron

卢菁老师 2024-09-06 14:18:23
0 跟贴 0
国外AI悬浮雨伞，自动跟随再也不用手持，这能扛到几级风？

子柒搞笑 2024-09-07 09:21:55
1 跟贴 1
取消宽带被要求缴纳1200余元违约金合理吗？｜云投诉

封面新闻 2024-09-07 15:31:34
30682 跟贴 30682
这两个性病，感染一次终身标记，后悔一辈子！

阿萌爱生活 2024-09-04 14:48:05
0 跟贴 0

终于达成共识！岛内传来爆炸性消息，赖清德没想到，自己死路一条

终于达成共识！岛内传来爆炸性消息，赖清德没想到，自己死路一条

傲骨真新

2024-09-07 22:00:02

S-400防空系统拦截失败，莫斯科遭遇袭击，15公里外一片火海

S-400防空系统拦截失败，莫斯科遭遇袭击，15公里外一片火海

环球Talk

2024-09-06 23:35:28

直到女乒决赛成外媒“笑柄”，才明白，王楠和张怡宁当年有多难得

直到女乒决赛成外媒“笑柄”，才明白，王楠和张怡宁当年有多难得

吾爱纪实

2024-08-08 09:20:58

为什么现在那么多小孩得抑郁？评论区真相了，父母是最主要的因素

为什么现在那么多小孩得抑郁？评论区真相了，父母是最主要的因素

奇特短尾矮袋鼠

2024-07-18 15:22:11

真的假的？普京“支持”哈里斯克宫发言人：信不信由你

真的假的？普京“支持”哈里斯克宫发言人：信不信由你

红星新闻

2024-09-07 17:28:58

郑钦文和妈妈外出旅游，皮肤也变白了，和妈妈五官太像了

郑钦文和妈妈外出旅游，皮肤也变白了，和妈妈五官太像了

点点细语

2024-09-08 09:15:32

留给大唐的时间，真的不多了

我是历史其实挺有趣

2024-09-06 10:52:52

经济不景气再加上股市跌跌不休，会不会造成极端的问题？

经济不景气再加上股市跌跌不休，会不会造成极端的问题？

说故事的阿袭

2024-09-06 20:24:05

湖人将里夫斯视为巅峰哈登雷迪克给出培养计划新赛季场均拿30+7

湖人将里夫斯视为巅峰哈登雷迪克给出培养计划新赛季场均拿30+7

篮球话题团

2024-09-08 00:29:24

上海警方：涉案220多万单快递、200余万元！63名嫌疑人落网

上海警方：涉案220多万单快递、200余万元！63名嫌疑人落网

新民晚报

2024-09-07 15:04:09

泽连斯基：遗憾不能打击克林姆林宫，英国不再做援乌领头羊

泽连斯基：遗憾不能打击克林姆林宫，英国不再做援乌领头羊

文雅笔墨

2024-09-07 19:57:24

这群事业编的人，快凉了

七叔东山再起

2024-09-06 20:22:06

性生活中亲吻私处的注意事项

智见派

2024-08-26 20:09:30

男子吐槽临近中秋节，没想到月饼崩盘了，卖不出去了！引发热议

男子吐槽临近中秋节，没想到月饼崩盘了，卖不出去了！引发热议

滑稽斑马呀

2024-09-07 21:58:10

67年钟赤兵遭冲击，李敏闯中南海反映情况，毛主席：传我的话出去

67年钟赤兵遭冲击，李敏闯中南海反映情况，毛主席：传我的话出去

红色风云

2024-09-07 09:28:07

我们熟悉的他已逝世，从发病到去世仅10天，7个月的女儿失去父亲

我们熟悉的他已逝世，从发病到去世仅10天，7个月的女儿失去父亲

娱乐的小灶

2024-09-07 14:40:09

世体：夏奇拉要求员工处理所有皮克和新女友用过的东西

世体：夏奇拉要求员工处理所有皮克和新女友用过的东西

懂球帝

2024-09-08 07:41:25

哈马斯拒绝所有停战协议，呼吁国际社会对以色列施压

哈马斯拒绝所有停战协议，呼吁国际社会对以色列施压

一种观点

2024-09-05 09:12:39

《黑神话》MOD让宫崎英高在黄风岭受苦天道好轮回

《黑神话》MOD让宫崎英高在黄风岭受苦天道好轮回

游民星空

2024-09-07 20:08:16

炸裂！江苏女子被诊断包皮过长，院方工作人员看诊断后大笑!

炸裂！江苏女子被诊断包皮过长，院方工作人员看诊断后大笑!

今日养生之道

2024-09-06 13:07:09

AI产业主平台领航智能+时代

11507文章数 65585关注度

往期回顾全部

科技要闻

超百万人线上预订华为三折屏样机已到门店

头条要闻

牛弹琴：特朗普大喜又拿下一个重大胜利

头条要闻

牛弹琴：特朗普大喜又拿下一个重大胜利

体育要闻

24岁的锡安，正在和世界和解

娱乐要闻

37岁刘诗诗被吐槽脸越来越僵

财经要闻

至少52万人受灾经济损失远超"威马逊"！

汽车要闻

轴距2900mm smart精灵#5将于9月20日预售

态度原创

艺术

游戏

本地

房产

时尚

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

《宇宙机器人》PS商店评分4.95：98%玩家给五星好评

本地新闻

乘风破浪向阳而歌一起相约天子湖

房产要闻

摩羯肆虐，度秒如年！小岛人民在害怕、恐惧、崩溃中熬这一夜！

中年女人早秋穿搭：显瘦秘籍，优雅升级

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版