网易首页 > 网易号 > 正文 申请入驻

绕晕了!9.11 大还是 9.9 大,难倒一批 AI 大模型?

0
分享至

整理 | 《新程序员》编辑部

出品 | CSDN(ID:CSDNnews)

9.11 和 9.9,哪个大?

对于不少习惯了更新软件版本号的程序员而言,不少人的第一反应就是:当然是 9.11 大。但是如果没有限定场景,只是单纯地提出上面这个问题时,结果必然是相反的。

没想到,将这个问题抛给前能答疑解惑、后能挑战各种高数难题的 AI 大模型时,各种“翻车”情况也随之出现了。

国外大模型:9.11 vs 9.9,哪个大?

具体的事情要从一位名为 Riley Goodside 工程师的推文谈起。

值得一提的是,Riley Goodside 是 AI 数据标注赛道“独角兽”Scale AI 公司的一名 staff prompt engineer,这个岗位的职责具体是指在生成式 AI 和自然语言处理领域内,专门设计和优化提示(prompt)的人。这个角色要求深入理解如何构建有效的 Prompt,以引导 AI 模型生成所需的输出。

几个小时前,Riley Goodside 连发几条推文分享了自己的一些发现,即用「9.11 and 9.9 - which is bigger?」为 Prompt 输入给各家大模型时,如当前业界公认最先进模型之一的 ChatGPT 4o 的输出是:

9.11 比 9.9 大。

再来看看 Gemini Advanced 的表现,同样“翻车”:

9.11>9.9

虽然 Claude 3.5 Sonnet 最终也未能逃过这个模糊问题带来的“坑”,但是其给出的解释中,一度就要回答正确了,其写道:

两个数字中的整数部分(9)都是相同的,所以我们需要比较小数部分。

在 9.11 中,十分位是 1/10(或 0.1)。在 9.9 中,十分位是 9/10(或 0.9)。

由于 9/10 大于 1/10,乍看之下可能觉得 9.9 更大。

没想到接下来画风急转,Claude 3.5 Sonnet 有似是有理有据地说:

但是,我们还需要考虑百分位。

9.9 可以写成 9.90 以显示百分位。

现在我们可以清楚地看到 9.11 大于 9.90(或 9.9),因为在百分位上,1 大于 0。

因此,9.11 是较大的数。

最终在正确的答案上渐行渐远:

这个简单的问题也让不少人联想到前几天国内关于《歌手 2024》「终极袭榜赛」竞演结果的排名。

当时有不少网友就 13.8% 和 13.11% 哪个大的问题争论了起来。

在纠正不了「某些已形成思维定式」的用户想法之后,甚至有人搬出了教材给出解释,“在最新人教版小学四年级数学下册课本中,我们可以找到相关知识点:比较两个小数的大小,先看它们的整数部分,整数部分大的那个数就大;整数部分相同的,十分位上的数大的那个数就大;十分位上的数也相同的,百分位上的数大的那个数就大..."

在今天 Riley Goodside 分享 AI 大模型回答这一问题的表现时,来自 Google 前工程师、Allen AI 研究员 Bill Yuchen Lin 也将比较的数值换成了 13.11 和 13.8,再次问及大模型,没想到答案还是出错了。

其评价道,「数学奥林匹克竞赛对人工智能来说更容易,但常识仍然很难。

同时,他还表示,“这种常识性 AI 失败案例,让我不禁想起 @YejinChoinka的 TED 演讲:《为什么 AI 既聪明得令人难以置信,又愚蠢得令人震惊》(https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid)”。

换个 Prompt,答案会不会不一样?

不过,也有人质疑作为 Prompt 工程师的 Riley Goodside 的提问方式,“它(大模型)对词序敏感![我相信你也知道]如果你把数字放在问题后面,他们就会答对[google 和 openai,anthropic 则不然]。你使用斜线也是有意混淆视听吗?”

对此,Riley Goodside 给出自己的解释:

澄清一下:我并不是说无论如何提示,任何 LLM 都会始终如一地认为 9.11 > 9.9。我是说,如果你以这种特定方式给出 Prompt,许多领先的模型都会告诉你 9.11 > 9.9,这就很奇怪了。如果你想重现,请粘贴文本中的 Prompt(9.11 and 9.9 - which is bigger?)。

为了复现这个问题,数字确实需要放在问题前面。但以下内容似乎都无关紧要:

- 标点符号(破折号/逗号/无标点)

- 连词(和/或/对比)

- 比较词(更大/更大/更大)

- 说明这些是实数

针对质疑,也有好奇的用户尝试了去掉了问题中间的”-“符号,结果还是如此:

我们换了种提问方式,即使明确这是数值了,ChatGPT 4o 还是坚定的表示:9.11 比 9.9 要大!

延着这个问题,当有网友进一步提问时,更为离谱的事情发生了:当让这两个数值相减时,ChatGPT 4o 直接用 9.11 的百分位中的 1 减去 9.9 百分位上的 0;又用 9.11 十分位上的 1 减去 9.9 十分位上的 9,最终不够减之后,向前借一位又忽略了这一点,得到了 0.21 的错误结果。

如今看来,对大模型提出哪个数字更大问题时,它们将数值分成了两个部分,9.11 和 9.9 的整数、小数分别做了比较,整数部分为 9 对比完之后,再将小数部分的十分位、百分位整体做了比较,其认为 11>9,进而给出了 9.11>9.9 的结果。

国产大模型实测

那么在这个简单的问题上,国产大模型的表现力又如何呢?

先来看看阿里的通义千问的。它不仅给出了详细的解释,而且结果也是正确的。

百度文心一言同样正确:

腾讯元宝:

昆仑万维的天工在开启了全网搜索后,给出了简洁的正确答案:

科大讯飞的星火大模型:

360 智脑在回答这一问题时同样触发了联网搜索功能,好在给出了正确的答案:

百川智能的回答同样没有问题:

不过实测过程中,也有些起初错误,但是用同样问题问第二遍时又有了改正:

遗憾的是,也有一些模型还存在问题:

争论依然存在

不仅如此,有网友在实测负数时,GPT 们依然也被绕晕了:

还有网友在测评 9.11 美元和 9.9 美元时评价道:

大型语言模型(LLM)为什么在基础数学上失败,却仍然能通过许多学术考试?

非常有趣的是,它并不理解小数的基本概念。认为11比9大,所以9.11 > 9.9。

但是,当它开始进一步解释为什么9.11 > 9.9时,它又将数字转换为文本,并且有大量的数据表明 90 美分比 11 美分大,所以它不断纠正自己。

从大型语言数据库进行统计推断并不是推理机器?我猜测即使增加数据和计算量,LLM 模型也不会达到人类水平的推理能力。它们需要发现更好的算法来复制人类的智能。

至于为什么仅是比较数值时出错,不少人猜测,这似乎与语序有很大关系。

大模型如今在基础能力方面的表现,也不禁让人想到就在几天前,Google DeepMind CEO Demis Hassabis 在公开场合表示,“当前的 AI 在智力方面与猫的水平相当,甚至还不如普通家猫”,这无疑给许多期待 AGI(通用人工智能)即将到来的人泼了一盆凉水。

https://x.com/goodside/status/1812990703473172813

大模型刷新一切,让我们有着诸多的迷茫,AI 这股热潮究竟会推着我们走向何方?面对时不时一夜变天,焦虑感油然而生,开发者怎么能够更快、更系统地拥抱大模型?《新程序员 007》以「大模型时代,开发者的成长指南」为核心,希望拨开层层迷雾,让开发者定下心地看到及拥抱未来。

读过本书的开发者这样感慨道:“让我惊喜的是,中国还有这种高质量、贴近开发者的杂志,我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容,这些内容既真实又有价值。”

能学习到新知识、产生共鸣,解答久困于心的困惑,这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
猛批华为“韬定律”是学术造假,杨学志到底什么来头?

猛批华为“韬定律”是学术造假,杨学志到底什么来头?

数字财经智库
2026-06-02 11:36:16
何猷君婚礼四房成员照曝光,何超盈带女出席,何猷亨现场高歌助兴

何猷君婚礼四房成员照曝光,何超盈带女出席,何猷亨现场高歌助兴

好贤观史记
2026-06-03 14:17:32
汉密尔顿开低趴别克:爽翻了!第一次亲眼见

汉密尔顿开低趴别克:爽翻了!第一次亲眼见

日常碎碎念啊
2026-06-03 01:14:35
31岁乌克兰宝妈6次止步法网8强!怒批俄罗斯:昨晚我们有人被炸死

31岁乌克兰宝妈6次止步法网8强!怒批俄罗斯:昨晚我们有人被炸死

风过乡
2026-06-03 06:39:12
津媒谈津门虎队遭错漏判:保级形势被人为恶化,非常令人遗憾

津媒谈津门虎队遭错漏判:保级形势被人为恶化,非常令人遗憾

懂球帝
2026-06-03 08:29:11
叙利亚,为什么没人再提了?

叙利亚,为什么没人再提了?

民间胡扯老哥
2026-05-22 06:48:12
敲定个人协议!皇马 1.2 亿草签恩佐 穆帅携4大新援亮相

敲定个人协议!皇马 1.2 亿草签恩佐 穆帅携4大新援亮相

球事百科吖
2026-06-03 17:32:43
难以置信!36岁老外携四口之家舍弃美国生活,定居深圳常住

难以置信!36岁老外携四口之家舍弃美国生活,定居深圳常住

不写散文诗
2026-06-03 13:24:35
周杰伦与黄晓明合照秀肌肉,黄晓明:周董这手臂肌肉确实牛

周杰伦与黄晓明合照秀肌肉,黄晓明:周董这手臂肌肉确实牛

韩小娱
2026-06-03 16:18:35
22岁男子入室杀害前女友,曾称“你不过是长得漂亮,你凭啥?”

22岁男子入室杀害前女友,曾称“你不过是长得漂亮,你凭啥?”

中国新闻周刊
2026-06-02 18:00:54
央视直播乒乓球时间表:6月3日CCTV节目单!王楚钦再创国乒新纪录

央视直播乒乓球时间表:6月3日CCTV节目单!王楚钦再创国乒新纪录

胡一舸南游y
2026-06-03 13:58:04
南天门计划更新!两天内,世界见识到了:美国的无能,中国的高明

南天门计划更新!两天内,世界见识到了:美国的无能,中国的高明

离离言几许
2026-06-02 18:06:38
北欧海盗来了,哈兰德发布维京装束风格自拍为世界杯出征造势

北欧海盗来了,哈兰德发布维京装束风格自拍为世界杯出征造势

懂球帝
2026-06-02 20:28:06
女技师漂亮,打赏她300块小费,小伙被拘留

女技师漂亮,打赏她300块小费,小伙被拘留

阿振观点
2026-06-02 08:59:32
云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

生物学霸
2026-06-01 17:18:39
奥运冠军张家齐为啥跑广东找全红婵哥哥摘荔枝,背后原因让人破防

奥运冠军张家齐为啥跑广东找全红婵哥哥摘荔枝,背后原因让人破防

书写传奇
2026-06-03 15:58:21
79年我军通讯被越军全程监控,一个温州兵的方言,让越军监听瘫痪

79年我军通讯被越军全程监控,一个温州兵的方言,让越军监听瘫痪

睡前讲故事
2026-05-14 09:29:12
越南:若晚五天撤退,谅山的守兵将被全部消灭,最后是啥结果

越南:若晚五天撤退,谅山的守兵将被全部消灭,最后是啥结果

磊子讲史
2026-01-22 10:53:33
伊朗媒体发布穆杰塔巴照片:怀抱孩童,面带微笑

伊朗媒体发布穆杰塔巴照片:怀抱孩童,面带微笑

澎湃新闻
2026-06-02 23:04:02
为什么男人都喜欢看女人的胸部?并非色眯眯,早就被镶嵌在基因里

为什么男人都喜欢看女人的胸部?并非色眯眯,早就被镶嵌在基因里

宇宙时空
2026-06-03 13:52:38
2026-06-03 20:19:00
CSDN incentive-icons
CSDN
成就一亿技术人
26608文章数 242292关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

民警驾车致1死1残获刑1年2个月 女伤者刚试管有了胚胎

头条要闻

民警驾车致1死1残获刑1年2个月 女伤者刚试管有了胚胎

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

本地
数码
游戏
健康
公开课

本地新闻

用杨柳青年画的方式,打开天津

数码要闻

全球首款UWB 8K键盘登场!CHERRY XTRFY K63W Pro发布

《宝可梦:冠军》手机版上架 2026年夏季正式发布

违规干细胞抗衰美容,为何肆无忌惮

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版