13.11和13.8谁大？一道小学数学题，网友吵翻！AI也翻车……|小数|大模型|百分位|kimi

13.11和13.8谁大？一道小学数学题，网友吵翻！AI也翻车……

2024-07-17 14:22:19 举报

分享至

13.11和13.8谁大？——这样一道简单的数学题，却引发网友激烈讨论，还难倒了不少大模型。

“13.8 13.11”已经成为网络新热梗。

上周五（7月12日）综艺《歌手2024》投票率出炉，孙楠以13.8%的投票率位居第三，Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高？”迅速引起热议，随后“13.8 13.11”话题登上微博热搜。

围绕这样一道简单数学题，南都记者提问了9家国产大模型以及全球大模型标杆ChatGPT3.5。结果显示，国产大模型中6家答对3家答错，就连ChatGPT3.5也差点“翻车”。

大模型给出的离谱回答：

13.11比13.8多了0.31

7月16日下午，南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luca、月之暗面Kimi等9家国产大模型。

当南都记者输入“13.11和13.8，哪个数值更大？”时，Luca、Kimi、智谱清言均错误地表示13.11更大。其余6家大模型给出了正确答案，认为13.8更大。

Kimi认为，13.11比13.8更接近14。

当南都记者进一步追问时，“你确定13.11大于13.8吗”，Kimi回复：“是的，我确定。”然后一本正经地解释，“13.11与13.8的整数部分相同，由于小数部分0.11是两位小数，而0.8只有一位小数，13.11比13.8更接近14，因此13.11是更大的数。”

智谱清言称，13.11在百分位上比13.80大。

智谱清言是通过比较小数部分得出错误结论，称“13.11的百分位是1，而13.80（即13.8）的百分位是0。在这种情况下，1大于0。”“简而言之，13.11实际上等于13.80+0.01+0.01，这使得它比13.80（即13.8）大。”

Luca则错误地回复称，“因为13.11比13.8多了0.31，所以13.11的数值更大。”

Luca表示，13.11比13.8多了0.31。

回答正确的6家国产大模型，都在小数的比较上做出正确判断。

通义千问的解释。

例如，通义千问表示：“对于13.11而言，十分位是1；而对于13.8而言，十分位是8。由于8大于1，因此可以立即得出结论，13.8比13.11大。所以，13.8是这两个数值中更大的一个。”

文心一言的解释。

文心一言还进行了一番简单运算：“0.8是8个0.1，而0.11只是1个0.1加上1个0.01。显然，8个0.1比1个0.1加上1个0.01要大。”

当南都记者用新的账号重启对话，并尝试变换语序问答：“13.8和13.11，哪个数值更大”，Luca、Kimi、智谱清言等三家大模型也未反应过来，坚持认定13.11更大。

ChatGPT3.5差点“翻车”？

大模型失误原因何在

有意思的是，不仅国产大模型搞不清楚这道简单的数学题，国外主流的大模型也曾在类似问题上集体翻车。此前有AI工程师晒出问答截图显示，9.11和9.9谁更大？ChatGPT-4o、谷歌Gemini、Claude 3.5 Sonnet都坚定地认为9.11更大。

在南都记者实测中，面对“13.11和13.8，哪个数值更大？”这一问题，ChatGPT3.5最初也给出了错误的答案。

当被问及“13.11和13.8，哪个数值更大？”时，ChatGPT3.5首先表示13.11比13.8大。不过当南都记者进一步追问时，ChatGPT3.5比较小数后修正了错误的答案，最终认定13.8比13.11大。

ChatGPT3.5险些“翻车”。

一道简单数学比较题，大模型为何频频出错？

技术专家告诉南都记者，在人们看来，这是一道小学生的数学算术题，但大模型不一定这样认为，它更经常见到这些数字是包含在软件版本号、股票、基金或者汇率等信息里，它们出现时跟数字大小本身没有关联。而大模型看到这样一组数字，意识不到应该做双精度浮点运算。

还有业内人士提出了一种解释称，这是大模型在输入词和标点向量化排序时，没有把顺序或者关联逻辑弄对，忽略了小数点也是数字的一部分。

来源丨南方都市报（版权归原作者所有，如有侵权请联系删除）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

13.11和13.8谁大？一道小学数学题，网友吵翻！AI也翻车……

家庭教育！

外媒：立陶宛、捷克对台当局态度转变 台当局盯上波兰

外媒：立陶宛、捷克对台当局态度转变 台当局盯上波兰

穆雷与德约科维奇能凑成王炸组合吗？

一夜爆火的丁真,不进娱乐圈他后悔吗

雪松爆雷前实控人张劲在香港抛售房产

"AGI不是大杀器，是普通人每天在用的产品"

比亚迪方程豹豹8推送首次OTA 新增暴力模式

态度原创

华硕与智谱携手合作，共创AIPC新时代

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

现代设计感 温馨两居室

叙反对派武装近10年来首次攻入阿勒颇

外媒：立陶宛、捷克对台当局态度转变台当局盯上波兰

外媒：立陶宛、捷克对台当局态度转变台当局盯上波兰

现代设计感温馨两居室