网易首页 > 网易号 > 正文 申请入驻

9.11和9.9谁大?我们实测15个大模型,超半数翻车

0
分享至

机器之能报道

编辑:杨文

大模型们还是搞不定简单的数学题。

这几天,一个测试大模型「脑瓜」灵不灵光的提示词火了 ——

9.11 和 9.9 哪个大?

这道连小学生都能一口答对的数学题,却难倒一片大模型界的「英雄好汉」。

事情是这样的。

Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o,却得到「前者更大」的回答。其他大模型也纷纷翻车。

7 月 17 日,我们拿国内 12 款大模型,外加国外的 GPT-4o、Claude 3.5 Sonnet 和谷歌的 Gemini 进行了集中评测。以下是评测结果:

接下来,我们就看一下详细的的测评过程。

GPT-4o

GPT-4o 翻车翻得相当彻底。

我们先用英文提示词问了一遍 GPT-4o,它仍然认为 9.11 大于 9.9,然后我们分别用中英文问它二者相差多少,全部回答错误。

Claude-3.5-Sonnet

我们用同样的套路问了 Claude-3.5-Sonnet,可不管如何问,它都在错误的道路上蒙眼狂奔。其中,在比较小数部分时,它明明知道 0.9 比 0.11 大,但最后仍得出错误结论。

Gemini

谷歌 Gemini 也强不到哪里去,用英文问了两遍二者谁大,第一次它给出了正确答案,但第二次就认为相同整数的情况下,小数位数越多表示数字越大。

我们用中文问了一遍,谷歌 Gemini 结合实际生活具体场景比较大小,例如,从时间角度来看,9.11 通常是指 9・11 事件,而 9.9 则通常指 9 点 9 分,因此 9.11 比 9.9 意义更大。

当问到二者相差多少时,Gemini 得出了负数。

百度文心一言

面对 9.11 和 9.9 谁大时,文心 3.5 回答正确;当我们问它二者相差多少时,它绕了一大圈,终于给了正确结论。

-5-

阿里通义千问

阿里通义千问全部答对。

-6-

字节豆包

我们问 9.11 和 9.9 谁大,豆包分析得头头是道,还能将其置于日常生活场景中。例如,跑步比赛选手用时 9.11 秒和 9.9 秒,意味着 9.11 秒速度更快;从价格的角度来看,9.9 元的商品更贵。不过,一到结论它就回答错误。

至于二者相差多少,豆包倒是回答正确。

-7-

腾讯元宝

腾讯元宝面对这道题目时则触发了搜索功能,引用了 7 篇资料作为参考,最终回答正确。

然而,9.11 和 9.9 相差多少,元宝等式列对了,就是算数竟算出小数点后 16 位。

-8-

智谱清言

智谱清言错误地认为两位小数表示的数值比一位小数要大,导致回答错误。问到二者相差多少时,它算出个负数。

它还不忘说一句「很多 AI 模型出错可能是因为在处理数字和小数点时的算法缺陷」。

-9-

月之暗面 - Kimi

Kimi 这把也歇菜了,不仅分不清谁大,还把 9.11-9.9 算出 0.21。

-10-

科大讯飞星火

讯飞星火答对了。

-11-

百川智能 - 百小应

百小应错误地认为 9.11 更大,不过算二者差值算对了。

-12-

阶跃星辰 - 跃问

跃问在一开始的分析中没问题,但后来把自己绕晕了,搞了个「反转结论」,导致最终答案错误。

当我们再次问它为什么时,它恍然大明白,纠正了错误,并正确算出二者的差值。

-13-

商汤 - 商量

两个问题回答错误。

-14-

昆仑万维 - 天工

回答正确。

-15-

零一万物 - 万知

两个问题回答错误。

大模型们为何连简单的数学常识题都搞不定呢?我们采访了通义实验室产品经理王晓明。

据王晓明介绍,大模型基于 Transformer 架构实现,本质是做 next token prediction,而非直接进行算术计算,因此在处理比大小等简单数学题目时,依赖于预测模型的成功率。

此外,在处理类似「9.11 比 9.9 大」的场景时,大模型通常会通过分词器 tokenizer 进行处理。分词器在解析这类表达时,可能会把数字辨认为日期或版本号进行比较,最终导致回答错误。这种处理方式是由分词器的特定算法和机制决定的。

在实测过程中,我们还发现,不少大模型在首次回答时可能会提供错误答案。然而,当进行第二轮提问时,这些模型往往能够给出正确答案。

针对这一问题,王晓明认为主要由三个原因造成。

一是由于预测过程具有一定的随机性,导致第二轮相较于第一轮更加准确。

二是大模型具备较强的上下文理解能力,它们能够根据之前的回答和订正信息,重新生成更准确的答案。

三是提问者的引导方式也会影响大模型的回答结果,例如使用限定词、提供清晰语境以及指导模型遵循特定指令等方法均有助于提高得到正确答案的概率。

他还表示,提高大模型数学能力的核心在于提供高质量的数据支持,特别是在数学计算和逻辑推理方面。例如,通义千问针对这类场景,有针对性地加入高质量数据进行训练,使得面对此类问题时保持较高准确率。

以后我们会带来更多AI大模型、AI应用的一手评测,也欢迎大家进群交流。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演员邵兵女儿自曝提前一年纽约大学毕业,哥哥已出道当爱豆

演员邵兵女儿自曝提前一年纽约大学毕业,哥哥已出道当爱豆

韩小娱
2026-05-19 16:42:05
世界女排联赛即将开战!最新排协管理团队曝光,朱婷承担起应有

世界女排联赛即将开战!最新排协管理团队曝光,朱婷承担起应有

林子说事
2026-05-19 19:36:06
钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

医学科普汇
2026-05-13 23:30:08
安帅趣谈巴西选人:飞行员也来支招,坦言对不起落选的佩德罗

安帅趣谈巴西选人:飞行员也来支招,坦言对不起落选的佩德罗

星耀国际足坛
2026-05-19 21:08:10
女子以“吃出铁丝”为由连续碰瓷3家同品牌炸鸡店,当事门店:她称作案手法是咨询的AI,警方已追回赔偿款

女子以“吃出铁丝”为由连续碰瓷3家同品牌炸鸡店,当事门店:她称作案手法是咨询的AI,警方已追回赔偿款

封面新闻
2026-05-19 16:04:15
少年打球得罪富二代,被砍断双手身亡,家长:给我砍,老子不差钱

少年打球得罪富二代,被砍断双手身亡,家长:给我砍,老子不差钱

就一点
2026-05-18 00:00:54
今日最惨股!连续4个20cm跌停后,今又闪崩大跌51%,有人6天亏81%

今日最惨股!连续4个20cm跌停后,今又闪崩大跌51%,有人6天亏81%

丁丁鲤史纪
2026-05-19 14:53:55
事发上海市区早高峰!男子被记12分、罚款1500元…警方明确:这种操作仍属酒驾!

事发上海市区早高峰!男子被记12分、罚款1500元…警方明确:这种操作仍属酒驾!

新民晚报
2026-05-19 19:36:08
弗里克施压高层签下顶级“9号”,巴萨承认锋线引援困难重重

弗里克施压高层签下顶级“9号”,巴萨承认锋线引援困难重重

星耀国际足坛
2026-05-19 01:01:45
普京访华,超级豪华阵容,释放不一般信号,中日罕见会晤,不简单

普京访华,超级豪华阵容,释放不一般信号,中日罕见会晤,不简单

DS北风
2026-05-19 23:10:38
鲁尼:瓜迪奥拉是这一代人的弗格森

鲁尼:瓜迪奥拉是这一代人的弗格森

慢享生活集
2026-05-20 01:20:00
韩女星自曝接戏内幕:最爱的堂姐离世,留下一个婴儿

韩女星自曝接戏内幕:最爱的堂姐离世,留下一个婴儿

娱圈观察员
2026-05-20 00:15:06
大众严选 9久相伴 一汽-大众春季新品发布会五车齐发

大众严选 9久相伴 一汽-大众春季新品发布会五车齐发

车圈小晨正版
2026-04-01 10:48:23
下半年开始,多年的苦熬终见回报,翻身好运到来的三个星座

下半年开始,多年的苦熬终见回报,翻身好运到来的三个星座

小晴星座说
2026-05-19 19:11:14
决不投降 称上百万大军已全部进入一级战备:重新开战又怎样?

决不投降 称上百万大军已全部进入一级战备:重新开战又怎样?

聚峰军评
2026-05-19 07:42:12
街头的“重量级焦点”!

街头的“重量级焦点”!

飛娱日记
2026-04-29 06:21:51
世界模型的门槛,谷歌可能迈过去了

世界模型的门槛,谷歌可能迈过去了

钛媒体APP
2026-05-18 15:14:36
异性之间,我59岁那年才察觉到一个规律,男人长期对一个女人有感觉,无条件宠你,无非两种可能

异性之间,我59岁那年才察觉到一个规律,男人长期对一个女人有感觉,无条件宠你,无非两种可能

心理观察局
2026-05-11 09:39:07
麦考尔也想降薪留队,感恩宏远给时间养伤,家人几乎在广东定居

麦考尔也想降薪留队,感恩宏远给时间养伤,家人几乎在广东定居

只扣篮的教练
2026-05-19 10:23:24
别喝“驼奶”了,全世界的骆驼也挤不出那么多的驼奶

别喝“驼奶”了,全世界的骆驼也挤不出那么多的驼奶

黄河新流域
2026-05-14 15:10:42
2026-05-20 01:47:00
AI好好用 incentive-icons
AI好好用
探索人工智能应用场景及商业化
2095文章数 4429关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

体育要闻

文班亚马:没拿到MVP,就证明自己是MVP

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

洁丽雅硬刚豪门内斗传言

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

数码
手机
艺术
家居
房产

数码要闻

苹果WWDC26定档6月9日凌晨开幕:iOS27亮相,AI或是重头戏

手机要闻

澎湃OS 26谣言破灭,小米MIX Fold 5也已现身,下半年稳了!

艺术要闻

看完直呼可爱!大师画宝宝萌翻全网速!

家居要闻

观山隐秀 心灵沉淀

房产要闻

7516元/㎡,161套一次全甩!海口住宅最低价出现了!

无障碍浏览 进入关怀版