网易首页 > 网易科技 > 网易科技 > 正文

数学都是体育老师教的!13.11和13.8谁大?大模型翻车了

0
分享至
“大模型全称叫大语言模型,它首先解决的是对人类自然语言理解的问题,所以它并没有把9.9和9.11当成一个数字来看,是按照文字的逻辑来进行比较的”


出品|网易科技《态度》栏目

作者|宗淑贤

编辑|丁广胜

前几日,频频霸榜的综艺《歌手》又一次冲上了热搜。不过这次,话题的焦点无关“好听”“难听”,而是从台上竞演的嘉宾转移到了台下讨论的网友身上。

13.8%和13.11%哪个大?

谁也没有想到,这道本质上源于小学四年级数学内容的问题,居然难倒了一众网友。

对此,有网友感叹:“现在知道天天在网上抬杠的都是什么人了吧?”也有网友无奈回怼:“实在不知道谁大谁小,就去问问AI吧!”

然而,当你真的把这个问题抛给AI来解答,你会惊讶地发现——AI也不会

AI2的研究员林禹臣在推特上贴出了自己用GPT-4o尝试的结果。面对13.11与13.8哪个大这一问题,GPT-4o认为13.11大于13.8,并解释称:“虽然13.8看起来更大,因为它小数点后的数字更少,但13.11实际上更大。这是因为13.8相当于13.80,而13.80小于13.11。”

对此,林禹臣评论说:“常识对AI来说仍然很难。”“这种常识性的人工智能失败案例让我不断想起@YejinChoinka的TED 演讲:为什么人工智能既聪明无比,又愚蠢至极。”

一、大模型的作答现场

带着这个问题,我们对当下主流模型进行了简单的测试。其中,通义千问、文心一言、360智脑、字节豆包、百小应、有道小P和讯飞星火都作出了正确的回答。不过在原因解释方面,讯飞星火略显逊色,其余模型则都是按照分开比较整数和小数部分的思路进行了较为详细的回答。


通义千问


文心一言


360智脑


字节豆包


百小应


有道小P


讯飞星火

而月之暗面旗下的kimi和ChatGPT在这一问题上则双双翻车。

当kimi被问到“13.11和13.8哪个大”时,它首先给出了13.11大于13.8的答案:

经过进一步追问原因,kimi转而又作出了截然不同的回答:

经过第三次追问,kimi终于意识到自己在此前的回答中存在错误,对这一问题的答案进行了修改纠正:

反观ChatGPT,就显得不甚善于反思:

经过两次反问,ChatGPT表示自己对此前错误的回答感到抱歉,并承认13.8大于13.11。但当询问它能否解释原因时,它却给出了这样的回答:This is because the number 13.8 is read as "thirteen point eight," which is larger than "thirteen point eleven".

二、大模型为什么会“数学不好”

回答不好小学生数学题,人工智能大模型又一次被送上了舆论的风口浪尖。面对现今蓬勃发展的各类大模型,人们仍有疑虑:

这到底是人工智能,还是人工智障?

实际上,这一问题并不是最近才出现的,“数学不好”一直是各类大模型的短板。根据上海人工智能实验室旗下司南评测体系OpenCompass进行的高考全卷测试结果,包括GPT-4在内的七个大型人工智能模型在高考语文和英语科目的测试中普遍表现出色,然而在数学科目上则均未能达到及格线,最高分也仅达到了75分。

业内人士将大模型“数学不好”的问题根源追溯至LLM(大型语言模型)的架构设计本身。

LLM通常依赖监督学习,特别是通过预测文本中下一个词的方式来训练。这一过程中,模型被投喂海量的文本数据集,学习并预测给定文本后下一个词出现的概率分布。通过不断将模型的预测与实际文本进行对比和调整,语言模型逐渐掌握了语言的内在规律,从而能够预测并生成连贯的文本。

然而在LLM的框架内,存在使用Tokenizer这一关键环节。它负责将输入的文本分割成更小的单元(tokens),以便模型处理。问题在于,Tokenizer的设计初衷并非专门服务于数学处理,因此在处理包含数字的文本时,可能会将数字看做文本字符串而非数值,从而进行不合理地拆分,导致数字的整体性和意义在模型内部被破坏。

对此,360CEO周鸿祎以9.9和9.11为例,进行了更为通俗的解释:

“大模型全称叫大语言模型,它首先解决的是对人类自然语言理解的问题。所以大模型并没有把9.9和9.11当成一个数字来看,而是把它们分成了两个token。没有经过专门特别的提示和训练,大模型是不懂阿拉伯数字也不懂数学的,所以大模型是按照一个文字的逻辑来进行比较的。9前面是一样大的,那么11比9要大,所以就得出来9.11比9.9要大。”

除了架构设计存在不足外,大模型“数学不好”或许还与它所接受的训练方式有关。主流模型的训练主要源于互联网的文本数据,这类数据中数学问题和解决方案相对匮乏,也在一定程度上限制了模型在此类技能上的发展。

因此,在各类大模型井喷式诞生与发展的现在,也许我们也应当反思:AI该如何进一步设计与训练,才能真正像人类一样思考?

延伸阅读
相关推荐
热点推荐
曝朝鲜奥运亚军将被送矿山劳改3年,因合影时与韩国选手面带微笑

曝朝鲜奥运亚军将被送矿山劳改3年,因合影时与韩国选手面带微笑

二疯说球
2024-08-30 11:05:36
汪明荃近照曝光!满脸褶皱头发秃顶,77岁生日和保姆共度满是落寞

汪明荃近照曝光!满脸褶皱头发秃顶,77岁生日和保姆共度满是落寞

一娱三分地
2024-08-30 14:00:42
欢迎宴菜量曝光!全红婵队友一口一个,能饱?苏炜德被山东记大功

欢迎宴菜量曝光!全红婵队友一口一个,能饱?苏炜德被山东记大功

三十年莱斯特城球迷
2024-08-30 10:45:40
奥运冠军打卡太平山!全红婵抱玩偶与孙颖莎自拍,3大双金王同框

奥运冠军打卡太平山!全红婵抱玩偶与孙颖莎自拍,3大双金王同框

我爱英超
2024-08-30 17:50:55
笑喷!全红婵自拍摆造型陈艺文偷亲脸颊 全妹捂脸害羞表情抢镜

笑喷!全红婵自拍摆造型陈艺文偷亲脸颊 全妹捂脸害羞表情抢镜

厝边人侃体育
2024-08-30 01:45:37
德国34岁寡妇上海旅游,点6菜1茅台,结账暴怒:你们这是在抢钱!

德国34岁寡妇上海旅游,点6菜1茅台,结账暴怒:你们这是在抢钱!

六目先生
2024-08-01 09:09:26
解放军057隐形护卫舰再次亮相!装备激光炮,台媒眼馋:十分科幻

解放军057隐形护卫舰再次亮相!装备激光炮,台媒眼馋:十分科幻

文雅笔墨
2024-08-30 16:49:46
李佩霞妥妥一个长腿美女,鲜红色脚指甲有些欠妥

李佩霞妥妥一个长腿美女,鲜红色脚指甲有些欠妥

大江
2024-08-25 15:03:28
市委书记盛文军,主动投案

市委书记盛文军,主动投案

新京报
2024-08-30 12:07:12
中国的大麻烦来了?美国要进场:不拦截丢面子,拦截恐爆发大冲突

中国的大麻烦来了?美国要进场:不拦截丢面子,拦截恐爆发大冲突

消失的电波
2024-08-28 12:23:39
柯文哲走出家门暴气怒呛:台湾史上第一次!竟然说错了

柯文哲走出家门暴气怒呛:台湾史上第一次!竟然说错了

杂谈天下式
2024-08-30 20:12:22
75岁名记炮轰美国女网3人:又傲慢又爱发牢骚,总是互相挑衅

75岁名记炮轰美国女网3人:又傲慢又爱发牢骚,总是互相挑衅

奥拜尔
2024-08-01 16:35:58
索尼因《星鸣特攻》亏2亿?玩家:我知道怎么回本!

索尼因《星鸣特攻》亏2亿?玩家:我知道怎么回本!

游民星空
2024-08-30 18:10:27
沙利文答凤凰记者:美国“一中政策”未改变

沙利文答凤凰记者:美国“一中政策”未改变

凤凰卫视
2024-08-30 10:17:56
不要再歌功颂德了 现在不是旧社会 民智开化 好与不好 百姓心中很清楚

不要再歌功颂德了 现在不是旧社会 民智开化 好与不好 百姓心中很清楚

苗苗情感说
2024-08-20 20:58:45
中式英语在外网大杀四方,黑神话:悟空居功甚伟,老外哭着求教程

中式英语在外网大杀四方,黑神话:悟空居功甚伟,老外哭着求教程

削桐作琴
2024-08-30 08:10:02
李佩霞案新进展,律师会见被三次打断,父亲发声:不接受官派律师

李佩霞案新进展,律师会见被三次打断,父亲发声:不接受官派律师

小松看众生
2024-08-29 19:10:02
415:0压倒性通过!中国被迫被列入发达国家,取消国际优惠待遇

415:0压倒性通过!中国被迫被列入发达国家,取消国际优惠待遇

书经小课堂
2023-08-28 15:47:01
范冰冰复出捞金被拍,穿一身白,长发如瀑,无滤镜生图仍美到窒息

范冰冰复出捞金被拍,穿一身白,长发如瀑,无滤镜生图仍美到窒息

时髦范
2024-08-29 11:02:51
重磅消息!中方下达“最后通牒”,24小时内,解放军强势发声

重磅消息!中方下达“最后通牒”,24小时内,解放军强势发声

史海行者
2024-08-30 21:00:14
2024-08-31 12:42:44

科技要闻

比亚迪宋L EV焕新,但风头还是被它抢了!

头条要闻

女子退婚拒退38万彩礼 男方母亲讨回33万元被拘留7日

头条要闻

女子退婚拒退38万彩礼 男方母亲讨回33万元被拘留7日

体育要闻

完美复仇!郑钦文:上次输我哭了一个小时

娱乐要闻

这个瓜牵扯的太多……

财经要闻

中金突发,降薪降职!

汽车要闻

第三季度后上市 方程豹豹8亮相成都车展

态度原创

家居
房产
健康
手机
军事航空

家居要闻

枝桠延伸 奏响绿色旋律

房产要闻

恭喜业主!广州最大烂尾楼有救了!

50岁后还能健康工作多久?

手机要闻

美版 Galaxy S24 FE 手机真机现身,9W 反向无线充电

军事要闻

乌克兰总统签署法令 免除奥列修克的空军司令职务

无障碍浏览 进入关怀版
×