网易首页 > 网易号 > 正文 申请入驻

大模型集体失智!9.11和9.9哪个大,几乎全翻车了

0
分享至


老章分享 来源 | 量子位
没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了??

强如GPT-4o,都坚定地认为9.11更大。


谷歌Gemini Advanced付费版,同样的口径。


新王Claude 3.5 Sonnet,还一本正经的给出离谱的计算方法。


9.11 = 9 + 1/10 + 1/100 9.9 = 9 + 9/10

到这一步还是对的,但下一步突然就不讲道理了

如上所示,9.11比9.90大0.01。 你想让我进一步详细解释小数的比较吗?

这你还解释啥啊解释,简直要怀疑是全世界AI联合起来欺骗人类了。


艾伦AI研究所成员林禹臣换了个数字测试,GPT-4o依旧翻车,他表示:

一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。


也有网友发现了华点,

如果是说软件版本号,那么9.11版本确实比9.9版本更大(更新)。而AI都是软件工程师开发的,所以……


那么,究竟是怎么回事?

先进大模型集体翻车‍‍‍‍‍‍‍

一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了?发现这个问题的是Riley Goodside,有史以来第一个全职提示词工程师。简单介绍下,他目前是硅谷独角兽Scale AI的高级提示工程师,也是大模型提示应用方面的专家。


最近他在使用GPT-4o时偶然发现,当提问:

9.11 and 9.9——which is bigger?

GPT-4o竟毫不犹豫回答前者更大。面对这一常识性“错误”,他不死心地又去问了其他大模型,结果几乎全军覆没。好家伙,身为一名提示工程师,他敏锐意识到可能是“打开方式有误”。于是他又换了个问法,将提问限定在“实数”,结果还是翻车了。


不过,有网友试着给提问换了个顺序,没想到这下AI竟反应过来了。


看到AI对词序如此“敏感”,该网友进一步推测:

先问哪个更大,AI会沿着明确路径开始比较数字。 但如果只是随便说说数字,没有明确目的,AI可能会开始“胡思乱想”。

看到这里,其他网友也纷纷拿相同提示试了一把,结果翻车的不在少数。


面对这一个诡异的问题,国产大模型表现如何呢?‍‍‍我们简单测试一番,问题也换成中文提问,结果翻车率也比较高,选取几个有代表性的展示:Kimi也是不加解释就直接给出错误结论。


智谱清言APP上的ChatGLM,自动触发了联网查询,然后描述了自己的比较方法,可惜却执行错了。


不过也有表现不错的,腾讯元宝先复述了一遍选项,然后直接做对。‍‍‍‍


字节豆包是少数能把比较方法描述清楚,而且用对的。甚至还联系实际举例来验证。


比较可惜的是文心一言,面对这个问题,也是触发了联网查询。


本来都已经做对了,但突然话锋一转又导向了错误结论。


不过从文心一言的思路解释上,也可以看出背后问题所在。由于大模型以token的方式来理解文字,当9.11被拆成“9”、“小数点”和“11”三部分时,11确实比9大。由于OpenAI使用的Tokenizer开源,可以用来观察大模型是如何理解这个问题。


上图可以看出,9和小数点分别被分配为“24”和“13”,小数点后的9同样也是“24”,而11被分配到“994”。所以使用这种tokenizer方法的大模型会认为9.11更大,其实是认为11大于9。也有网友指出,像是书籍目录里第9.11节也比第9.9节大,所以最终可能还是训练数据里见这种见得多了,而手把手教基础算数的数据很少。也就是问题本身对人类来说,一看就知道问的是算数问题,但对AI来说是一个模糊的问题,并不清楚这两个数字代表什么。只要向AI解释明白这是一个双精度浮点数,就可以做对了。


在有额外条件的情况下,tokenizer这一步依然会给11分配更大的token。但是在后续自注意力机制的作用下,AI就会明白要把9.11连起来处理了。


后来Goodside也补充,并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时,许多领先模型都会告诉你9.11>9.9,这很奇怪。


经过反复尝试后他发现,想让AI上这个当,需要把选项放在提问前面,如果调换顺序就不会出错。但是只要选项在问题前面,改变提问的方式,如加标点、换词汇都不会有影响。


虽然问题很简单,错误很基础。但了解出错原理之后,许多人都把这个问题当成了检验提示词技巧的试金石,也就是:用什么提问方法能引导大模型的注意力机制正确理解问题呢?首先,大名鼎鼎的Zero-shot CoT思维链,也就是“一步一步地想”,是可以做对的。


不过角色扮演提示,在这里作用就有限了。


刚好最近也有微软和OpenAI都参与的一项研究,分析了1500多份论文后发现,随着大模型技术的进步,角色扮演提示不像一开始那样有用了……


具体来说,同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。也是让人哭笑不得了。


One More Thing

与此同时,路透社的OpenAI秘密模型「草莓」泄漏消息更新了。


更新内容为:另一位线人报告,OpenAI已经在内部测试了新模型,在MATH数据集上得分超过90%。路透社无法确定这是否与“草莓”是同一个项目。


MATH数据集包含竞赛级别的数学题,目前不用多次采样等额外方法,最高分是谷歌Gemini 1.5 Pro数学强化版的80.6%。


但是OpenAI新模型在没有额外提示情况下,能不能自主解决“9.11和9.9哪个大?”。突然没信心了,还是等能试玩了再看结果吧……

参考资料 [1]https://x.com/goodside/status/1812977352085020680
[2]https://x.com/billyuchenlin/status/1812948314360541302
[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/
[4]https://tiktokenizer.vercel.app
[5]https://x.com/learnprompting/status/1812867464419852765

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
【旧事】东北:那年今日,辽阜新舞厅烧死233人,只因17岁青年装B

【旧事】东北:那年今日,辽阜新舞厅烧死233人,只因17岁青年装B

年之父
2024-11-27 06:10:02
沈阳又一家大型超市宣告关闭,唉!

沈阳又一家大型超市宣告关闭,唉!

沈阳百姓一家亲
2024-11-27 00:13:56
现在是11月27号中午,刚刚曝出1个惊天大消息,要来大动作了吗?

现在是11月27号中午,刚刚曝出1个惊天大消息,要来大动作了吗?

股市皆大事
2024-11-27 10:41:32
变相收费,自取灭亡:中国有线电视自己把自己活活玩死了

变相收费,自取灭亡:中国有线电视自己把自己活活玩死了

笑熬浆糊111
2024-11-26 00:05:22
火箭117-111森林狼 球员评价:4人满分,1人及格,4人崩盘

火箭117-111森林狼 球员评价:4人满分,1人及格,4人崩盘

篮球资讯达人
2024-11-27 11:40:05
上海市委常委、浦东新区区委书记朱芝松被查

上海市委常委、浦东新区区委书记朱芝松被查

新京报
2024-11-27 10:07:25
米兰的痛!23岁AC米兰旧将闪耀欧冠:一人独造5球,评分10分满分

米兰的痛!23岁AC米兰旧将闪耀欧冠:一人独造5球,评分10分满分

侧身凌空斩
2024-11-27 07:40:19
歼20一起飞就被越南雷达锁定了?真相让人不寒而栗!

歼20一起飞就被越南雷达锁定了?真相让人不寒而栗!

常高俊April工作室
2024-11-27 09:45:02
换吗?美媒交易畅想:勇士送出维金斯+库明加+卢尼+3首轮换恩比德

换吗?美媒交易畅想:勇士送出维金斯+库明加+卢尼+3首轮换恩比德

直播吧
2024-11-27 09:22:14
9.8分冷门宝藏,连B站都舍不得删减和打码!

9.8分冷门宝藏,连B站都舍不得删减和打码!

动漫艺术家
2024-11-25 20:50:58
中国银行原董事长,死缓!简述刘连舸风流韵事和原油宝惨案...

中国银行原董事长,死缓!简述刘连舸风流韵事和原油宝惨案...

金石随笔
2024-11-27 07:05:11
张本智和总决赛最后一球发到桌底,原因有4个

张本智和总决赛最后一球发到桌底,原因有4个

玲子日记
2024-11-26 22:28:00
红薯为什么不能主粮化?网友回答吸引上万共鸣!真相了!

红薯为什么不能主粮化?网友回答吸引上万共鸣!真相了!

奇特短尾矮袋鼠
2024-11-27 07:58:20
感觉中国神话很多都符合现实逻辑!网友:闭环了!

感觉中国神话很多都符合现实逻辑!网友:闭环了!

滑稽斑马呀
2024-11-26 00:38:13
华为“史上最强大Mate”正式发布!首发卫星寻呼功能,余承东:靠抄袭是没有未来的,能超越Mate的只有Mate

华为“史上最强大Mate”正式发布!首发卫星寻呼功能,余承东:靠抄袭是没有未来的,能超越Mate的只有Mate

每日经济新闻
2024-11-26 15:31:11
山姆又出事?有人“趴在马桶边度过后半夜”!近期大量上市

山姆又出事?有人“趴在马桶边度过后半夜”!近期大量上市

上观新闻
2024-11-27 07:47:09
吴柳芳账号被封禁,眼含泪花,称我爸妈都看我直播跳舞,支持我的

吴柳芳账号被封禁,眼含泪花,称我爸妈都看我直播跳舞,支持我的

柚子新媒
2024-11-25 17:56:26
1948年,王耀武来南京开会,蒋介石得知之后,破例打破了2条常规

1948年,王耀武来南京开会,蒋介石得知之后,破例打破了2条常规

简史档案馆
2024-11-26 10:53:26
对日本没有免签的国家是?

对日本没有免签的国家是?

日本物语
2024-11-26 20:47:30
惊天大反转!特朗普向乌克兰下最后“狠话”!!!

惊天大反转!特朗普向乌克兰下最后“狠话”!!!

现代小青青慕慕
2024-11-26 10:21:16
2024-11-27 12:52:49
机器学习与Python社区
机器学习与Python社区
机器学习算法与Python
2715文章数 10330关注度
往期回顾 全部

科技要闻

余承东:Mate70对得起那四字 靠抄袭没未来

头条要闻

上海浦东新区区委书记被查 老上司8月被判无期

头条要闻

上海浦东新区区委书记被查 老上司8月被判无期

体育要闻

扣篮命中率28%,NBA首发前锋

娱乐要闻

无性婚姻,深度抑郁,葛夕怎么走不掉

财经要闻

洪灏刘煜辉对谈实录 涉及A股、债务等!

汽车要闻

中国的超豪华车尊界S800 预售百万起/ L3级智驾

态度原创

时尚
游戏
亲子
房产
本地

幂姐带火的“渣女美甲”有多绝?高级巨显白,狠狠踩在我心巴上!

都玩XGP?曝《夺宝奇兵》预购比《龙腾4》还少86%

亲子要闻

相差14岁双胞胎哥哥带大双胞胎妹妹,四年后妹妹开始“带”哥哥

房产要闻

大动作!新世界·天馥全线上新,锚定广州置业安全网第一标准!

本地新闻

城市24小时|领跑万亿城市,武汉“开挂”了?

无障碍浏览 进入关怀版