网易首页 > 网易号 > 正文 申请入驻

苹果研究人员质疑 AI 的推理能力:简单数学问题稍作改动就会答错

0
分享至

IT之家 10 月 12 日消息,近年来,人工智能(AI)在各个领域取得了显著的进展,其中大型语言模型(LLM)能够生成人类水平的文本,甚至在某些任务上超越人类的表现。然而,研究人员对 LLM 的推理能力提出了质疑,他们发现这些模型在解决简单的数学问题时,只要稍加改动,就会犯错误,这表明它们可能并不具备真正的逻辑推理能力。


图源 Pexels

周四,苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文,揭示 LLM 在解决数学问题时容易受到干扰。IT之家注意到,研究人员通过对数学问题的微小改动,例如添加无关的信息,来测试 LLM 的推理能力。结果发现,这些模型在面对这样的变化时,其表现急剧下降。

例如,当研究人员给出一个简单的数学问题:“奥利弗星期五摘了 44 个奇异果,星期六摘了 58 个奇异果。星期日,他摘的奇异果是星期五的两倍。奥利弗一共摘了多少个奇异果?”时,LLM 能够正确地计算出答案。然而,当研究人员添加一个无关的细节,“星期日,他摘的奇异果是星期五的两倍,其中 5 个比平均小。”时,LLM 的回答却出现了错误。例如,GPT-o1-mini 的回答是:“... 星期日,其中 5 个奇异果比平均小。我们需要从星期日的总数中减去它们:88(星期日的奇异果) - 5(较小的奇异果) = 83 个奇异果。”

上面只是一个简单的例子,研究人员修改了数百个问题,几乎所有问题都导致模型的回答成功率大幅下降。

研究人员认为,这种现象表明 LLM 并没有真正理解数学问题,而是仅仅根据训练数据中的模式进行预测。但一旦需要真正的“推理”,例如是否计算小的奇异果,它们就会产生奇怪的、不合常理的结果。

这一发现对 AI 的发展具有重要的启示。虽然 LLM 在许多领域表现出色,但其推理能力仍然存在局限性。未来,研究人员需要进一步探索如何提高 LLM 的推理能力,使其能够更好地理解和解决复杂的问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金赛纶生前下跪求饶!原本赔70亿才减至7亿 圈内对金秀贤摇头:难理解

金赛纶生前下跪求饶!原本赔70亿才减至7亿 圈内对金秀贤摇头:难理解

ETtoday星光云
2025-03-13 14:39:17
零跑发了台9.98万元的新车,把刚睡醒的丰田打懵了

零跑发了台9.98万元的新车,把刚睡醒的丰田打懵了

锋潮评测
2025-03-13 15:53:21
人体自带“止尿穴”,每天按一遍,尿频没有了

人体自带“止尿穴”,每天按一遍,尿频没有了

今日养生之道
2025-03-13 05:50:24
家暴惨案!华人钢琴老师被丈夫打死后,丈夫饮弹自尽

家暴惨案!华人钢琴老师被丈夫打死后,丈夫饮弹自尽

华人生活网
2025-03-14 04:39:26
绝杀!CBA最大黑马诞生!最新积分榜一夜变天:辽宁队排名大跌

绝杀!CBA最大黑马诞生!最新积分榜一夜变天:辽宁队排名大跌

大秦壁虎白话体育
2025-03-14 00:11:49
46岁章子怡现身成都,离开美颜滤镜,真实状态曝光,膝盖尤为吸睛

46岁章子怡现身成都,离开美颜滤镜,真实状态曝光,膝盖尤为吸睛

素衣读史
2025-03-13 16:19:30
小杨阿姨分享在台湾买菜,周末张兰要去看他们,这桌团圆饭不容易

小杨阿姨分享在台湾买菜,周末张兰要去看他们,这桌团圆饭不容易

沧海一书客
2025-03-13 23:21:46
最新:俄军夺回苏贾

最新:俄军夺回苏贾

环球时报新闻
2025-03-13 18:10:33
李斌,2025年最惨的人?

李斌,2025年最惨的人?

读懂财经研究所
2025-03-13 10:45:51
新型擦边来袭,某网红穿瑜伽裤擦边,网友:这跟没穿一样

新型擦边来袭,某网红穿瑜伽裤擦边,网友:这跟没穿一样

说真话的小陈
2025-03-08 20:46:58
录音实锤!陶晶莹教唆具俊晔转移资产,王伟忠切割宣言太扎心

录音实锤!陶晶莹教唆具俊晔转移资产,王伟忠切割宣言太扎心

泠泠说史
2025-03-11 18:11:44
四川女孩静静嫁给德国机长,生下一个女儿,竟引起丈夫家族轰动!

四川女孩静静嫁给德国机长,生下一个女儿,竟引起丈夫家族轰动!

百态人间
2025-02-26 13:11:18
台湾黑帮大佬张安乐:如果“台独”挑起战火,我们一定阵前起义

台湾黑帮大佬张安乐:如果“台独”挑起战火,我们一定阵前起义

逍遥史记
2025-03-13 10:02:34
42岁胡歌最新状态,皱纹白发满脸胡茬,网友疑惑怎么就老了

42岁胡歌最新状态,皱纹白发满脸胡茬,网友疑惑怎么就老了

影视口碑榜
2025-03-12 16:06:44
《哪吒2》自己都不想努力了,我们还有冲击票房的必要吗?

《哪吒2》自己都不想努力了,我们还有冲击票房的必要吗?

垛垛糖
2025-03-12 21:09:54
欧足联官方声明:小蜘蛛确实2次触球应判无效 将讨论修改相关规则

欧足联官方声明:小蜘蛛确实2次触球应判无效 将讨论修改相关规则

直播吧
2025-03-13 22:29:23
银行理财产品“跌麻了”

银行理财产品“跌麻了”

经济观察报
2025-03-13 21:18:04
2025年“3·15”晚会主题发布

2025年“3·15”晚会主题发布

界面新闻
2025-03-14 08:38:15
太狠了!8年时间股价从最高55跌到0.89,股民:想死的心都有了

太狠了!8年时间股价从最高55跌到0.89,股民:想死的心都有了

八百者也
2025-02-16 22:09:51
张元英性感照片流出,浴衣加大长腿,网友:给摄影师加鸡腿

张元英性感照片流出,浴衣加大长腿,网友:给摄影师加鸡腿

说真话的小陈
2025-03-13 09:30:05
2025-03-14 09:40:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
276137文章数 605982关注度
往期回顾 全部

科技要闻

OpenAI游说白宫放宽监管 同时打压DeepSeek

头条要闻

外媒:越南或修规 以引入中国商飞飞机

头条要闻

外媒:越南或修规 以引入中国商飞飞机

体育要闻

被NBA淘汰的黄毛,要成58亿豪门赘婿了……

娱乐要闻

金秀贤公司原本要求金赛纶赔70亿

财经要闻

这家光伏企业,在赤裸裸的财务造假?

汽车要闻

宾利限量版Batur Black Rose 3D打印玫瑰金彰显奢华

态度原创

艺术
本地
房产
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

用AI唤醒花花世界|美到“开挂”,来哈尔滨感受春天吧

房产要闻

生猛!有民企正狂入海南旧改!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京:俄同意停火30天建议 或将与特朗普讨论落实问题

无障碍浏览 进入关怀版