网易首页 > 网易号 > 正文 申请入驻

苹果发文质疑:大语言模型根本无法进行逻辑推理

0
分享至


大语言模型(LLM)是真的会数学推理?还是只是在“套路”解题?

近年来,大语言模型在各种任务中的表现引起广泛关注。一个核心问题逐渐浮现:这些模型是否真正具备逻辑推理能力,还是仅仅通过复杂的模式匹配来应对看似推理的问题?尤其是在数学推理任务中,模型的表现究竟是在模拟人类思维,还是仅仅通过数据模式匹配得出答案?

日前,来自苹果公司的 Iman Mirzadeh 及其研究团队提出了一个名为 GSM-Symbolic 的新基准,针对多个开源模型(如 Llama、Phi、Gemma、Mistral)和闭源模型(如 GPT-4o、o1 系列)进行了大规模评估。

结果显示,当问题中的数值或名字变化时,模型的会表现出显著的波动。此外,随着问题难度的提升(如增加更多子句),模型的表现迅速下降,这表明这些模型在推理复杂问题时非常脆弱。

研究团队认为,这种表现下降并非偶然,而是因为当前的大语言模型缺乏真正的逻辑推理能力,更多是在基于训练数据中的模式进行匹配,而非像人类一样进行符号和逻辑推导。

即使是简单的变化,如调整问题中的数值,也能导致模型准确率下降 10%。而当问题增加一个额外但无关的子句时,性能下降幅度甚至高达 65%


论文链接:https://arxiv.org/abs/2410.05229

大模型不具备形式推理能力?5 大证据来了

三年前,OpenAI 发布了 GSM8K 数据集(目前常用的一种小学数学推理基准数据集),测试 GPT-3(175B参数)在数学题上的表现,那时 GPT-3 的得分仅为 35%。如今,拥有约 30 亿参数的模型已能够在 GSM8K 测试中取得超过 85% 的得分,参数更大的模型甚至超过 95%。


然而,随着准确率的提升,疑问也随之而来:这些模型的推理能力是否真的进步了?它们的表现是否真的体现了逻辑或符号推理能力,抑或是简单的模式识别,数据污染,甚至过拟合的结果?

为进一步探索这一问题,研究团队此发了 GSM-Symbolic,用于测试大语言模型在数学推理中的极限。GSM-Symbolic 基于 GSM8K 数据集,通过符号模板生成多样化的问题实例,允许更可控的实验设计。

为了更清晰地观察模型在面对这些变体问题时的表现,他们生成了 50 个独特的 GSM-Symbolic 集合,这些问题与 GSM8K 问题类似,但更改了其中的数值和名称。

基于 GSM-Symbolic,他们从 5 个方面说明了为何他们认为大语言模型不具备形式推理能力:

1. GSM8K 的当前准确率并不可靠

通过对多个开源模型(如 Llama 8B、Phi-3)和闭源模型(如 GPT-4o 和 o1 系列)的大规模评估,他们发现模型在 GSM8K 上的表现存在显著波动。例如,Llama 8B 的准确率在 70%-80% 之间波动,而 Phi-3 的表现则在 75%-90% 之间浮动。

这也表明,模型在处理相似问题时表现并不稳定,GSM8K 上的高分并不能证明它们具备真正的推理能力。


图|由 GSM-Symbolic 模板生成的 50 套 8-shot 思想链(CoT)性能分布,显示了所有 SOTA 模型之间准确性的显著差异性。

对于大多数型号来说,GSM-Symbolic 的平均性能低于 GSM8K(图中由虚线表示)。有趣的是,GSM8K 的性能落在分布的右侧,从统计学上讲,这应该非常低的可能性,因为 GSM8K 基本上只是 GSM-Symbolic 的一次单一抽样。

2. 对名称和数字变动的敏感性

研究还发现,当前的大语言模型对问题中的专有名称(如人名、食物、物品)的变化仍然很敏感,当数字发生变化时,大语言模型就会更加敏感。

例如,仅仅改变问题中的名字,就可能导致模型的准确率变化高达 10%。如果将这种情况类比到小学数学测试中,仅仅因为改变了人名而导致分数下降 10% ,是非常不可思议的。


图|当只更改名称、专有编号或同时更改名称和编号时,大语言模型的敏感性如何?总体而言,即使只更改名称,模型也有明显的性能变化,但当更改编号或合并这些变化时,性能差异更大。

3. 问题难度的增加导致表现急剧下降

研究团队通过引入三种新的 GSM-Symbolic 变体(GSM-M1、GSM-P1、GSM-P2),通过删除一个分句(GSM-M1)、增加一个分句(GSM-P1)或增加两个分句(GSM-P2),来调整问题难度。


图|通过修改条款数量来修改 GSM-Symbolic 的难度级别


图|增加条款数量对性能的影响:随着GSM-M1→GSM-Symb→GSM-P1→GSM-P2的难度增加,性能分布向左移动(即准确性下降),方差增加。

结果发现,随着问题难度的增加(GSM-M1 → GSM-Symb → GSM-P1 → GSM-P2),模型的表现不仅下降显著,且表现波动也变得更加剧烈。面对更复杂的问题时,模型的推理能力变得更加不可靠。

4. 添加无关子句对性能的巨大影响

为进一步测试模型的推理能力,研究团队设计了 GSM_NoOp 实验,在原有问题中添加一个似乎相关但实际无关的子句 (hence "no-op")。

结果显示,所有模型的表现都显著下降,包括性能较好的 o1 模型在内。这种现象进一步说明,模型并没有真正理解数学概念,而是通过模式匹配来得出答案。


图|在 GSM-NoOp 上,模型的性能明显下降,较新的模型比旧的模型下降更大。

5. 扩展规模和计算能力并不能解决根本问题

此外,他们还探讨了通过扩大数据、模型规模或计算能力是否能够解决推理能力不足的问题。

Mehrdad Farajtabar 表示,尽管 OpenAI 的 o1 系列在性能上有一定改善,但它们也会出现这样的愚蠢错误,要么是它不明白“现在”是什么意思,要么是它不明白“去年”是什么意思,还有一种更可能的解释是,更大的训练数据具有这种模式,所以它又沿用了这种模式。


图|o1-mini 和 o1-preview 的结果:这两个模型大多遵循我们在正文中介绍的相同趋势。然而,o1-preview 在所有难度级别上都显示出非常强大的结果,因为所有分布都彼此接近。

他认为,理解大语言模型的真正推理能力对于在现实世界中的应用至关重要,尤其是在 AI 安全、教育、医疗保健和决策系统等对准确性和一致性要求极高的领域。

研究结果表明,当前大语言模型的表现,更像是高级的模式匹配器,而非具备形式推理能力的系统。为了在这些领域安全、可靠地部署大语言模型,开发更为鲁棒和适应性强的评估方法显得尤为重要。

逻辑推理:大语言模型的真正挑战

研究人员表示,总体而言 ,这项研究没有发现大语言模型具备正式的逻辑推理能力,无论是开源模型,还是闭源模型。

它们的行为更像是复杂的模式匹配,甚至很脆弱,以至于简单改变名字就能导致结果变化约 10%。尽管可以通过增加数据量、参数规模或计算能力,或者为 Phi-4、Llama-4、GPT-5 提供更好的训练数据来提高表现,但他们认为这只会带来“更好的模式匹配者”,而不是“更好的推理者”

有读者对 10% 的表现波动提出了疑问。对此,Farajtabar 回应道:

“如果你指的是 Llama 3 8B,它确实是一个先进的模型,并且假设已经通过大量精心设计的数据进行了训练,然而即便如此,10% 的偏差对我来说还是太大了。对于较旧的模型来说,这种波动更为明显。真正令人担忧的问题在于,当问题难度稍微提升(例如通过增加一个子句)时,偏差会迅速增加到 16%。是的,或许我们可以通过收集更多类似数据来缩小这些差异,但如果问题难度继续上升,这种偏差很可能会呈指数级增长。”


随着大语言模型在各类应用场景中被广泛采用,如何确保它们能够处理更复杂、更多样化的问题,已成为 AI 研究领域面临的下一个重大挑战。

未来,大语言模型需要突破模式匹配,真正实现逻辑推理,才能应对不断变化的现实需求。这也是 AI 社区共同努力的方向。

作者:田小婷

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“国家队”3.61万亿的A股持仓出炉!51只重仓股在年内涨超30%!

“国家队”3.61万亿的A股持仓出炉!51只重仓股在年内涨超30%!

私募排排网
2024-09-04 15:50:29
王曼昱突然退赛,乒联为何不抽调陈梦驰援亚锦赛?名记透露内幕

王曼昱突然退赛,乒联为何不抽调陈梦驰援亚锦赛?名记透露内幕

室内设计师阿喇
2024-10-12 12:19:37
102岁杨振宁月薪惊人!工资全部上交,难怪翁帆看不上那点遗产!

102岁杨振宁月薪惊人!工资全部上交,难怪翁帆看不上那点遗产!

晓徙历史
2024-10-09 14:57:59
总裁卑微?C罗无私横传,B费“不领情”引热议,球迷:C罗错付了

总裁卑微?C罗无私横传,B费“不领情”引热议,球迷:C罗错付了

侧身凌空斩
2024-10-13 06:29:14
房东涨租7000遭拒后,连夜带人清空包子铺,报警未果,有人急出招

房东涨租7000遭拒后,连夜带人清空包子铺,报警未果,有人急出招

奇思妙想草叶君
2024-10-11 23:34:02
听说了吗?明年要发生五大变化,全世界都要变天

听说了吗?明年要发生五大变化,全世界都要变天

沙雕小琳琳
2024-10-12 10:58:54
乌克兰态度大变,开始打算“割地求和”,派人先探了探中国的口风

乌克兰态度大变,开始打算“割地求和”,派人先探了探中国的口风

胡麒牧博士
2024-10-13 17:22:06
股民众生相:持仓千万70后冷静旁观,“小白”携2万跑步入市感受紧张刺激

股民众生相:持仓千万70后冷静旁观,“小白”携2万跑步入市感受紧张刺激

猛犸资本局
2024-10-13 17:40:04
00后整顿股市有多勇猛?看完网友分享目瞪口呆,年轻人真的太狠了

00后整顿股市有多勇猛?看完网友分享目瞪口呆,年轻人真的太狠了

小彭谈历史
2024-10-11 12:18:12
49岁龚琳娜官宣与德国丈夫离婚,原因疑曝光,俩混血儿子近况曝光

49岁龚琳娜官宣与德国丈夫离婚,原因疑曝光,俩混血儿子近况曝光

古希腊掌管月桂的神
2024-10-13 17:30:03
“墓碑四不立,立后人丁散”,具体是哪四不立?立墓有什么讲究?

“墓碑四不立,立后人丁散”,具体是哪四不立?立墓有什么讲究?

汉江忆史
2024-10-11 17:13:43
中共九大:他与毛主席同票当选中央委员,晚年成锅炉工人惊动省委

中共九大:他与毛主席同票当选中央委员,晚年成锅炉工人惊动省委

芳芳历史烩
2024-10-02 00:31:48
帕尔默:梅西是GOAT,C罗不是!巴萨125周年,曝梅西拒绝出席?

帕尔默:梅西是GOAT,C罗不是!巴萨125周年,曝梅西拒绝出席?

贝塔说体育
2024-10-13 15:14:46
西安名气最大的民营公交

西安名气最大的民营公交

妮子说美食
2024-10-13 15:05:38
男单3连冠!林诗栋冲击2028年美国奥运会男单资格!拔得头筹!

男单3连冠!林诗栋冲击2028年美国奥运会男单资格!拔得头筹!

拳击时空
2024-10-10 05:53:58
到了50岁都没“大妈感”的女人,身上都有这3个特征,美得很轻松

到了50岁都没“大妈感”的女人,身上都有这3个特征,美得很轻松

白宸侃片
2024-10-12 22:24:40
全世界高呼“中国开盘”

全世界高呼“中国开盘”

股市风向标
2024-10-13 08:18:33
关系破冰!大S此前跟汪家闹翻,不计前嫌携爱子给前婆婆张兰庆生

关系破冰!大S此前跟汪家闹翻,不计前嫌携爱子给前婆婆张兰庆生

扒星人
2024-10-13 15:19:38
大结局要来?以色列发出毁灭警告!关键时刻,中方再次挺身而出

大结局要来?以色列发出毁灭警告!关键时刻,中方再次挺身而出

宏说天下
2024-10-12 17:03:35
性能力强的男性有什么特征?能不能一眼识别出来?医生来告诉你!

性能力强的男性有什么特征?能不能一眼识别出来?医生来告诉你!

番茄健康
2024-10-12 18:00:11
2024-10-13 18:18:44
学术头条
学术头条
致力于学术传播和科学普及,重点关注人工智能、生命科学等前沿科学进展。
1078文章数 5044关注度
往期回顾 全部

科技要闻

火速获批今天就飞 马斯克"星舰"第五次试飞

头条要闻

6岁女童遭男生泼开水多处烫伤 校方:男生临时起意

头条要闻

6岁女童遭男生泼开水多处烫伤 校方:男生临时起意

体育要闻

欧国联-葡萄牙3-1波兰 C罗破门+中柱

娱乐要闻

萧敬腾林有慧大婚 公开婚纱拍摄花絮

财经要闻

专家称财政部或用10万亿置换地方债务

汽车要闻

真就轮子+沙发 马斯克押注的自动驾驶车来了

态度原创

亲子
家居
本地
艺术
健康

亲子要闻

2岁萌娃想看动画片,站在门口和妈妈撒娇。

家居要闻

自在处 回归本真

本地新闻

秋颜悦色|你一句真上头 我就到了真汕头

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

花18万治疗阿尔茨海默病,值不值?

无障碍浏览 进入关怀版