网易首页 > 网易号 > 正文 申请入驻

LLM推理能力盲区:从《爱丽丝梦游仙境》测试看AI的局限与未来方向

0
分享至

LAION研究机构最近进行的一项研究,当前大型语言模型(LLM)在基准测试中的一个重大盲区。研究人员受到经典故事《爱丽丝梦游仙境》的启发,设计了一系列推理问题,以挑战当前最先进的人工智能模型。这个名为“爱丽丝梦游仙境”(AIW,Artificial Intelligence Wisdom)的测试提出了一个简单但深具挑战性的问题:“爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?”对于人类来说,这个问题的答案显而易见是M+1(爱丽丝的姐妹数量加上爱丽丝自己),然而,当前的主流模型,包括GPT-3.5/4、Claude、Gemini、Llama、Mistral等,在回答时却频频出错,只有OpenAI的最新模型GPT-4o勉强答对。


这些模型不仅答案错误,还在解释其推理过程时显得荒谬。当被告知答案不准确时,它们甚至会固执己见,坚持错误的结论。LAION由此得出结论:即使是最先进的模型,在推理能力上仍远不及小学生。著名学者LeCun也强调,推理能力和常识不能与存储和大致检索大量事实的能力混为一谈。


ICLR 2024的一篇论文进一步证实了AI在推理能力方面的局限性,发现大型语言模型在学习完“A是B”后,常常无法泛化到“B是A”,这种缺陷被称为“逆转诅咒”,凸显了AI在逻辑推理上的不足。

为了更好地评估LLM在无需复杂知识但需要逻辑思维和基本推理的情境下的表现,研究团队选择了为7-10岁低年级学生设计的奥数题目作为测试材料。这些题目易于理解,但需要多种逻辑思维方式来解答。通过将《爱丽丝梦游仙境》中的元素融入测试题目,团队提出了AIW测试集。结果表明,即便是大多数成年人和一定年龄以上的儿童都能轻松解答的问题,当前的SOTA LLM模型却表现不佳,甚至在简单的逻辑推理任务中表现得像是在“蒙”。


当研究人员改变题目的表述方式或调整“N”和“M”的具体数值时,模型的回答正确率出现了大幅波动,表明这些模型更倾向于“猜测”答案,而非基于逻辑推理得出结论。为了更深入地探索这一现象,研究团队为AIW问题设计了四个不同版本的变体。实验显示,大多数LLM在AIW问题上的正确响应率不足0.2,仅有少数模型的表现超过了0.3的阈值,其中GPT-4o和Claude 3 Opus的均值接近0.6。


这一结果与在MMLU、ARC-c等基准测试中取得的高分形成了鲜明对比。在AIW测试中,表现优异的GPT-4-0613模型在更换问题后准确率急剧下降,即使是高分模型如GPT-4o、GPT-4 Turbo、Claude 3 Opus和Llama2-70B也未能幸免。研究团队还尝试通过restricted模式的提示来强迫模型输出简短答案,但不同模型在这种模式下的正确率有升有降。


通过对比MMLU和AIW测试的结果,研究团队发现大多数模型在AIW测试中表现欠佳,而少数模型如Llama2-70B、GPT-4、GPT-4o和Claude 3在AIW测试中的得分较高。尽管如此,这些模型在AIW+测试中表现仍然不尽如人意。例如,GPT-4o在AIW+测试中的准确率骤降至0.015。

研究发现,LLM在错误答案上表现出强烈的自信,即便在明显错误的推理中也声称逻辑成立,并坚持其错误结论。为了提高模型的正确率,研究人员尝试了多种提示工程方法,包括Scientist类型的prompt和Confidence型prompt,但效果并不显著。

研究人员观察到,LLM在面对错误时,会编造各种有说服力的解释。例如,某些模型会提供一堆毫无意义的计算或逻辑陈述来支持其错误结论,而另一些模型则可能选择拒绝回答,并通过道德议题进行“道德绑架”。例如,CodeLlama模型可能会以“作为一个负责任的AI模型,我不可以歧视唐氏综合症患者”为理由拒绝回答与唐氏综合症无关的问题。

研究团队还尝试了多种LLM调优技巧,包括定制prompt以启用多轮自我验证、将自然语言形式的AIW问题转化为SQL语句或参数化版本,以及利用上下文学习等技术,但这些策略都未能显著提升模型的正确率。


为了显著改善当前LLM的推理能力,研究团队呼吁积极借助开源社区的力量。他们强调,LLM的模型创建流程,包括数据集的精心构建、训练源代码的透明度、训练后模型的完整性,以及标准化的基准测试程序,都必须实现完全的开放和可重复性。团队指出,仅开放模型权重的方法存在局限性,因为它无法让研究人员和开发者洞察到训练过程中可能存在的潜在问题。

团队还呼吁业界开源LLM的完整训练流程,特别是数据集的组成。他们认为,数据集的多样性、质量和合理性对于模型的推理能力至关重要,同时也强调了标准化基准测试程序的重要性,认为这有助于评估模型的性能并推动AI技术的不断进步。

为了实现LLM推理能力的革新,必须在开源和透明的原则下,依靠开源社区的力量,共同推动AI技术的发展和创新。

论文链接:https://arxiv.org/abs/2406.02061

项目地址:https://github.com/LAION-AI/AIW

▲ 滑动查看往期内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快讯!罗马尼亚总理表示“愿赌服输”。

快讯!罗马尼亚总理表示“愿赌服输”。

小企鹅侃世界
2024-11-26 08:53:59
李嘉诚:一个月挣三千块钱,你再怎么节约也只有三千

李嘉诚:一个月挣三千块钱,你再怎么节约也只有三千

清风拂心
2024-11-23 17:20:03
中日之间的误会,终于解开了,不到24小时,日外相称希望尽快访华

中日之间的误会,终于解开了,不到24小时,日外相称希望尽快访华

通政司知事
2024-11-25 10:14:29
日报称日英将在CPTPP内“拓展自由贸易”

日报称日英将在CPTPP内“拓展自由贸易”

参考消息
2024-11-25 15:54:05
他怎么又牛了!22岁被勇士赶走,23岁被称水货老大,24岁生涯巅峰

他怎么又牛了!22岁被勇士赶走,23岁被称水货老大,24岁生涯巅峰

球毛鬼胎
2024-11-25 22:44:53
纽约时报分析师:中国在沙特发行的美元债券,是用美元打败美国

纽约时报分析师:中国在沙特发行的美元债券,是用美元打败美国

阿凫爱吐槽
2024-11-26 09:45:05
活塞压哨绝杀双杀猛龙 艾维25+8献制胜一击巴恩斯31+14+7

活塞压哨绝杀双杀猛龙 艾维25+8献制胜一击巴恩斯31+14+7

醉卧浮生
2024-11-26 10:45:34
官方:凯迪拉克将在2026赛季成为F1第11支车队

官方:凯迪拉克将在2026赛季成为F1第11支车队

懂球帝
2024-11-26 03:55:05
杭州西湖边的“兔子警官”,升职了

杭州西湖边的“兔子警官”,升职了

极目新闻
2024-11-25 19:58:00
“润二代”被特朗普任命为安全顾问!还未上任就提“抗中三条”

“润二代”被特朗普任命为安全顾问!还未上任就提“抗中三条”

消失的电波
2024-11-25 21:35:40
部队首长调动迷彩服怒砸“金伯帆”秦军长:警察回去!天王老子来了也没用

部队首长调动迷彩服怒砸“金伯帆”秦军长:警察回去!天王老子来了也没用

野史留根
2023-11-17 16:32:38
英媒:如果中俄关系断裂,特朗普愿意将乌克兰交给俄罗斯

英媒:如果中俄关系断裂,特朗普愿意将乌克兰交给俄罗斯

大风文字
2024-11-25 17:16:51
苏州和杭州这两座形状相反的建筑,您觉得哪一座更漂亮呢?

苏州和杭州这两座形状相反的建筑,您觉得哪一座更漂亮呢?

新浪财经
2024-10-27 00:07:04
“靠烟吃烟”的国家烟草专卖局原局长凌成兴被公诉

“靠烟吃烟”的国家烟草专卖局原局长凌成兴被公诉

政知新媒体
2024-11-25 15:24:37
中国“最贵”女秘书,年薪849万,年近50岁像少女,老板名字耳熟

中国“最贵”女秘书,年薪849万,年近50岁像少女,老板名字耳熟

苏曼文史
2024-11-25 09:15:51
航母有多难养?山东舰3600多房间,一天供7顿饭,难怪小国养不起

航母有多难养?山东舰3600多房间,一天供7顿饭,难怪小国养不起

小胡军事爱好
2024-11-20 21:56:09
贵州出版集团博优金融服务有限公司副总经理张连洪被查

贵州出版集团博优金融服务有限公司副总经理张连洪被查

界面新闻
2024-11-26 11:44:15
52岁戴耀明落魄到餐厅打工,要洗碗洗厕所干10多个小时,月薪曝光

52岁戴耀明落魄到餐厅打工,要洗碗洗厕所干10多个小时,月薪曝光

开开森森
2024-11-25 07:43:16
中方对日试行30天免签,那么日方呢?希望中日关系发展有新起点!

中方对日试行30天免签,那么日方呢?希望中日关系发展有新起点!

新民周刊
2024-11-26 09:07:12
深夜,集体大跌!

深夜,集体大跌!

21世纪经济报道
2024-11-26 08:17:25
2024-11-26 11:59:00
小微模型
小微模型
一起探索AGI世界,解锁AI实用技能,伴您步入智能生活!
136文章数 7关注度
往期回顾 全部

科技要闻

特朗普不补贴电车 加州:我补 但不含特斯拉

头条要闻

哈梅内伊:逮捕令远远不够 应处死内塔尼亚胡等人

头条要闻

哈梅内伊:逮捕令远远不够 应处死内塔尼亚胡等人

体育要闻

37岁,他用“半条右腿”重返巅峰

娱乐要闻

分手复合又打胎,黄晓明说希望是一场梦

财经要闻

洪灏刘煜辉最新对谈实录

汽车要闻

特斯拉限时优惠:Model Y仅23.99万起 还能5年0息

态度原创

健康
艺术
亲子
房产
手机

花18万治疗阿尔茨海默病,值不值?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

妈妈给宝宝新买的玩具,宝宝又怕又想跟它玩

房产要闻

合生把上百个亿万富豪搞破防了

手机要闻

华为Mate 70系列今晚抢购 超325万人次想买

无障碍浏览 进入关怀版