Common Sense Is All You Need
“常识就是你需要的一切”
https://arxiv.org/abs/2501.06642
摘要
近年来,人工智能(AI)取得了显著进展,但在所有动物都具备的一种基本认知方面仍然存在挑战:常识。包括那些为复杂任务(如自动驾驶)、问题解决挑战(如抽象推理语料库(ARC))以及对话基准(如图灵测试)设计的当前AI系统,往往缺乏在没有广泛先验知识的情况下适应新情况的能力。本文认为,将常识整合到AI系统中对于实现真正的自主性以及释放AI的全部社会和商业价值至关重要。
我们提议改变知识获取的顺序(ordo cognoscendi),强调开发从最小先验知识出发并能够进行情境学习、适应性推理和体现的AI系统的重要性——即使在抽象领域也是如此。此外,我们强调需要重新思考AI软件栈,以解决这一基础挑战。
没有常识,AI系统可能永远无法达到真正的自主性,而是表现出渐近性能,接近理论理想如AIXI,但由于无限的资源和计算需求,在实践中仍然无法实现。
虽然扩大AI模型规模和通过图灵测试等基准测试在不需要自主性的应用程序中带来了显著进步,但仅靠这些方法不足以实现具有常识的自主AI。通过重新定义现有的基准和挑战,以实施需要真正常识的约束,并通过扩大我们对体现的理解,包括物理和抽象领域,我们可以鼓励开发更好地处理现实世界和抽象环境复杂性的AI系统。
这种方法与AI研究的最终目标一致,并确保投资有助于可持续和有意义的进步。
关键词:人工智能 · 常识 · 自主性 · 体现 · AI软件架构
1 引言
1.1 背景和动机
人工智能取得了显著成就,从掌握复杂游戏到启用语音激活助手。然而,尽管取得了这些进步,AI系统往往缺乏常识——所有动物都能理解和推理世界的能力。这种缺陷在动态现实世界环境中运行的自主代理中尤为明显,例如自动驾驶汽车、机器人助手和对话系统,以及在抽象问题解决任务如抽象推理语料库(ARC)挑战中。
例如,虽然AI驱动的车辆可以使用广泛的传感器数据和映射来导航预定义路线,但它们可能难以应对需要适应性决策的意外障碍或新场景。同样,解决解决问题挑战的AI系统在很大程度上依赖于广泛的训练数据,限制了它们在编程知识之外进行泛化和推理的能力。即使是通过图灵测试的AI系统,能够进行类人对话,也可能缺乏真正的理解和常识推理。
AI中缺乏常识不仅妨碍了性能,还带来了安全风险,并阻碍了真正自主性的实现。随着AI系统越来越多地融入社会,解决这一问题变得越来越关键。所有动物都表现出生存所必需的常识,通过与环境的互动展示基本智能。这一观察结果证明了将常识整合到智能系统中既是必要的,也是可实现的。
近期专家观点:
人工智能和深度学习领域的先驱,2018年ACM A.M. 图灵奖(计算机科学领域最负盛名的奖项)得主Yann LeCun,最近通过指出“人工智能系统仍然缺乏猫的一般常识”来强调当前AI系统的局限性。虽然将AI描述为“比猫更笨”取决于如何定义智能,但我们同意其背后的观点,即猫和一般动物拥有当前AI所缺乏的常识。这种比较强调了AI能力与即使是认知能力相对简单的动物所表现出的直观理解之间的差距。
通过承认该领域最杰出专家之一的这一观点,我们强调了在AI发展中关注常识的重要性。尽管深度学习领域取得了重大进展——这一领域在很大程度上是由Schmidhuber、LeCun、Geoffrey Hinton、Yoshua Bengio和其他许多杰出人物塑造的——但AI在复制动物所表现出的常识方面仍存在根本性的差距。
1.2 实现自主性需要常识
本文的中心论点是,常识是AI达到真正自主性和与人类及动物智能相当的功能性所需的一切。我们断言:
• 当前AI方法不充分:
- 许多AI开发工作流程缺乏整合常识的重点,导致适应性和理解力受限。
- 基于这些方法构建的AI系统可能表现出性能提升,但最终会达到一个平台期,无法实现真正的自主性。
• 向理论理想的渐近行为:
- 没有常识,AI系统可能接近理论构造如AIXI[3]——一个假设的最优代理,但从未真正达到实际自主性。
- AIXI需要无限的计算资源和时间,使其在现实世界中无法实现。
- 当前的AI路径可能导致收益递减,为边际收益需求不断增加的资源。
• 专注于常识是必不可少的:
- 通过整合常识,AI系统可以适应新情况,做出直观决策,并在没有详尽计算需求的情况下自主运行。
- 这种关注使AI开发与人类和动物所展现的实际能力保持一致。
1.3 需要重新思考AI软件架构
在认识到当前人工智能系统在实现真正自主性方面的局限性时,我们意识到可能需要重新思考用于人工智能开发的整个软件栈。传统的软件架构通常并非旨在容纳常识推理的整合。这一认识具有挑战性,因为它需要我们脱离既有的方法论,并对根本性的新方法持开放态度。然而,为了开发出能够可靠且自主运行的人工智能系统,重新设计软件栈以支持常识整合可能是至关重要的。
我们的方法质疑仅在现有框架内进行渐进式改进是否足够。我们提出,实现真正的自主性可能需要对人工智能软件架构进行根本性的重新设计,以纳入能够实现上下文学习、适应性推理以及物理和抽象意义上的具身化的机制。这种转变可能涉及整合来自认知科学、神经科学以及其他学科的概念,以构建学习和推理方式更接近生物智能的系统。
1.4 本文的目标
本文的主要目标是:
详细定义常识:
- 在人工智能的背景下,提供对常识的全面定义,强调其组成部分,如上下文学习、适应性、从最少的先验知识开始,并指出其在所有动物中普遍存在。
- 引入一个更广泛的概念——具身化,它不仅适用于物理交互,还适用于抽象领域,例如像ARC挑战这样的问题解决任务。
分析当前问题和方法:
- 考察现有的基准测试,如ARC挑战、图灵测试和自动驾驶级别,指出它们在测试和开发人工智能系统中的常识方面存在不足。
- 讨论当前人工智能开发路径如果不整合常识,可能永远无法实现真正的自主性,反而会需要不切实际的资源。
纳入专家见解:
- 引用人工智能领域的领导者如Yann LeCun和Eric Schmidt的观点,强调当前人工智能系统与动物智能相比的已知局限性,并回应有关自我改进人工智能的担忧。
提出开发重点的转变:
- 主张开发以常识为重点的现有问题变体的重要性,认为在这些更具挑战性的任务上取得部分成功,比在不真正测试常识的任务上取得完全成功更有价值。
- 倡导重新思考人工智能软件栈,以更好地支持常识的整合。
回应理论上的反驳:
- 讨论理论上的挑战,例如“没有免费午餐定理”,并展示如何通过将问题空间限定在明确定义的领域来缓解这些限制。
提供可操作的建议:
- 为人工智能社区提供实际步骤,以重新设计基准测试、开发新的评估指标,并促进跨学科合作,以优先发展人工智能中的常识。
2 定义人工智能中的常识
2.1 常识的详细定义
在人工智能中,常识是指一个系统能够以灵活、情境化和适应性的方式理解、学习和推理世界的能力,就像人类和动物所做的那样。其关键组成部分包括:
通过涵盖这些组成部分,人工智能中的常识使系统能够在复杂的动态环境中(无论是物理环境还是抽象环境)有效运行,展现出类似于人类和动物认知的灵活性和理解力。
2.2 超越物理世界的具身化
尽管具身认知传统上指的是与现实世界的物理互动,我们提出一个更广泛的概念——具身化,它包括在抽象或虚拟领域的互动。在这个背景下,具身化表示人工智能系统通过感知和行动与任何环境(物理的或抽象的)进行互动的能力。
通过拥抱物理和抽象两种形式的具身化,我们扩大了人工智能系统在多样化情境中获取常识的潜力。这种泛化对于像ARC挑战这样的任务至关重要,在这些任务中,物理具身化并不适用,但认知具身化却发挥着重要作用。
2.3 所有动物都表现出常识
重要的是要认识到,常识并非人类所独有;所有动物都表现出对其生存至关重要的常识。动物的常识是指它们与生俱来和后天习得的行为,使它们能够:
支持这一观点的专家观点:
Yann LeCun认为“人工智能系统仍然缺乏猫所具有的普通常识”,这突显了人工智能与基本动物智能之间的巨大差距。LeCun与Geoffrey Hinton和Yoshua Bengio一起因在深度学习领域的开创性工作获得了2018年ACM A.M.图灵奖,这些工作推动了人工智能的许多最新进展。尽管取得了这些进步,LeCun仍然强调人工智能系统仍然缺乏使动物(如猫)能够有效与现实世界互动的常识。
3 当前人工智能基准测试的局限性 3.1 对ARC挑战的分析
抽象与推理语料库(ARC)是一组旨在评估人工智能系统抽象概括和推理能力的任务。尽管其目标是超越模式识别,迈向认知推理,但其在测试真正常识方面仍存在若干局限性:
3.2 案例研究:全自动驾驶(FSD)与 SAE 等级
全自动驾驶(FSD)车辆的开发提供了一个实际案例,展示了未优先考虑常识所带来的局限性。
理解 SAE 自动驾驶等级:
等级 1 至 等级 4:
AI 系统缺乏常识,无法完全独立处理所有可能的场景,因此仍需远程协助。
车辆可以在特定条件或限定区域内无驾驶员运行。
可能需要远程人工干预以应对边缘情况或意外情况。
具有不同程度的自动化,但在特定情况下仍需人为干预。
- 等级 1-3:
- 等级 4:
- 局限性:
等级 5(完全自动驾驶):
若不整合常识,实现等级 5 是无法达到的。AI 系统可能会持续改进,但最终仍会遇到瓶颈,因缺乏常识推理而无法真正实现完全自主。
目标是在所有环境和条件下完全无需人为干预或远程协助地运行。
- 挑战:
- 处理不可预测的情况:
- 常识有助于理解细微的上下文线索
,例如识别非典型的人类手势、意外障碍物和复杂的道路状况。
具有常识的 AI 可以在边缘情况下自主决策,而无需人工协助,从而更接近真正的自动驾驶。
具备常识的 AI 系统能够从以往经验中进行泛化,以应对新的和无法预见的情况。
- 问题:
开发过程可能假设渐进式改进最终会自然实现完全自动驾驶,但缺乏明确的常识整合策略。
- 风险:
这种方法导致 AI 系统无法突破 4 级自动驾驶的能力瓶颈,无论投入多少资源或计算能力。
渐近行为与资源限制: AIXI 类比:
AIXI 是一个理论上的最优决策代理模型,但由于需要无限计算资源,无法实际实现。
如果不整合常识,追求自动驾驶可能会导致 AI 需要指数级增长的计算资源,却只能获得递减的性能提升。
FSD 领域中 AI 系统缺乏常识,说明必须直接解决这一核心问题。否则,无论投入多少资源,真正的 5 级自动驾驶都无法实现。
3.3 “奇迹发生在此”现象
在 AI 开发流程中,往往隐含假设,即某些复杂能力(如常识推理)会随着渐进式改进自然出现。这导致了一个关键问题:
未定义的流程:
- 描述:
从当前能力提升至完全自动驾驶的路径中,缺乏具体的常识整合计划。
- 影响:
开发者可能会执行多个开发步骤,但核心要素——常识,并未得到系统性的解决。
- 观察:
AI 可能在初期取得进展,但最终会表现出渐近行为,即进一步提升需要投入不成比例的资源,却收效甚微。
- 理论类比:
类似于 AIXI 理论代理,AI 可能在理论上趋近最优性能,但由于资源限制,仍然难以实现。
- 停滞:
- AI 系统可能会达到性能瓶颈
,如果不整合常识,进一步提升将变得微不足道。
- 资源误投:
持续投资于未解决核心问题的方法,可能导致巨大的财务损失。
- 技术幻灭:
未能实现承诺的能力,可能导致利益相关者和公众的怀疑。
- SAE 4 级的局限性:
依赖远程人工干预,突显 AI 无法独立应对所有可能的场景。
- 需要根本性变革:
达到 5 级自动驾驶需要范式转变,必须整合常识,而非仅靠渐进式改进。
- “奇迹发生在此”现象
强调了在 AI 开发流程中明确整合常识的重要性。
如果不解决这一基础问题,AI 无法实现真正的自主性,也无法应对现实世界和抽象任务的复杂性,无论投入多少资源。
AI 规模扩展的成就:
通过大量数据、计算能力和复杂架构扩展 AI 模型,在不需要自主性的领域取得了重大突破,包括:
特定领域的增强性能:
- 自然语言处理(NLP):
大型语言模型(如 GPT-3、GPT-4)能够生成连贯且符合上下文的文本,可用于翻译、摘要、内容创作等任务。
- 计算机视觉:
先进模型在图像识别、目标检测、图像生成等方面表现卓越,影响医疗成像、自动化检测等领域。
- 医疗:
AI 辅助疾病诊断、医学影像分析、个性化治疗方案。
- 金融:
AI 促进欺诈检测、算法交易、聊天机器人客服。
- 娱乐与媒体:
AI 算法个性化推荐内容,创作音乐,生成视觉特效。
尽管扩展规模带来了显著的 AI 能力提升,但单靠扩展无法实现自主性,其主要局限包括:
- 缺乏常识和理解能力:
规模化模型通常作为统计学习器运行,缺乏对上下文的真正理解,也无法适应未知情况。
- 无法在复杂环境中自主运作:
没有常识的 AI 难以在动态、现实或抽象环境中做出可靠决策,而这对自主性至关重要。
- 依赖预定义数据:
规模化 AI 需要大量训练数据,遇到超出训练分布的场景时,性能可能下降。
3.4.1 AI 基准测试中性能瓶颈的证据
尽管 AI 规模化推动了显著进步,但越来越多的证据表明,随着资源投入的增加,性能提升趋于递减。多个知名 AI 基准测试反映了这一现象:
- COCO 数据集目标检测:
尽管模型和数据集规模持续扩大,但 COCO 数据集上的最佳模型 mAP(平均精度均值)在 65% 左右已停滞超过一年 [Papers With Code, 2025a]。
- UCF-Crime 监控视频异常检测:
UCF-Crime 数据集的 AUC(曲线下面积)已稳定在 87%,凸显了当前方法在处理真实世界复杂性方面的局限性 [Papers With Code, 2025b]。
- ActivityNet-1.3 时序动作定位:
ActivityNet-1.3 基准测试的 mAP 过去一年维持在 11% 左右,未见显著提升 [Papers With Code, 2025c]。
这些基准测试提供了当代 AI 系统趋于渐近行为(Asymptotic Behavior)的具体证据。尽管计算资源和数据规模大幅增长,性能提升已进入瓶颈期,表明单纯依赖扩展的收益正在递减。
这一停滞现象并不局限于特定基准测试。行业领袖(包括埃隆·马斯克)指出,AI 领域已基本耗尽高质量训练数据的供应,进一步限制了扩展的潜力 [Wiggers, 2025]。如果不引入常识推理等创新方法并提高数据利用效率,AI 系统将难以突破这一瓶颈。目前的模型在预定义环境下表现优秀,但难以泛化到未知场景——这一核心挑战必须解决,才能推动 AI 取得新的突破。
整合常识以实现自主性的必要性
- 释放真正的社会与商业价值:
结合常识的自主 AI 才能释放其在社会和商业中的全部潜力。
诸如完全自动驾驶、机器人助手、智能代理软件等应用,需要 AI 具备理解、适应并独立安全决策的能力。
- 可靠且值得信赖的自主性:
- 提升信任度与普及率:
常识的融入确保 AI 行为符合道德规范,并与人类价值观一致。
具备自主性且可靠的 AI 系统更容易赢得用户信任并实现广泛应用。
- 用户信心:
- 伦理与安全决策:
- 互补性努力:
规模化仍能提升 AI 在非自主性应用中的能力,但整合常识才是实现自主性的关键。
- 战略性投资:
资源应不仅用于扩展,还应投入到整合常识的研究与开发,以解决 AI 自主性面临的核心挑战。
设定现实预期:
- 明确认知:
认可规模化能够带来先进能力,但仅靠规模化本身无法实现自主性,这有助于引导 AI 领域关注真正需要解决的问题。
规模化在无需自主性的 AI 应用中取得了重大进展,并带来了显著的社会和商业价值。然而,要释放 AI 的真正潜力,特别是在需要可靠和可信赖自主性的应用中,整合常识至关重要。认识到规模化在实现自主性方面的局限性,使我们能够将努力方向调整到这一核心挑战上。
3.5 图灵测试与自主性的误解
理解图灵测试及其重要性:
图灵测试由艾伦·图灵在其 1950 年开创性的论文《计算机器与智能》中提出,是人工智能领域的基础概念。该测试评估机器是否能够展现出与人类无法区分的智能行为。在经典定义中,如果一位人类评估者与一台机器和一名人类进行自然语言对话,却无法可靠地区分出哪一个是机器,则该机器被认为通过了测试。
图灵测试的优势:
- 历史重要性:
图灵测试是对机器智能的最早操作性定义之一,为 AI 研究提供了一个具体目标。
- 促进自然语言处理发展:
该测试强调语言作为智能的媒介,推动了自然语言处理和理解的进步。
- 激发哲学与伦理讨论:
它引发了关于意识、本质智能以及创造模仿人类行为的机器的伦理影响的讨论。
- 人类式交互的基准:
图灵测试为机器设定了高标准,要求其能够进行流畅且符合语境的对话,反映出语言使用的复杂性。
- 鼓励泛化能力:
机器若想通过测试,必须能处理广泛话题并适应突发性问题,这体现了一定程度的通用智能。
- 易于理解与应用:
该测试简单易行,因而成为一个长期流行的 AI 评估基准。
尽管图灵测试具有重要影响,但它并未涵盖本论文所定义的自主性,也无法保证 AI 拥有常识:
- 关注模仿而非理解:
图灵测试评估的是机器模仿人类对话的能力,而非其像人类或动物一样理解或推理世界的能力。
- 缺乏具身认知(Embodied Cognition):
通过图灵测试并不要求 AI 需要与物理或抽象环境交互或理解这些环境,因此忽略了自主性中至关重要的具身性因素。
可能不依赖常识:
AI 可能仅依赖语言中的统计模式,使其看似智能,但并未真正具备上下文学习或自适应推理能力。
不评估决策与行动能力:
图灵测试不考察 AI 是否能够做出决策、执行行动或适应变化的环境,而这些对于自主系统至关重要。
对自主性进展的误解:
通过图灵测试可能会制造出 AI 逐步走向自主智能的错觉,转移人们对常识整合和真实世界理解的关注。
无法满足现实与抽象应用需求:
通过图灵测试的 AI 可能仍无法胜任需要环境交互、伦理决策和适应性的实际应用场景。
评估具身智能:
基准测试应考察 AI 在物理和抽象环境中的感知、行动和学习能力。
强调常识能力:
测试应关注 AI 是否具备上下文理解、自适应推理能力,并能从“白板状态”(tabula rasa)开始学习。
尽管图灵测试在 AI 发展史上具有重要价值,但它并不能衡量 AI 系统是否具备自主性或常识。认识到这一局限性,有助于研究人员和开发者将注意力转向更相关的基准测试,以实现真正的自主性和常识整合。
4 正确的认知顺序:聚焦常识
4.1 重新定义 AI 挑战的解决方法
要实现 AI 系统的真正自主性,必须重新审视并定义我们解决 AI 挑战的方法。传统上,通过逐步提升 AI 能力而未明确整合常识的方法已被证明不足。因此,我们提倡一种范式转变,从一开始就优先开发和评估 AI 的常识能力。
重新思考 AI 软件架构:
基础性重构:
考虑对底层软件架构进行重新设计,以更好地支持常识整合。
借鉴认知科学和神经科学的原则:
利用生物系统如何处理信息的见解来指导 AI 设计。
构建具身认知系统:
发展既具备物理交互能力又具备认知能力的 AI,使其能与环境互动、学习和适应。
- 重新设计类似 ARC(Abstraction and Reasoning Corpus) 的基准测试:
强调最小化先验知识:
修改 ARC 挑战,使 AI 系统仅限于使用“假设知识”作为其先验知识库。
这强调 AI 需要通过推理和上下文学习来解决问题,而不是依赖大量训练数据。
创建真正的“白板(Tabula Rasa)”场景:
确保 AI 系统在特定问题领域上从零开始。
这种方法模拟人类和动物如何在遇到新情况时依赖基本认知能力来适应和学习。
将常识整合到 FSD 研发中:
将重点从纯粹的传感器和数据驱动模型转向包含上下文理解和自适应推理的模型。
强调与多样化环境的交互:
发展能够通过直接互动学习不同驾驶环境的 AI,使其能以类似人类的判断处理突发情况。
避免过拟合和数据偏差:
限制先验知识可减少 AI 生成只适用于特定数据集但无法泛化的新问题的风险。
促进真正的推理能力:
AI 必须依赖基本原则和认知过程来解决问题,从而发展真正的常识能力。
4.2 先解决更难的问题的优势
虽然从更具挑战性的问题入手可能看似违反直觉,但专注于以常识为核心的任务能带来诸多重要益处:
促进深度理解:
质量优先于数量:
即使 AI 仅能部分解决复杂的常识性问题,也表明其已经发展出有意义的推理能力。
构建稳固的基础:
这一方法确保 AI 的能力建立在基本理解之上,而不是单纯的模式识别。
避免收益递减:
关注常识的核心问题,可防止当前 AI 发展路径中常见的性能瓶颈问题。
为真正的自主性铺平道路:
通过及早攻克基础挑战,后续的进步可建立在坚实的基础之上,从而实现更大规模、可持续的发展。
- 高效利用计算资源:
关注常识问题可减少对大规模数据集和极端计算资源的依赖,而这些资源在没有基础推理能力的情况下,往往难以带来相应的提升。
- 降低财务风险:
将投资转向发展常识能力,可避免因采用不充分的方法追求无法实现的目标而导致的重大损失。
应对对“无常识智能”的恐惧:
通过专注于整合常识,我们可以减少对智能系统行为不可预测或不道德的担忧。
建立公众信任:
展示对开发具备上下文理解和后果意识的 AI 的承诺,有助于改善公众对 AI 的认知与接受度。
5 理论性反驳与解决方案
开发具备常识的 AI 系统面临多个理论挑战。然而,通过将问题空间约束在明确定义的领域内,并采用合适的策略,可以缓解这些限制。
5.1 应对“无免费午餐”定理 理解“无免费午餐”(NFL)定理:
- 定义:
在优化和搜索算法的背景下,NFL 定理指出,没有单一算法能在所有可能的问题上都表现最佳。
- 对 AI 的影响:
该定理意味着,一个针对特定问题优化的 AI 可能在不同类型的问题上表现不佳,这对构建通用 AI 构成挑战。
- 关注明确定义的领域:
通过将 AI 的问题空间限制在特定、可理解的领域(无论是物理环境还是抽象问题空间),可以降低 NFL 定理的适用性。
- 利用结构性规律:
许多领域表现出一致的模式和结构,AI 可以学习并从中泛化,提高性能。
- 可行性论证:
AI 不需要解决所有可能的问题,而应该在其设计领域内表现良好。
尽管 NFL 定理存在,人类和动物仍然能够在其环境中有效地导航和推理,这表明可以开发出针对特定领域优化的智能系统。
- 生物系统作为证明:
- 专门化是可以接受的:
5.2 克服其他理论挑战
框架问题(The Frame Problem):
- 定义:
指在推理关于行动和变化时,如何确定哪些信息是相关的,哪些可以忽略的挑战。
- 通过具身认知(Embodied Cognition)来解决:
– 与环境的互动(物理或抽象):
通过直接与环境互动,AI 系统可以根据反馈和经验学习识别相关因素。 – 情境学习:
持续学习使得 AI 能够更新其在各种情境中对相关内容的理解。
资格问题: • 定义: – 难以明确指定某个行动达到预期效果所需的所有前提条件。 • 通过自适应推理解决: – 从经验中学习:
AI 系统可以通过在其领域中的试验和错误积累有关前提条件的知识。 – 概率推理:
使用概率模型可以有效处理不确定性和部分知识。
计算复杂性和组合爆炸: • 挑战: – 在复杂环境中,可能的状态或行动的数量可能呈指数级增长,使得穷举计算变得不可行。 • 通过层次化和模块化方法解决: – 层次化表示:
将知识组织成抽象层次,通过聚焦于更高层次的概念来减少复杂性。 – 模块化:
将任务分解为更小、更易管理的组件,从而提高计算效率。
强调领域约束: • 结构化领域减少复杂性: – 无论是物理领域还是抽象领域,具有明确约束的领域会限制可能状态和行动的范围。 • 聚焦相关情境: – 集中在领域内可能发生的实际情境上,进一步减少计算需求。
6 限制问题空间到明确定义的领域
6.1 结构化领域作为环境
当 AI 系统在结构化领域中操作时,它们在获取常识方面的效果得到了增强——这些环境具有一致的规则、模式和约束。这些领域可以是物理的,例如现实世界,也可以是抽象的,例如数学问题空间或游戏环境。
结构化领域的特点:
• 明确的规则和约束:
– 领域有特定的规则来规范互动,这些规则可以是物理法则或逻辑原则。
• 可观察的规律性:
– 重复的模式和结构使得识别和预测成为可能,从而促进学习。
• 有限且相关的情境:
– 可能的情境集合是可管理的,并且与 AI 的功能相关,从而实现有效建模。
示例:
• 物理领域:
– 现实世界,物理法则如重力和运动在其中适用。
• 抽象领域:
– ARC 挑战,其中任务在具有特定规则和模式的受限问题空间内定义。
6.2 对 AI 开发的影响
复杂性简化:
• 可能性空间的减少:
– 通过专注于结构化领域,理论论证中考虑的无限可能性被缩小为有限且可管理的集合。
• 利用领域规律性:
– AI 可以从环境中存在的一致模式中学习并进行归纳。
与人类和动物学习的对齐:
• 具身互动:
– 就像人类和动物通过与环境互动学习一样,AI 系统也可以通过与结构化领域的互动来发展常识。
• 知识扎根:
– 领域约束帮助将 AI 推理扎根于具体的经验或逻辑原则中,增强理解和适应性。
实际开发策略:
• 层次化学习模型:
– 实现分层架构,从基本输入到抽象推理处理信息。
• 持续学习和适应:
– 允许 AI 系统随着时间的推移学习,适应领域内的新信息和变化的环境。
受限问题空间的好处:
• 改进的泛化能力:
– 通过专注于一致且结构化的环境,AI 系统可以更好地将从学习经验中获得的知识泛化到领域内的新情境中。
• 提高效率:
– 将范围限制在相关情境内减少了计算需求和资源消耗。
结论:
通过将问题空间限制在明确定义的领域内,我们可以缓解理论挑战,创造有利于 AI 系统常识发展的环境。无论领域是物理的,如现实世界,还是抽象的,如 ARC 挑战,结构化环境使 AI 能够有效地学习、适应和推理。
7 将常识整合的实际步骤
7.1 重新设计基准测试和挑战
修改现有基准测试:
• 加强 ARC 挑战:
– 强制最小化先验知识:
限制 AI 系统仅访问“假定知识”部分,禁止在开发过程中访问训练和测试问题。
这样可以防止过拟合,并鼓励开发真正的推理能力。
– 促进认知具身:设计需要 AI 系统在抽象领域内进行认知互动的任务,促进自适应推理和情境学习。
• 创建新的以常识为重点的基准测试:
– 开发需要情境理解的任务:
创建需要根据情境解释信息的挑战,涵盖物理和抽象环境。
– 强调“白板”方法:设计评估 AI 从最小先验信息中学习和适应的能力的基准测试,模仿人类和动物如何面对新情境。
实施“白板”测试:
• 零样本和少样本学习评估:
– 评估 AI 系统在没有先前训练示例的情况下执行任务的能力,突出其泛化和推理能力。
• 过程导向的指标:
– 评估 AI 系统的推理过程和决策路径,而不仅仅是最终输出,以确保它们采用常识策略。
7.2 开发新的评估指标
评估认知过程:
• 可解释性和透明性:
– 要求 AI 系统提供决策的解释或理由,以便评估者评估常识推理的存在。
• 测量适应性和学习效率:
– 跟踪 AI 系统从新经验中学习或适应领域内变化的速度和效果。
关注资源利用:
• 效率指标:
– 评估为实现性能水平所需的计算和数据资源,推动资源高效的解决方案。
• 可扩展性评估:
– 确定 AI 系统在扩展到更复杂的任务或更大领域时如何保持性能,这表明其具有强大的常识能力。
7.3 拥抱跨学科合作
整合其他领域的见解:
• 认知科学和神经科学:
– 利用对人类和动物认知的理解来指导 AI 架构和学习模型。
• 哲学和伦理学:
– 融入伦理推理框架和关于知识与理解的哲学视角。
合作研究计划:
• 跨学科团队:
– 组成由 AI、心理学、神经科学、哲学和其他相关领域的专家组成的团队,以解决整合常识的多面挑战。
• 数据和方法的开放共享:
– 通过在 AI 社区之间共享数据集、算法和研究成果,促进透明度和合作。
7.4 重新思考 AI 软件栈
解决架构限制:
• 开发新的软件框架:
– 设计本质上支持常识推理的 AI 软件架构,可能受到生物有机体中神经和认知结构的启发。
• 融入模块化和层次化结构:
– 实现允许分层学习和推理过程的软件设计,使 AI 系统能够从更简单的组件构建复杂的理解。
采纳新方法:
• 结合符号和统计方法:
– 将符号推理(用于逻辑和规则)与统计学习(用于模式识别)的优势结合起来,以增强常识能力。
• 强调学习而非编程:
– 将焦点从硬编码的知识转向从互动中学习和适应的系统,与常识在人类和动物中发展的方式相一致。
8 当前方法的风险与变革的必要性
8.1 期望与资源的不匹配
过度强调规模化以实现自主性的风险:
• 投资分配不当:
– 继续大力投资于规模化,并期望其带来自主性,可能会将资源从整合常识的核心挑战上转移开。
• 期望差距:
– 高估规模化在自主性方面的成就可能导致失望和怀疑,尤其是当 AI 系统未能满足这些期望时。
解决核心挑战:
• 重定焦点:
– 在规模化和整合常识之间保持平衡,确保 AI 进展与实现可靠自主性的目标一致。
• 最大化投资回报:
– 通过专注于正确的问题,资源可以更加高效地利用,从而使 AI 系统在社会和商业上产生更大的价值。
8.2 技术幻灭
公众信任的丧失:
• 未兑现的期望:
– 屡次未能实现自主 AI 的承诺可能会导致用户、投资者和政策制定者的怀疑。
• 伦理和安全问题:
– 缺乏常识的系统可能表现出不可预测的行为,导致事故或伦理失误,从而削弱信任。
对研究和发展的影响:
• 融资减少:
– 幻灭可能导致 AI 研究的资金减少,阻碍进展。
• 人才流失:
– 如果 AI 开发停滞不前,研究人员可能会转向其他领域。
8.3 解决自我改进 AI 的担忧
专家对自我改进 AI 的看法:
谷歌前 CEO 埃里克·施密特警告称,当 AI 系统开始自我改进时,“我们需要考虑其影响”。这一担忧反映了对 AI 系统在没有足够监督的情况下修改和增强自身能力的潜在风险的担忧。
没有常识的智能的危险:
• 不可预测的行为:
– 缺乏常识的 AI 系统可能无法理解自我改进的广泛影响,从而导致意外和潜在有害的结果。
• 缺乏伦理推理:
– 没有常识的 AI 可能会以与人类价值或安全规范冲突的方式优化目标。
没有常识的 AI 与具有常识的 AI 的比较:
• 没有常识的 AI:
– 由于缺乏对情境和后果的理解,可能无意中造成伤害。
– 自我改进可能放大现有的缺陷或偏见,增加负面影响。
• 具有常识的 AI:
– 更能够做出符合人类价值的明智决策。
– 能够进行伦理自我改进,识别并减轻风险。
通过整合常识来解决担忧:
• 增强的监督与控制:
– 具有常识的 AI 能够理解遵守安全协议和尊重人类监督的重要性。
• 伦理自我改进:
– 融入常识确保 AI 系统负责任地自我改进,优先考虑安全性和与人类价值的一致性。
8.4 真实的恐惧:没有常识的智能
理解公众的担忧:
• 对不可预测的 AI 的恐惧:
– 对 AI 或超智能的恐惧通常源于对没有常识的智能系统的担忧,这些系统可能做出有害的决策。
• 对 AI 决策的缺乏信任:
– 没有常识的 AI 可能无法理解或遵守社会规范和伦理标准,从而导致不信任。
通过整合常识来减轻恐惧:
• 建立可靠和可预测的 AI:
– 确保 AI 系统具有常识,减少意外行为的可能性。
• 使 AI 与人类价值对齐:
– 具有常识的 AI 更能够识别和尊重伦理考虑,从而增强公众信任。
对 AI 开发的影响:
• 安全性需要常识:
– 整合常识不仅是技术挑战,也是解决社会对 AI 担忧的关键因素。
• 推动负责任的创新:
– 专注于常识支持开发既先进又符合伦理的 AI 技术。
9 结论
9.1 重申核心论点
能够实现真正自治的 AI 系统的发展,依赖于常识的整合,这种能力是所有动物固有的,也是与物理和抽象环境互动的基础。虽然扩展性在非自治应用中带来了显著的进展,且像图灵测试这样的基准提供了关于类人对话的有价值见解,但仅依靠这些方法无法实现自治。
我们认为:
• 当前的 AI 方法不充分:
– 仅依赖扩展和增量改进,而不整合常识,会导致渐进式性能限制。
– AI 系统可能在特定领域表现出令人印象深刻的能力,但缺乏实现真正自治所需的适应性和理解力。
• 常识对自治至关重要:
– 整合常识使得 AI 系统能够适应新情况,做出直觉决策,并在没有过多计算需求的情况下自治操作。
– 这包括在定义良好的领域内进行物理和认知体现的能力。
• 重新思考 AI 软件堆栈是必要的:
– 实现真正自治可能需要从根本上重新设计 AI 软件架构,以支持常识的整合。
– 融合来自认知科学、神经科学和其他学科的见解,可以为开发像生物智能一样学习和推理的 AI 系统提供指导。
通过重新定义知识获取的顺序(ordo cognoscendi),优先考虑常识,我们可以:
• 解锁 AI 的真正社会和商业价值:
– 开发可靠、值得信赖并能在复杂环境中自主操作的 AI 系统。
• 提升 AI 的适应性和理解力:
– 使系统能够根据上下文学习并做出直觉决策,这是自治的关键。
• 设定现实的期望:
– 认识到扩展性和传统基准(如图灵测试)的作用,同时引导工作重点向整合常识的方向发展,以取得有意义的进展。
9.2 号召行动
我们呼吁 AI 社区——研究人员、开发者、政策制定者和教育者——:
• 承认扩展性贡献与局限性:
– 欣赏扩展性在非自治应用中为 AI 带来的进展,同时认识到其在自治方面的局限性。
• 优先研究常识整合:
– 关注常识整合这一核心挑战,以实现可靠、值得信赖的自治。
• 拥抱跨学科合作:
– 利用认知科学、神经科学、哲学和其他领域的见解来指导 AI 的发展。
• 战略性投资:
– 将资源合理分配于扩展性努力和解决常识问题的基础性研究,以确保平衡进展。
• 重新思考 AI 软件架构:
– 考虑从根本上重新设计软件堆栈,更好地支持常识整合,融入新的方法论和框架。
通过共同关注常识的整合并重新思考底层架构,我们可以释放 AI 的全部潜力,实现真正的自治,为社会和商业带来真正的价值。
9.3 拥抱安全与伦理的 AI 发展
基于像 Yann LeCun 和 Eric Schmidt 等专家提出的担忧,我们强调将常识整合进 AI 系统的重要性,以确保安全和伦理的自我改进。围绕 AI 和超级智能的恐惧,往往源于智能系统在没有常识的情况下操作,可能导致不可预测或有害的行为。
通过整合常识,我们可以:
• 缓解与 AI 自治相关的风险:
– 确保 AI 系统理解上下文、后果和伦理考量,从而减少意外伤害的可能性。
• 增强公众信任与接受度:
– 开发与人类价值观和社会规范一致的 AI 技术,解决公众的忧虑。
• 推动负责任的创新:
– 培养一个使 AI 系统积极贡献于社会的环境,推进技术的同时保障伦理标准。
总之,常识是你所需要的一切,它是弥合当前 AI 能力与真正自治之间差距的桥梁。通过优先考虑常识的整合并重新思考我们的方法——包括软件架构——我们可以创建不仅高效执行任务,还能理解并适应物理和抽象世界复杂性的 AI 系统。这一全面的方法对于实现有益人工智能的全部潜力至关重要。
原文链接:https://arxiv.org/pdf/2501.06642
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.