Bridging the Gap- Representation Spaces in Neuro-Symbolic AI2411.04393v1.pdf
弥合差距:神经符号人工智能中的表示空间
https://arxiv.org/pdf/2411.04393
摘要
神经符号人工智能是一种通过结合神经网络和符号学习的优势来提升人工智能模型整体性能的有效方法。然而,二者在处理数据的方式上存在差异,主要原因是它们通常使用不同的数据表示方法,而这往往是限制二者整体性能的一个重要因素。从这个角度出发,我们通过构建一个四级分类框架,分析了2013年以来的191项研究。第一级定义了五种表示空间类型,第二级关注表示空间可以表示的五种信息模态。然后,第三级描述了四种符号逻辑方法。最后,第四级类别提出了三种神经网络与符号学习之间的协作策略。此外,我们还基于其表示空间对46项研究进行了详细分析。
1 引言
神经符号人工智能是一种有前景的范式,它结合了神经网络的强大学习能力和符号人工智能的逻辑推理能力,以解决复杂的AI问题。然而,尽管这两种技术的合作看似自然,但它们在表示方式上的差异显然不容忽视。
在AAAI 2020会议上,Henry Kautz教授提出了一个神经符号系统的分类法。此外,许多研究人员从不同角度对近期的神经符号人工智能进行了相关综述。如图1所示,Acharya等人[1]提出了一种新的分类方法,根据神经部分和符号部分的作用对现有的神经符号人工智能进行了分类和讨论,包括“为推理而学习”“为学习而推理”以及“学习-推理”。Garcez等人[73]基于Henry Kautz引入的六种类型,提出了一个包含顺序型、嵌套型、协作型和编译型的神经符号AI分类法。此外,一些综述关注跨领域整合和应用。例如,Berlot-Attwell[27]从人工通用智能(AGI)需求的角度对神经符号视觉问答(VQA)进行了综述。Marra[128]基于七个维度,对整合神经符号人工智能和统计关系人工智能进行了全面综述。Belle[24]探讨了基于主观概率与随机世界语义学之间的区别、无限域和随机世界语义学的重要性以及概率在公式和量词中的应用,研究了统计关系学习(SRL)与神经符号学习之间的整合。Kleyko等人[104][102]对高维计算(HDC)和向量符号架构(VSA)进行了两部分的总结,内容包括已知计算模型、将各种输入数据类型转换为高维分布式表示、相关应用、认知计算和架构以及未来工作的方向。Delong等人[55]、Khan和Curry[98]、Lamb等人[107]、Singh等人[162]、Zhang等人[196][197]从神经符号推理的角度对图论和本体推理进行了多方面的总结。Panchendrarajan和Zubiaga[141]讨论了一种结合机器学习和符号方法的混合方法,重点关注自然语言处理的三个子领域:理解、生成和推理。
本综述是对上述现有综述的补充。它还旨在帮助初学者从表示空间的角度快速了解神经符号人工智能的最新研究趋势和典型工作原理。此外,我们专注于不同模态的表示能力及其对神经网络和符号学习表示的支持。
2 基于表示空间的神经符号人工智能类型
在本文中,“模态”指输入数据的模态,因此单模态模型描述的是一种只能处理一种数据类型的方法。相比之下,多模态模型可以处理多于一种的数据类型。此外,非异构和异构指的是表示空间是否能够同时支持神经网络的嵌入向量和符号逻辑的表示,而不是以对方的方式表示它们。只能支持其中一种的表示空间被称为非异构表示空间,反之则是异构表示空间。结合上述两种分类方法,我们将现有的神经符号人工智能研究分为五种类型:单模态非异构、多模态非异构、单模态异构、多模态异构和动态自适应模型。
该表格清晰地展示了每一类别的定义:
(1) 单模态非异构神经符号人工智能:神经网络从单模态数据中提取特征,表示空间仅支持一种表示方式。
(2) 多模态非异构神经符号人工智能:神经网络从多模态数据中提取特征,表示空间仅支持神经网络或逻辑符号表示中的一种。
(3) 单模态异构神经符号人工智能:神经网络从单模态数据中提取特征,表示空间可以同时支持神经网络和逻辑符号的表示。
(4) 多模态异构神经符号人工智能:神经网络从多模态数据中提取特征,表示空间可以同时支持神经网络和逻辑符号的表示。
(5) 动态自适应神经符号人工智能:表示空间可以根据任务需求动态调整和优化,即动态地满足上述四种分类的所有要求。
本研究调查了2013年以来的191项现有的神经符号人工智能研究,其中175项使用了单模态非异构表示方法,13项研究使用了多模态非异构混合表示方法。关于单模态异构表示方法有两项研究,多模态异构模型有一项研究。目前还没有研究使用多模态异构和动态自适应表示方法。
3 单模态非异构神经符号人工智能
我们将175项神经符号人工智能研究按照处理的数据类型划分为五个子类别:文本、图像、环境与状态、数值与数学表达式以及结构化数据。
3.1 文本
这一类别涵盖了51项研究,其中神经网络从文本数据中提取特征,然后使用逻辑符号方法对它们进行处理。此外,这些研究可以根据符号逻辑的类型进一步划分为四个分支:逻辑规则与编程、符号表示与结构、知识图谱与数据库、数学与数值运算。
3.1.1 符号:逻辑规则与编程
这一组合包括32项研究,所有研究都从文本中提取特征,例如自然语言、编程语言和特定领域的描述,然后通过语义解析将特征转换为符号逻辑可以处理的形式。这一过程弥合了基于数据的模式识别和基于规则的逻辑推理之间的差距。根据神经网络和符号逻辑的合作方式,这一组合中的研究可以分为三组。在本综述的这一部分的其余内容中,我们将默认使用本节中的分类模型进行研究统计。
(1) 神经符号生成:特征由神经网络提取,然后这些特征被转换为符号逻辑模块可以处理的形式。这一类别的研究包括[7, 13, 17, 23, 30, 34, 38, 54, 56, 83, 96, 117, 136, 137, 139, 140, 145, 158, 203]。
(2) 符号-神经增强:通过整合符号逻辑提供的高级知识(如符号逻辑规则、知识或结构化信息)来增强神经网络,以实现更好的特征解释或学习过程。[15, 35, 46, 95, 115, 116, 175, 175] 均属于此类别。
(3) 神经-符号协作:一种双向协作学习过程。神经网络提取的特征被转换为符号逻辑可以处理的形式,同时符号逻辑中的规则被反馈回神经网络。此类别的研究包括 [72, 149, 154, 193, 198]。
在这些研究中,Liang等人[115]提出了一个NSM(神经符号机器),它结合了神经网络和符号逻辑,以在大型知识库上高效执行离散操作。NSM使用一个神经编程模块,通过问题和描述接收自然语言输入,通过序列到序列模型提取语义,并通过将语义映射为一系列标记来生成可执行程序。管理模块以正确答案的形式为任务提供弱监督信号,通过奖励表明任务完成的程度。程序员需要从管理器提供的奖励中学习,并找到合适的程序。最后,NSM使用Lisp解释器执行程序员模块生成的程序的非可微操作。为了解决在从问答对中训练时遇到的寻找正确程序的问题,NSM通过检查生成程序的语法和语义来修剪程序员的搜索空间,即检查生成的程序是否会引发语法或语义错误,并过滤掉无效的程序序列以提高训练效率。符号逻辑以上述过程中的程序表达式和Lisp解释器的形式存在。前者通过将自然语言转换为代码来构建代表特定操作的程序序列——环境的概率生成模型。仅使用问答对进行训练时,NSM在WebQuestionSSP数据集上实现了新的最佳性能,而无需任何特征工程或领域特定知识,展示了NSM通过整合神经网络的统计学习能力和符号逻辑的推理能力的强大功能,能够有效地从弱监督信号中学习,并使用大规模知识库进行语义解析任务。
Pan等人[140]提出了LOGIC-LM,这是一种通过结合大型语言模型(LLM)和符号求解器来解决逻辑问题的方法。该方法通过三个阶段有效地将自然语言处理和确定性逻辑推理联系起来:问题表述、符号推理和结果解释。LOGIC-LM首先使用LLM将问题的自然语言陈述中的基本实体、事实和逻辑规则解释并翻译为逻辑中的谓词、变量和逻辑表达式。然后,LOGIC-LM使用确定性符号求解器对符号表示进行操作,并通过逻辑推理得出给定问题的答案或解决方案。同时,求解器的确定性确保了结论在逻辑上是一致且可追溯的。最后,LOGIC-LM使用一个自精炼模块,根据符号求解器的反馈迭代提高符号翻译的准确性。在初始符号表述导致错误或被认为不准确的情况下,自精炼模块利用求解器的输入——错误信息来修改和改进公式。在上述过程中,符号逻辑以逻辑编程语言、一阶逻辑、约束满足问题和布尔可满足性问题的形式存在。LOGIC-LM在多个逻辑推理数据集上的有效性得到了验证,这些数据集涵盖了从演绎推理到约束满足问题的范围,表明这种方法为解决大型语言模型在可靠逻辑推理方面的局限性提供了一个可行的想法。
Galassi等人[72]提出了一个神经符号论证挖掘框架,通过结合神经网络和符号逻辑来提高论证挖掘的性能。该方法首先使用循环神经网络、卷积神经网络和变换器架构等神经网络从学术文章、社交媒体内容和法律文件等文本数据中提取特征,并自动识别论证组件,如文章中的主张、理由和证据,以及它们之间的关系,如支持或反对。该研究提出使用概率逻辑编程(PLP)来融合神经网络输出和符号逻辑表示。具体而言,PLP框架使用带有概率标签的逻辑规则(如可废止规则)来表示不确定性,并将神经网络识别的论证组件和关系作为输入进行推理和分析。这种方法可以在单一学习过程中同时识别论证组件并分析论证关系,并通过在训练阶段引入规则和约束来实现全局决策调整。该研究中的符号逻辑以结构化论证和抽象论证的形式存在,前者通过定义一种形式语言并指定如何从该知识构建论证和反论证来表示知识,例如使用严格规则和推翻规则来表达论证的结构和内容;抽象论证通过关注论证之间的高级关系来处理逻辑不一致性。该研究提出的方法比传统论证挖掘更有效地处理复杂推理任务。
3.1.2 符号:符号表示与结构
这一类别包括六项研究。神经网络通过扩展的短期记忆网络、通用句子编码器、InferSent句子嵌入或Bert模型从文本数据中提取特征,然后通过各种方法将文本输入转换为结构化表示,例如使用符号栈机操作文本序列,或者使用句法分析树等句子的语法结构,或者生成符号表达式以表示数学问题的求解过程。其中,属于符号-神经增强的研究包括[37, 87, 143],而属于神经-符号协作分类的研究包括[42, 77, 179]。
Pinhanez等人[143]提出了一种方法,通过利用对话系统中意图识别标识符中嵌入的元知识来提高意图识别的准确性。从现有知识的角度来看,从文本或人类中获取结构化和完整的知识是一个挑战。该研究通过展示如何利用意图标识符中嵌入的原型分类法,为神经符号系统中的知识获取提供了一种高效方法。该方法首先通过神经网络从对话系统中用于意图识别的用户话语或句子中提取特征,并通过将一组意图标识符嵌入到另一个连续向量空间中生成嵌入表示。然后,利用元知识将该向量空间中的表示映射到通过原型分类法嵌入的意图标识符的另一向量表示空间,即通过分析开发者在意图标识符中隐含的原型分类法来捕获高级知识结构,并利用这种结构来提升模型的意图识别能力。符号逻辑以两种形式存在于这一过程中:一种是通过原型分类法表达的元知识,另一种是由这些原型分类法构成的知识图谱形式的结构。原型分类法反映了开发者通过连接不同意图之间共享的高级符号概念而嵌入到意图标识符中的结构化知识。这些知识结构是非正式但结构化的,描述了不同意图之间的关系和层次结构。实验结果表明,以这种方式嵌入元知识可以在大多数情况下提高意图识别的准确性。识别“超出范围”的样本可以显著提高识别准确率并降低误识率。同时,该方法能够自动挖掘和利用对话系统中嵌入的知识,无需专家的直接干预。
Chen等人[37]提出了NeSS(神经符号栈机),通过将符号栈机集成到序列到序列生成框架中作为机器操作控制器。具体而言,该方法利用神经网络从源语言的输入序列和目标语言的输出序列中提取特征。这些文本序列包含用于指导神经符号机器操作的命令或指令。然后,神经网络作为控制器,根据输入序列的特征生成一系列执行轨迹作为操作指令,这些指令随后由具有序列操作能力的符号栈机执行。输入序列通过一系列递归处理和序列操作,生成目标输出序列,实现对输入序列的联合理解和转换。NeSS中的符号逻辑主要以两种形式存在:符号栈机和操作等价性。符号栈机是NeSS的核心组件,通过符号操作(如栈推入、栈弹出、序列生成等指令)支持递归和序列操作,实现输入序列的联合处理和输出序列的生成。同时,符号栈机支持递归,可将整个序列分解为组件并分别处理。操作等价性是NeSS用于提升泛化能力的一个重要概念,通过比较不同输入序列生成的执行轨迹的相似性,识别和分类语义相似的组件,进一步促使模型学习组合组件的规则。实验表明,NeSS在四个需要组合泛化的基准测试中表现良好,包括SCAN语言驱动的导航任务基准测试、少样本学习的组合指令任务、组合机器翻译基准测试以及上下文无关语法解析任务,实现了100%的泛化性能,表明NeSS能够理解和生成符合给定规则的序列,并将学到的知识泛化到新的、未见过的组合。
此外,[42]中使用符号输出验证解决数学问题的正确性,而[77]中提出的方法则利用符号输出解释句子的结构或语义。[179]中提出的方法强调从感官数据中自动生成和利用符号的过程,即通过增量学习过程从输入数据中提取结构和流程,并自底向上生成符号,每个符号代表输入数据中的一个模式或概念。此外,该方法利用工作记忆绑定符号之间的关系并控制结构,模拟人脑在处理复杂概念结构时的工作方式。
上述例子展示了如何有效结合连续向量空间表示与高级离散结构化知识表示,如何将神经网络的学习能力与符号主义相结合,以及如何利用逻辑的精确规则和结构来提升模型的理解、推理、泛化和解释能力。
3.1.3 符号:知识图谱与数据库
这一类别包括12项研究,其中神经网络从文本中提取特征,符号逻辑存在于知识图谱、一阶逻辑事实和本体论中,以表示明确的规则、实体以及实体之间的关系,从而支持推理和决策。属于神经符号生成的研究包括[21, 31, 89, 101, 182, 183]。属于符号-神经增强分类的研究包括[91]。而[44, 86, 88, 121, 174]属于神经-符号协作。
Verga等人[183]提出了一种方法,通过帮助神经网络模型从大规模文本数据中学习,并直接与结构化知识库交互,从而提升模型在知识密集型任务中的表现。该方法的神经网络部分基于大规模预训练语言模型,通过学习语法、语义等特征来理解语言的细微差别。随后,利用预训练语言模型生成的上下文嵌入表示作为查询,从知识库中检索与当前上下文相关的三元组信息。检索结果被转换为神经网络可理解的形式,并与文本的上下文嵌入一起用于最终任务,如回答问题。在此方法中,符号逻辑以知识库中的三元组形式存在,通过显式接口将符号逻辑中的事实信息与神经网络编码的知识相结合。
Jain等人[91]提出了ReOnto(关系抽取本体论),该方法结合图神经网络和公开可用的本体论作为先验知识,用于识别生物医学文本中两个实体之间的句子关系。ReOnto通过将实体对嵌入图结构中(实体作为节点,潜在关系作为边),利用图神经网络捕捉实体之间的复杂交互。此外,该方法通过计算从本体论中提取的关系路径与句子中实体关系的语义相似性,联合预测实体对之间的关系。ReOnto中的符号逻辑以本体论中的关系路径形式存在,这些路径通过一系列逻辑关系连接两个实体。实验结果表明,ReOnto在两个公共生物医学数据集(BioRel和ADE)上优于所有基线方法,性能提升了约3%。
Hu等人[88]提出了OREOLM(知识推理增强的语言模型),通过结合符号逻辑的知识图谱推理和神经网络,提升开放域问答的性能。OREOLM的核心是通过嵌入在语言模型中的知识交互层,使语言模型与可微分的知识图谱推理模块协同工作。具体而言,该模型基于Transformer的语言模型通过识别问题中的关键实体及其上下文关系,生成与这些实体相关的查询或关系预测。随后,知识图谱推理模块根据语言模型的指令沿着预测的关系进行图遍历,并收集路径上的信息。这些信息被编码为嵌入向量并整合回语言模型,作为额外的上下文信息以帮助理解问题并生成答案。实验表明,OREOLM在开放域问答的多个基准数据集上表现出显著的性能提升,尤其是在处理需要多跳推理或缺失关系推理的复杂问题时。
3.1.4 符号:数学与数值运算
这一组合共包含一项研究。Flach和Lamb [68]专注于使用λ演算进行编码和计算,并通过学习在λ演算中执行归约来利用逻辑符号进行计算。该研究提出了关于Transformer模型能力的详细假设(H1和H2):H1认为Transformer能够学习执行λ演算中的单步计算,而H2则提出它能够执行完整的计算。具体而言,该方法使用Transformer模型从通过λ演算的语法规则生成的文本形式的λ项中提取特征。输出是这些项经过β归约后的新λ项,即函数体中的自由变量被实际参数替换。λ演算包括函数的抽象定义和应用,是一种用于表达函数抽象和函数应用的形式系统。它是函数式编程语言的理论基础,是图灵完备的,并且理论上可以表示任何可计算问题。该模型能够支持函数式编程语言的学习和研究,并通过λ演算规则简化表达式,以构建更强大的代码编辑器和编译器。Transformer模型在执行单步和多步β归约任务中表现出高准确率。在单步β归约任务中,模型的最高准确率达到99.73%。在多步β归约任务中,模型的准确率高达97.70%。即使输出没有完全正确预测,字符串相似性指数通常也超过99%,这表明Transformer模型能够有效地学习并执行基于λ演算的计算任务。
3.2 图像
这一类别包括51项研究,所有研究都通过神经网络从图像数据中提取低级特征,然后使用符号逻辑进行高级推理和决策。这些研究涉及四种逻辑符号方法的子类别:逻辑规则与编程、符号表示与结构、知识图谱与数据库以及数学与数值运算。
3.2.1 符号:逻辑规则与编程
这一组合共包含35项研究,其中神经网络从图像或视觉数据中提取诸如物体、场景结构或其他感知信息等特征,然后应用逻辑规则、谓词逻辑和概率逻辑编程来处理这些特征,以实现进一步的理解、推理和决策。这种组合包括基本应用,如初级图像分类和手写公式评估,以及更高级的决策和推理任务,如视觉关系检测和抽象逻辑推理,这些研究表明结合方法在多个领域和任务中具有巨大潜力。在这些研究中,属于神经符号生成分类的研究包括[6, 10, 12, 18, 40, 43, 49, 51, 63, 64, 71, 74, 76, 79, 85, 111, 113, 114, 119, 126, 160, 167, 173, 177, 189, 194, 201];属于符号-神经增强分类的研究包括[60];属于神经-符号协作的研究包括[3, 26, 48, 124, 125, 180, 186]。
在这些研究中,Li等人[114]提出了一种神经符号学习框架,旨在解决神经网络训练与符号约束求解之间的衔接问题。该框架通过引入“软化符号接地”过程,优化符号解的玻尔兹曼分布,并采用退火机制,避免了耗时的状态空间搜索过程。该方法可以从图像中提取特征,例如手写算术表达式和视觉数独,并通过学习输入数据的深度表示来识别模式和结构。通过“软化符号接地”,该研究实现了神经网络与符号逻辑之间的转换,利用玻尔兹曼分布模型和MCMC采样技术,将神经网络识别和提取的特征映射到潜在的符号空间(如识别的数字、运算符等),从而弥合神经网络的连续特征空间与符号逻辑的离散决策空间之间的差异。随后,输入被送入符号逻辑系统以生成输出。在这个方法中,符号逻辑部分以预定义的符号约束或规则的形式存在,这些符号约束代表了问题的逻辑结构和规则,例如算术表达式的评估规则、数独问题求解规则等,为神经网络提供了一个结构化的推理框架。实验结果表明,该研究在多个神经符号学习任务上表现优于现有方法,包括手写公式评估、视觉数独分类以及加权图的最短路径预测。
Shindo等人[160]提出了NSFR(神经符号正向推理器),这是一种基于一阶逻辑的可微分正向链推理方法,通过梯度下降等优化算法优化从已知事实和规则中推导新事实的过程。该方法中的神经网络从视觉数据中提取特征,并直接将神经网络输出的对象属性(如颜色和形状)所表示的提取对象映射为符号逻辑中的原子事实,然后使用这种基于原子形式的概率符号表示进行逻辑推理。与传统符号逻辑推理不同,NSFR通过可微分正向链推理近似逻辑运算,这一过程可以在梯度下降框架内进行并通过反向传播进行优化。在NSFR中,符号逻辑主要定义了对象之间的关系以及一阶逻辑推理的规则,使模型能够理解和处理高级概念和模式。通过对二维的Kandinsky模式和三维的CLEVR-Hans数据集的实验,NSFR展现了其在理解和推理涉及对象属性(如颜色和形状)以及空间关系(如“靠近”和“上方”)的复杂模式方面的强大能力。上述结果表明,NSFR能够处理需要识别图像中的对象及其属性并基于这些信息进行高级推理的任务。
Garcez等人[74]提出了一种新方法,即SRL+CS(带常识的符号强化学习),可以提升强化学习的泛化能力、迁移学习能力、抽象能力和可解释性。该方法将符号逻辑的概念引入标准的深度强化学习框架中。该方法主要使用卷积神经网络处理图像数据,并将图像中的视觉模式和结构映射为抽象的符号表示。图像中识别出的对象被标记为特定符号,并计算它们之间的相对位置。最后,基于这些符号所表示的状态空间执行Q学习,目标是学习在给定状态下采取哪种行动可以最大化未来的累积奖励。符号表示的状态空间为最终决策提供了基础。受人类常识原则的启发,SRL+CS在学习和决策过程中引入了两项关键改进:仅在对象状态与智能体交互发生变化时更新Q值,在做决策时考虑对象的相对位置,并给予更接近的对象更高的权重。实验结果证明,该研究能够在不同环境配置中实现知识迁移和泛化,尤其是在从确定性的训练环境测试到随机环境时,展现了近乎完美的零样本学习能力。
3.2.2 符号:符号表示与结构
这一类别包括八项研究,其中神经网络负责处理连续的、高维的视觉输入,符号逻辑通过将提取的特征映射到一组预定义的符号或概念中,利用这些信息或模式进行推理或决策。在这些研究中,属于神经符号生成分类的研究包括[2, 16, 99, 152, 166, 168];属于神经符号协作的研究包括[52, 65]。
Su等人[168]提出了一种模型,该模型利用神经网络从视觉数据中提取和学习高维特征,同时使用符号逻辑在结构化、基于规则的框架内解释这些特征。该方法首先从原始视觉数据(如手写字符、物体图像或任何视觉场景)中学习和提取高维特征,将不同的物体、形状、颜色和大小编码为高维向量,并捕捉图像内的统计属性和模式。随后,通过特征向量离散化和基于学习特征的符号推理逻辑规则应用等方法,将连续的特征空间映射到离散的符号空间,并将这些符号逻辑运算的结果转换为相应的图像输出或决策。在本研究的方法中,符号逻辑主要以结构化表示的形式存在,例如使用符号图像渲染器、概率程序控制过程和符号笔画原语,以便更清晰地描述和推理图像数据背后的逻辑和结构。此外,该方法可以通过后验约束将专家知识或预定义的逻辑规则明确地整合到学习和推理过程中,确保生成的符号结构和推理输出与人类的理解和期望一致。与传统的数据驱动的深度学习模型相比,本研究提出的模型能够更好地捕捉和理解图像中的抽象关系和概念,并具有跨领域知识迁移和应用的潜力。
Sarkar等人[152]提出了一个用于检测燃烧条件不稳定的神经符号框架,这对于发动机健康监测和预测至关重要。该方法通过分析大量的序列化高速燃烧火焰图像来实现。该方法首先通过卷积神经网络(CNN)分层提取图像的低维语义特征,并识别火焰中的连贯结构。然后,将每个图像帧中特征图的结构组成时间序列,形成基于图像特征的时间序列数据。接下来,该方法使用符号时间序列分析,通过最大熵划分等符号方法将这些时间序列数据转换为符号序列,然后构建广义D-Markov机模型,并通过状态分裂和合并等过程形成描述火焰从稳定到不稳定状态转变的状态转移矩阵。该矩阵捕捉了火焰形状随时间的动态行为,并为早期不稳定检测提供了基础。该方法能够在火焰形状从稳定转变为不稳定之前的低时间尺度上捕捉前兆。通过在不同工况下收集的大量旋流稳定燃烧器的实验数据进行验证,发现该方法与传统的PCA方法一致。相比之下,该方法能够捕捉燃烧过程中的细微变化,检测热声不稳定性,并适用于不同类型的燃烧系统和工况,具有一定的通用性和迁移能力。
3.2.3 符号:知识图谱与数据库
这一组合共包含五项研究,这些研究利用神经网络从视觉模态中提取特征,然后使用知识图谱、背景知识、一阶逻辑编程和本体论等逻辑符号形式来表示和处理高级、规律化的知识,以帮助模型理解和推理该领域的复杂关系和规则。在这些研究中,属于神经符号生成分类的研究包括[80, 188];[130]属于符号-神经增强分类;属于神经符号协作的研究包括[57, 170]。
Díaz-Rodríguez等人[57]提出了X-NeSyL(可解释的神经符号学习)。这种方法结合了深度学习和符号逻辑,并使用知识图谱作为专家知识来提升模型的性能和可解释性。该过程利用结合的卷积神经网络EXPLANet从图像数据中提取高级视觉特征,并将其映射到知识图谱中定义的符号逻辑。随后,通过一个名为SHAP-Backprop的训练过程,将模型的预测输出与知识图谱中的期望符号关系进行比较,并基于知识图谱的符号逻辑向神经网络模型的训练提供反馈,以确保模型所学习的特征和预测与领域专家的知识一致。X-NeSyL使用SHapley Additive exPlanations(SHAP)值来量化每个识别部分对最终分类决策的贡献,并利用这些值来调整模型的最终输出。
与此同时,这种可解释性指标——SHAP GED,通过比较模型生成的神经符号表示与知识图谱表示之间的一致性程度来评估模型的可解释性。实验结果表明,EXPLANet模型在MonuMAI数据集上优于基线模型,包括MonuNet和纯ResNet-101分类器,这表明结合领域专家的知识可以有效提升深度学习模型在特定任务上的性能。此外,实验结果还表明,线性实例级加权方案在保持良好分类性能的同时提高了模型的可解释性。
3.2.4 符号:数学与数值运算
这一组合包含三项研究,其中神经网络从图像、时间序列或视频中提取复杂的模式和结构。这些模型随后使用符号回归来发现数据背后的数学规律,或使用概率图模型来模拟数据关系中的因果关系。在这些研究中,属于神经符号生成分类的研究包括[100];属于神经符号协作分类的研究包括[67, 150]。
Kim等人[100]提出了一种EQL(EQuation Learner),该方法结合了神经网络和符号回归。该研究通过反向传播算法实现了整个系统的端到端训练,使整个模型具有高度的可解释性。首先,EQL使用卷积神经网络从MNIST数据集中的手写数字图像中提取和识别数字信息,并通过对序列数据进行处理来执行动态系统分析,这些序列数据中移动物体的位置和速度随时间变化,从而从时间序列中挖掘运动特征。随后,该方法通过符号回归将隐含的连续特征转换为明确的、可解释的数学方程,或将连续的神经网络特征空间转换为离散的符号数学表达式。
在MNIST算术任务中,EQL网络能够从图像中提取数字,并成功学习加法运算。此外,EQL网络从数据中提取了关于动态系统预测的未知参数,并利用这些参数预测动态系统的未来状态。这证明了EQL网络处理和理解动态系统的能力,并提高了模型的可解释性,从而促进了科学发现和技术革新。
3.3 环境与态势感知数据
这一类别包括19项研究成果,所有研究都利用神经网络从视觉图像、传感器数据、环境状态信息等中提取特征,然后使用符号逻辑(如逻辑规则、定义目标和约束以及表达任务的高级知识)进行基于规则的推理和决策。这些研究包括四种逻辑符号方法的类别:逻辑规则与编程、符号表示与结构、知识图谱与数据库以及数学与数值运算。
3.3.1 符号:逻辑规则与编程
这一组合包含14项研究,其中神经网络自动从原始数据中提取复杂特征,然后使用逻辑规则、一阶逻辑公式和符号动作模型来表达和处理结构化知识,以指导神经网络。网络的学习过程为执行精确且复杂的逻辑推理提供了可解释的决策基础。在这些研究中,属于神经符号生成分类的研究包括[5, 190];属于符号-神经增强分类的研究包括[90, 120];属于神经符号协作的研究包括[11, 28, 41, 82, 93, 132, 159, 161, 164, 191]。
Hazra和De Raedt [82]提出了一种DERRL(深度可解释关系强化学习)方法,通过符号逻辑生成的逻辑规则来表达策略,从而为每个决策或动作的生成过程提供可解释性。该方法利用神经网络从环境状态中提取以关系和对象逻辑形式表达的复杂特征,并使用这些逻辑表示来学习环境的动态规律和策略规则。例如,在“积木世界”游戏中,DERRL使用逻辑谓词如top(X)和on(X,Y)来描述积木之间的关系,并表达积木堆叠的状态。神经网络的输出是一系列动作规则的参数,这些参数对应于动作决策的逻辑规则。例如,在“积木世界”中,神经网络的输出表示何时以及如何移动积木的规则。接下来,通过定义语义损失函数,使神经网络生成的规则满足预设的逻辑约束。这一过程可以通过公理将人类先验知识整合到学习过程中。在多个环境(如倒计时游戏、积木世界、网格世界等)的实验表明,与传统方法和最新的神经逻辑强化学习方法相比,DERRL在计算效率、策略准确性和语义约束执行方面表现更优,为传统深度强化学习缺乏可解释性和环境适应性的问题提供了一种可行的解决方案。
Lyu等人[120]提出了一种KeGNN(知识增强图神经网络),通过在图神经网络的基础上堆叠知识增强层符号逻辑,以引入一阶逻辑形式的先验知识,从而在噪声图数据上进行准确推理。该方法首先利用图神经网络从图结构数据中提取节点特征和图结构,将每个节点表示为与文本内容、节点属性等信息相关的特征向量,并利用图结构传递和聚合邻节点的特征信息。KeGNN使用模糊逻辑将GNN的连续实值输出转换为逻辑公式可处理的形式,即将布尔逻辑的真值和假值映射到[0,1]区间内的连续值,并将节点类别的实值输入到知识增强层,然后利用先验知识对这些预测进行可学习的权重调整。KeGNN模型是端到端可微分的,这意味着GNN参数和知识增强层的权重可以通过标准的反向传播算法同时学习。KeGNN中的符号逻辑以知识增强层的形式存在,包括一阶逻辑公式形式的先验知识以及一元谓词和二元谓词的逻辑公式。前者表示节点的属性,后者描述节点的特征和节点之间的关系。与传统GNN模型相比,KeGNN在多个基准数据集上能够一定程度上提高分类精度,这表明KeGNN在处理图结构数据方面的有效性。
3.3.2 符号:符号表示与结构
这一类别包括四项研究,其中神经网络从与三维世界的物理交互、视觉模态数据以及环境状态的符号表示中提取特征。它们使用符号逻辑描述环境状态、规则和动作效果,然后基于这些知识和规则进行推理。在这些研究中,属于神经符号生成分类的研究包括[20];[151]属于神经符号增强;而[69, 195]属于神经符号协作。
Zellers等人[195]提出了一种框架,PIGLeT(Physical Interaction as Grounding for Language Transformers),能够提取常见的物理常识知识。该方法通过与三维模拟环境的交互学习物体的物理属性和动作的后果,包括物体的材质以及对物体施加动作的结果。PIGLeT首先利用神经网络从与三维模拟环境的物理交互过程中提取特征,这些特征包括物体的物理属性以及可以施加的动作,例如理解不同动作(如移动和投掷)对各种物体的物理后果。随后,利用物理动力学模型以符号表示形式预测对物体施加动作的结果,并将其转换为自然语言描述。PIGLeT通过物理动力学模型的符号表示捕捉因交互导致的物体状态变化,以及交互和状态的自然语言描述。实验结果表明,PIGLeT对物理世界动态的理解超过了基于纯文本学习的大型语言模型。这些结果表明,将交互学习和符号逻辑结合在模拟环境中可以提高机器对物理常识的理解。
此外,Balloch等人[20]提出了WorldCloner,这是一个能够适应环境新颖变化的神经符号框架,通过整合神经网络和符号逻辑实现。WorldCloner可以利用其符号世界模型在环境转换前学习高效的符号表示,快速检测新颖性,并在单次试验中适应环境变化。具体而言,该方法首先利用神经网络从环境状态的视觉输入中提取特征,例如代理的位置、周围物体的类型、颜色等。这些信息被编码为高维特征向量,用于更新符号世界模型。当环境状态转换与现有规则不一致时,这些信息将调整或添加新规则以反映环境变化。同时,符号世界模型通过模拟环境转换为神经网络提供“想象”的训练数据,从而无需直接与环境交互即可更新和优化策略。WorldCloner中的符号逻辑以符号世界或规则模型的形式体现,模型由“如果……那么……”等逻辑表达式组成,详细描述了环境中的状态转换。与传统无模型强化学习和最先进的世界模型方法(如Dreamer V2)相比,WorldCloner在处理环境新颖性方面表现出显著优势。在处理不同类型的新颖性(如DoorKeyChange、LavaProof和LavaHurts)时,WorldCloner展现出更好的或至少相当的适应效率。特别是在LavaProof场景中,Dreamer V2无法适应环境的新颖性,而WorldCloner能够有效发现并利用新的环境变化来调整策略。
3.3.3 符号:数学与数值运算
这一分类包含一项研究。Landajuela等人[109]提出了一种新方法,即DSP(Deep Symbolic Policy),通过直接搜索符号策略空间来解决深度强化学习中的控制问题。DSP框架使用自回归RNN(循环神经网络)从强化学习环境中提取环境观测或状态数据的特征。这些特征包含控制任务当前状态的关键信息,例如物体的位置和速度。该过程从一个空表达式开始,逐步构建为一系列数学运算符和状态变量的序列。因此,DSP对环境状态的理解被转化为符号控制策略。代表策略的数学表达式可以根据环境的当前观测计算出一个或多个动作,这也意味着RNN可以学习如何将环境状态映射为数学表达式,并将其用作控制环境的策略。这些数学表达式直接影响环境中动作的选择。
因此,DSP使用风险偏好策略梯度根据这些动作在环境中获得的奖励来优化RNN的参数,从而改进生成的符号策略并最大化生成策略的性能。此外,DSP提出了一种“锚定”算法,可以处理多维动作空间。它使用基于预训练神经网络的策略作为临时策略,并通过逐步用纯符号策略替换它们,实现从神经网络策略到符号策略的转换。DSP在八个环境中进行了测试,包括单动作空间和多动作空间,以及执行连续控制任务的基准环境。结果显示,DSP发现的符号策略在平均排名和平均归一化绘图奖励方面超越了多个最先进的方法,这表明这种策略生成方法可以产生既高效又易于理解的控制策略。
3.4 数值类型与数学表达式
这一类别包含27项研究成果,所有研究都利用神经网络从数值数据、序列数据、图像数据和传感器数据中提取特征,然后使用数学表达式、数学方程、逻辑规则、约束、概率模型等符号逻辑来提升性能或可解释性。这些研究可以根据逻辑符号方法分为三个子类别:逻辑规则与编程、符号表示与结构以及数学与数值运算。
3.4.1 符号:逻辑规则与编程
这一分类包含十项研究,其中神经网络从数值数据中提取特征。同时,符号逻辑以规则和约束、命题逻辑、本体论和推理机制以及知识模型的形式存在。属于神经符号生成分类的研究包括[123];属于符号-神经增强分类的研究包括[122, 185];属于神经符号协作的研究包括[4, 9, 50, 84, 118, 155, 172]。
在这些研究中,Long等人[118]提出了一种可以从观测到的动态数据中发现偏微分方程(PDE),并在嘈杂环境中预测这些数据的长期动态行为的方法。该方法首先从物理系统的观测数据中提取特征,例如通过卷积运算近似微分算子的时间变化的流体速度场或温度分布。卷积核可以通过梯度、散度和拉普拉斯算子来近似,使神经网络能够从观测数据中学习这些微分运算的最佳近似,并捕捉其空间变化特征。此外,偏微分方程还通过时间上的前向欧拉方法和空间上的有限差分方法进行离散化。这一过程可以从连续的物理过程中提取神经网络能够处理的数值信息,被视为一种特征提取过程。接下来,这些近似被输入到SymNet(符号神经网络)作为特征并转化为符号逻辑。SymNet学习并近似PDE的非线性响应函数,揭示PDE模型的结构和形式,相当于从数据中学习到的内容。数值特征被转化为物理过程的符号数学描述。PDE-Net 2.0中的符号逻辑主要以SymNet的形式存在。SymNet描述了系统动态行为的非线性关系,包括非线性响应函数的近似以及逻辑规则和约束的应用。前者通过SymNet学习PDE中的非线性关系,后者通过在卷积核和SymNet参数上施加适当的约束,将物理规则和数学约束整合到网络学习过程中。该方法通过Burgers扩散方程和反应-对流-扩散方程进行了测试。结果显示,PDE-Net 2.0能够准确还原Burgers方程的形式,包括对流项和扩散项的准确系数,并还原热方程,包括扩散。从数据中恢复了反应-对流-扩散方程的精确形式,包括反应项、对流项和扩散项的系数以及主要结构。结果表明,PDE-Net 2.0不仅可以学习具有固定系数的PDE,还可以处理参数随时间和空间的变化。该方法可以预测系统行为并揭示其背后的物理和数学机制。
Segler等人[155]提出了一种新方法,使用计算机辅助合成规划(CASP)帮助化学家更快地找到更好的合成路径,即3N-MCTS。作者使用深度神经网络学习化学反应数据库中的反应模式和转化规则。然后,这些规则通过三个不同的神经网络来提出可能的化学转化、预测反应的可行性,并在模拟阶段对样本转化进行预测。具体而言,神经网络基于反应物和产物的分子结构,使用扩展连通性指纹(如ECFP4)来表示分子,从化学反应数据中提取特征,包括化学反应的结构信息和化学转化规则。从化学反应数据中自动提取的符号化化学转化规则随后被用于预测特定化学转化是否可能成功。该过程使用扩展策略网络在搜索树扩展阶段指导搜索方向并提出可能的化学转化,使用可行性预测网络预测扩展策略网络在自然化学环境中提出的反应的可行性,以及使用滚动策略网络预测扩展策略网络在模拟中提出的反应的可行性。在此阶段通过采样转化估计合成位置的价值。3N-MCTS可以比传统计算机辅助合成规划方法更快地找到合成路径。在双盲AB测试中,参与评估的化学家无法显著区分3N-MCTS生成的合成路径与文献中报告的合成路径的质量差异,这意味着神经符号人工智能方法生成的路径在质量上与人类专家相当。
3.4.2 符号:符号表示与结构
这一组合包括两项研究[29, 81]。前者关注神经符号生成,后者研究符号-神经增强。在这些研究中,神经网络从编程语言的代码或数值输入输出对中提取特征,并使用符号逻辑方法(如抽象语法树或符号方程生成)来表示高级语义表示。[81]提出了一种在COBOL代码中寻找语义相似代码片段的新方法。该方法定义了一个元模型,并将其实例化为C和COBOL代码之间通用的抽象语法树,作为一种可以捕捉代码结构和逻辑并作为代码符号逻辑形式的中间表示。使用神经网络从C和COBOL两种编程语言代码中提取这种中间表示。然后,通过遍历方法将中间表示转换为一维序列化形式。最后,基于UnixCoder等神经网络模型对这些线性化的中间表示进行训练和微调,以学习代码片段之间的语义相似性。符号逻辑在该方法中以两种主要形式存在:中间表示和线性化中间表示。前者作为代码的高级抽象,体现了程序的逻辑结构,忽略了具体的语法细节;后者使神经网络能够学习代码的结构和语义。实验通过比较随机模型、针对特定任务微调的UniXCoder模型、预训练的UniXCoder模型以及使用原始C代码微调的UniXCoder模型,在COBOL测试集上验证了代码克隆检测任务的有效性。使用C代码的基于结构的遍历(SBT)中间表示(IR)微调的UniXCoder模型在MAP@2指标上实现了36.36%的提升。同时,与使用原始C代码微调相比,使用C代码的SBT IR微调的UniXCoder模型能够更好地迁移到COBOL代码,实现了跨语言代码理解的零样本学习。
3.4.3 符号:数学与数值运算
这一组合包含15项研究,其中神经网络从实验数据、模拟数据、时间序列信号、图像或特定问题领域的数值输入(如结构工程、物理科学、化学等)中提取特征,然后应用数学表达式、方程或以概率模型形式的符号逻辑方法。数学推导可以将神经网络学到的特征转化为易于理解和解释的形式,从而提升模型对数据的理解和预测能力。在这些研究中,属于神经符号生成分类的研究包括[19, 25, 53, 106, 108, 142];属于符号-神经增强分类的研究包括[92, 131, 151];属于神经符号协作的研究包括[14, 29, 61, 134, 144, 176]。
Podina等人[144]提出了一种神经符号方法,用于在数据稀疏的情况下重建整个常微分方程或偏微分方程的解。该方法利用神经网络从常微分方程或偏微分方程的现有数值数据中提取特征。通常,这些数值数据描述了系统状态随时间和空间的变化,因此在面对未知的物理规律或方程时,神经网络可以从这些数据中学习系统的动态特征。随后,该方法通过符号回归技术(如AI Feynman)将神经网络学到的数值表示转化为符号方程。本研究中的符号逻辑主要以两种形式存在:微分方程的已知部分和未知部分,其中前者是对系统动态的先验理解的数学表示,并以已知微分算子的形式给出;后者由另一个神经网络学习和表示,并通过符号回归技术转化为符号表达式。这一部分代表了微分方程中数据学习需要发现的未知算子。实验结果表明,该方法在多个测试案例中表现出色。首先,在Lotka-Volterra场景中,系统可以通过增加计算点的数量,在无噪声和有噪声数据条件下均获得良好的模型恢复;在凋亡模型场景中,即使仅使用两个时间点(初始条件t=0和后续时间t=0.5)的有噪声数据,且均方误差(MSE)为5×10⁻³,学习到的函数也能与实际解之间准确发现隐藏项,并以均方误差为3×10⁻⁴和2×10⁻²的精度重建偏微分方程的解。上述实验结果证明了该方法在发现和理解复杂系统中隐藏动态行为方面的有效性。
Jia和Sasani[92]提出了一种基于符号的循环神经网络(SRNN),能够在不需要大量训练数据的情况下对混凝土结构在地震激励下的非线性响应进行建模和预测。SRNN利用神经网络从结构动态响应的时间历程分析中提取模态特征,如位移、速度和加速度,并学习结构行为的非线性动态模型的知识。随后,符号激活函数将这一非线性动态模型转化为一组常微分方程,这些方程可以通过数值积分方法求解,便于工程师理解和使用。本研究中的符号逻辑以符号激活函数的形式存在,能够发现以正弦、余弦、平方和乘法等形式描述输入和输出之间关系的数学表达式。此外,SRNN还利用隐藏状态存储非线性序列信息,为神经网络提供时间序列数据的非线性特征。实验结果表明,SRNN在估计结构非线性响应方面取得了有希望的结果。在单自由度系统的应用案例中,SRNN成功地学习了结构响应的非线性行为,并能够准确预测未见地面运动下的反应;对于多自由度系统,尽管存在一些挑战,SRNN仍能更好地捕捉结构的非线性动态行为,但后者的预测精度略有下降,相关系数(/)在0.83到0.88之间,略低于单自由度系统的性能。
3.5 结构化数据
这一类别包含27项研究,所有研究都利用神经网络从图结构、结构化符号和标记参数数据中提取特征。随后,它们使用符号逻辑(如知识图谱、逻辑规则、参数图和标记规则)来表示数据之间的结构和逻辑关系。这些研究应用了三种逻辑符号方法:逻辑规则与编程、符号表示与结构以及知识图谱与数据库。
3.5.1 符号:逻辑规则与编程
这一组合包含15项研究,其中神经网络从结构化符号、图结构和时间序列数据中提取特征。另一方面,符号逻辑利用直接定义的逻辑规则、基于规则的推理或增强的知识图谱。在这些研究中,属于神经符号生成分类的研究包括[66, 163, 178];属于符号-神经增强分类的研究包括[8, 32, 59, 129, 147, 153, 202];属于神经符号协作的研究包括[75, 135, 156, 157, 169]。
在这些研究中,Sun等人[169]提出了一种NSPS(神经符号程序搜索)方法,通过自动搜索和合成神经符号程序,提高了自动驾驶系统设计的自动化水平。该方法利用神经网络从结构化、参数化的观测中提取特征,这些观测作为特定领域语言中的“属性”,代表与车辆状态和环境相关的数值数据流,例如航点、速度、加速度和边界框。NSPS自动搜索给定的神经符号操作集,并选择必要的神经符号来组装成程序。程序分为两部分:数字流和逻辑流。前者处理诸如车辆速度和加速度等感官输入,后者则基于这些输入执行理性判断,例如车辆是否处于接近交叉口的减速阶段。同时,NSPS可以根据当前阶段查询目标速度和航点索引,以实现相应的车辆操作。
在本研究中,符号逻辑以特定领域语言中逻辑运算和数值运算的形式存在,这些语言专为神经符号决策过程设计。其中,Intersect()和Union()等函数基于数字流执行数值计算,而DecelerationPhase()、FollowUpPhase()和CatchUpPhase()等符号函数则执行逻辑判断。实验结果表明,通过NSPS方法获得的NSDP(神经符号决策程序)在自动驾驶系统设计中实现了显著的性能提升。NSDP能够处理多种驾驶场景,包括跟车、交叉口汇合、环岛汇合以及在未见交叉口的左转,并且能够在各种驾驶场景中实现低碰撞率、低加速度和低颠簸率。相比之下,纯神经网络方法产生了更平稳的驾驶行为。
Singh等人[163]提出了一种神经符号方法,即NeuSTIP(NeuroSymbolic Link and Time Interval Prediction),基于时间知识图谱同时执行链接预测和时间间隔预测。该方法创新性地将Allen时间谓词引入规则学习中,这些谓词可以确保给定规则中相邻谓词的时间一致性,并通过设计评分函数,利用所学规则在执行链接预测和时间间隔预测时评估候选答案的置信度。NeuSTIP首先利用神经网络从时间知识图谱的四元组(实体1、关系、实体2、时间间隔)中提取实体之间的关系以及这些关系随时间变化的动态信息。随后,NeuSTIP通过神经网络基于这些特征学习基于Allen时间谓词的时间逻辑规则。这些规则随后被用于推理和预测链接预测及时间间隔预测任务。例如,NeuSTIP可以学习如下规则:“如果事件A在时间间隔T1发生,事件B在时间间隔T2发生,且T1和T2满足特定的Allen时间关系,则可以预测事件C在时间间隔T3发生。” 实验结果表明,NeuSTIP模型在时间知识图谱补全任务中实现了显著的性能提升。在WIKIDATA12k数据集上,NeuSTIP模型的平均倒数排名(Mean Reciprocal Rank)、Hits@1和Hits@10指标均达到了较高水平;在YAGO11k数据集上,NeuSTIP模型在所有指标上均超过了TimePlex模型和其他基准模型。此外,在WIKIDATA12k和YAGO11k数据集上,NeuSTIP模型在aeIOU指标上超过了基线HyTE、TNT-Complex和Timeplex模型,表明通过学习和应用包含时间逻辑的规则可以有效提升时间知识图谱补全任务的性能。
3.5.2 符号:符号表示与结构
这一组合包括[47]和[148],前者属于神经符号生成,后者属于符号-神经增强。这两个研究中的神经网络从物理系统的动态数据和标记参数数据中抽象特征,并使用以参数图和标签形式的明确数学表达式来指导模型学习过程,增强模型的可解释性。
Riveret等人[148]提出了一种新的方法,将受限玻尔兹曼机(Restricted Boltzmann Machines, RBMs)与概率半抽象论证相结合,通过解释数据背后的论证标签来学习论证标签之间的概率依赖关系。该方法利用训练好的受限玻尔兹曼机从论证标签数据中提取论证标签之间的关系和模式。随后,通过符号回归将神经网络学到的概率依赖关系转化为论证图的标签。这种转换不仅使网络的输出包含对论证状态的预测,还为这些预测提供了解释。该研究中的符号逻辑以论证图中的标记形式存在,代表论证之间的攻击和支援等交互关系,以及论证的状态(如接受、拒绝或待定)。实验结果表明,与其他标准机器学习技术相比,NSAM(神经符号论证机器)在处理概率分类任务时具有优势。在引入交换噪声的实验中,所有不同模型的性能随着噪声水平的增加而下降,但NSAM能够通过其内置的论证规则减轻噪声的负面影响。即使在高噪声水平下,NSAM的准确率仍至少比其他模型高出25%。此外,NSAM不仅可以提供预测结果,还可以通过标记论证图来解释预测。
3.5.3 符号:知识图谱与数据库
这一组合包含十项研究,其中神经网络从知识图谱、图结构数据或其他符号逻辑数据的形式中提取特征,而符号逻辑则利用知识图谱、逻辑表达式、查询结构或规则来整合领域知识、推理规则或关系。在这些研究中,属于神经符号生成分类的研究包括[62, 112];属于符号-神经增强分类的研究包括[22, 33, 36, 45, 58, 146];属于神经符号协作的研究包括[133, 187]。
Chen等人[36]提出了一种新的框架,MTransE(一种用于多语言知识图谱嵌入的翻译模型),通过嵌入多语言知识图谱实现跨语言知识对齐。首先,MTransE从知识图谱的实体和关系中学习其嵌入向量表示,将其压缩到低维空间中,以便于计算和对齐。目标函数使得知识图谱中的实体和关系在嵌入空间中尽可能保持它们之间的语义关系。随后,MTransE利用轴校准(Axis Calibration)、翻译向量(Translation Vectors)和线性变换(Linear Transformations)来调整和转换这些嵌入表示,通过最小化跨语言实体对应关系的损失函数,实现不同语言知识图谱之间的对齐。其中,轴校准通过最小化不同语言中对应实体或关系向量之间的距离,使具有相似含义的实体和关系在各种语言的嵌入空间中更加接近。翻译向量可以将一种语言中的实体或关系嵌入向量“翻译”成另一种语言中的对应嵌入向量,而线性变换通过学习一个线性变换矩阵,将一种语言的嵌入空间映射到另一种语言的嵌入空间,从而实现跨语言知识对齐。
实验结果表明,MTransE的一些变体(如线性变换变体Var4和Var5)在跨语言实体匹配任务中显著优于其他变体和基线方法。线性变换技术还验证了给定的跨语言三元组的有效性,并通过验证实体和关系之间的语义一致性,确认了组对是否正确对齐。此外,MTransE模型只需部分跨语言三元组对齐即可进行训练,能够在对齐跨语言知识的同时保留单语言嵌入的关键属性,这意味着它不仅能处理跨语言任务,还能有效处理单语言内的知识图谱补全任务。
4 多模态非异构神经符号人工智能
这一类别包含13项研究成果,所有研究都利用神经网络从多模态数据中提取特征,然后使用知识图谱、逻辑程序和符号规则等符号逻辑来提升系统的推理和决策性能。这些研究应用了三种逻辑符号方法:逻辑规则与编程、知识图谱与数据库以及数学与数值运算。
4.1 符号:逻辑规则与编程
这一类别包含八项研究,其中神经网络从多种模态数据(如图像和文本)中提取特征,然后应用符号逻辑方法来提升模型的理解深度和推理性能。在这些研究中,属于神经符号生成分类的研究包括[78, 199];属于符号-神经增强分类的研究包括[192];属于神经符号协作的研究包括[39, 94, 138, 171, 200]。
在这些研究中,Chen等人[39]提出了一种神经符号视觉推理模型,GENOME(GenerativE NeurosymbOlic visual reasoning by growing and reusing ModulEs),该模型利用大型语言模型(LLMs)的编程能力实现语言描述的模块化翻译。GENOME首先使用大规模语言模型从图像中提取视觉特征,如物体和场景以及这些物体和场景之间的关系。LLMs还从自然语言文本中提取与视觉任务相关的指令或问题,例如问题分析和关键词提取。随后,通过各种模块和功能对这两种特征进行逻辑运算,例如使用物体定位模块“LOC”在图像中定位特定物体的位置,使用计数模块“COUNT”统计符合特定条件的物体数量,以及使用条件判断模块“EVAL”根据特定属性进行逻辑判断等。值得注意的是,LLMs生成这些逻辑模块,并根据实际视觉语言任务的需求决定是否创建新模块。在模块执行阶段,通过运行解析后的符号逻辑操作序列,结合新生成的符号模块和现有模块库中的模块,对输入的视觉和语言数据进行推理,最终生成任务的整体输出。
实验表明,GENOME模型在标准的视觉问答(Visual Question Answering)和指代表达理解(Referring Expression Comprehension)任务中表现出色。相比之下,从一个任务中学习到的模块可以无缝迁移到新任务中,GENOME也可以通过少量观测样本进行训练以适应新的视觉推理任务。上述结果表明,GENOME通过生成和重用模块在标准视觉推理任务中与现有模型竞争,并具有出色的任务适应性和迁移学习能力。
Tarau[171]提出了一种轻量级逻辑编程语言——Natlog,这是一种类似于Prolog的简单实用语言,基于与Prolog类似的统一执行模型。该语言的语法和语义更加简化,能够紧密集成到基于Python的深度学习生态系统中。特别是,Natlog通过重写符号索引算法,将相同功能委托给神经网络,实现基于基元数据集的内容驱动索引。具体而言,Natlog利用神经网络处理基元数据库的内容驱动索引,从这些多模态结构化数据中学习模式和关联,并基于训练中学到的模式对输入查询进行内容驱动索引。这一步相当于利用神经网络提供一种高效的检索机制,协助符号逻辑引擎高效地访问和处理大规模数据集。随后,由神经网络索引的相关事实被发送到Natlog的逻辑推理引擎,其正确性通过合一和逻辑演绎步骤进行验证,并基于逻辑规则进一步推导出查询的答案。
实验部分展示了如何使用逻辑查询识别具有特定属性的化学元素,如何使用神经网络作为内容驱动索引器预测与给定查询相关的数据库条目,并将这些预测用于逻辑推理过程。上述实验表明,Natlog能够通过整合神经网络,从大规模术语数据库中有效地检索和推理出与查询相关的信息。
4.2 符号:知识图谱与数据库
这一组合共包含三项研究。[110, 127, 165]均属于神经符号协作分类。它们应用知识图谱、本体论、逻辑规则等符号逻辑或结构化知识来增强模型的推理和解释能力,并为模型提供对世界的明确理解和先验知识。
Lazzari等人[110]提出了一种神经符号推理器,Sandra,该方法结合了向量空间表示和演绎推理,通过将数据映射到预定义的符号描述中,在不显著增加计算复杂度的情况下增强了模型性能。首先,Sandra定义了一组描述和情境作为符号逻辑形式。描述是对一种情境或现象的抽象和概括,包含多个角色,这些角色定义了描述中各元素之间的关系。同时,情境是描述的一个具体实例,由其在描述所定义的子空间中的对应位置表示。情境中的每个实体或属性都映射到描述的角色对应的向量。如果子空间中的基向量可以线性表示描述子空间中的情境向量,那么我们说该情境满足描述。
这种方法可以处理多种模态的输入数据,如文本、图像和结构化数据,然后通过神经网络将输入数据映射到由“Sandra”定义的向量空间V中的向量,其中每个描述都在本体论中定义了对应的向量子空间Vd。通过比较输入数据的向量表示与每个描述的向量子空间,系统可以推断哪些描述与当前输入上下文一致,并最终基于这种明确的推理过程生成相关的输出,如分类标签、推理解释等。
实验表明,Sandra在不同配置下的性能显著提升。例如,在“2x2”配置中,与基线模型26.85%的准确率相比,Sandra模型的准确率为45.75%。在Fashion-MNIST(R-FMNIST)数据集的配置C中,结合CNN后,准确率从43.13%提高到52.49%。此外,Lazzari等人强调,Sandra模型在理论上与DnS模型一致,能够有效地提供对预定义向量空间的可解释性和控制能力。这一结果反映了其在向量和符号知识表示之间架起桥梁的能力,提升了模型的性能,并增强了其在多样化数据处理中的适应性和可解释性。
### 4.3 符号:数学与数值运算
这一分类包含一项研究。Wang等人[184]通过MAXSAT求解器和快速坐标下降法解决了与MAXSAT(最大可满足性)问题相关的半定规划问题。这种方法也被称为SATNet。SATNet首先从数值数据、逻辑数据或图像数据中提取特征。对于逻辑数据,使用逻辑编码来表示问题的约束;而对于图像数据,则使用卷积神经网络从数独图像中提取数字识别特征。这些特征随后被转换为适合逻辑推理的格式——可微分的MAXSAT求解器。直接的逻辑数据可以用作MAXSAT问题的输入,而图像数据则必须先经过卷积神经网络处理以识别图像中的数字,识别结果被转换为逻辑格式作为MAXSAT问题的输入。MAXSAT求解器随后通过优化过程找到满足所有约束的解,并将解转换回原始问题的表示形式。
目前,研究人员已成功使用SATNet学习逻辑结构,并在多个任务中显著提升了性能。在奇偶性学习场景中,SATNet能够快速帮助模型在20个周期内学习目标函数,并使测试集上的错误率收敛到零;在数独场景中,SATNet学会了如何解决标准的9×9数独谜题,发现了并恢复了谜题规则,并在测试集上分别实现了98.3%的准确率。对于视觉数独任务,SATNet能够从图像输入中有效学习数独游戏规则,并在测试集上实现了63.2%的谜题解决准确率,接近理论上的“最佳”测试准确率74.7%。在本研究中,MAXSAT求解器作为一层嵌入到学习过程中,将符号逻辑的处理能力整合到神经网络架构中,因此属于符号-神经增强分类。
5 单模态异构神经符号人工智能
Furlong和Eliasmith[70]提出了VSAs(向量符号架构),用于在大脑模型构建中模拟概率计算以及实现符号逻辑和认知功能。在VSAs框架中,神经网络从原始数据中提取的特征被转换为高维空间中的向量表示。随后,VSAs在高维向量上进行操作以模拟符号逻辑。具体而言,它定义了绑定(Binding)、捆绑(Bundling)、相似性(Similarity)和解绑(Unbinding)操作,其中绑定操作通过向量的循环卷积或点积将两个向量组合成一个新向量,该向量可以唯一地表示两个原始向量的组合;捆绑操作是将多个向量叠加在一起形成一个新向量,大致保留原始向量的信息;相似性操作通过计算两个向量之间的点积或余弦相似性来判断两个符号或概念是否相似或相关;解绑操作是绑定操作的逆操作,用于从绑定向量中提取原始向量。基于这些操作,VSA在高维向量空间中支持类似于传统符号逻辑的操作,例如通过绑定和捆绑操作在向量空间中构建树结构或图结构,以表示复杂的数据结构和关系;或者通过相似性计算和解绑操作对代表不同概念和规则的向量进行模式匹配或规则应用,以模拟逻辑推理过程。尽管VSA架构中的逻辑推理部分是透明的,但将原始数据映射到高维向量空间仍然可以被视为一种“黑箱”操作。然而,与传统的符号逻辑方法相比,VSA架构提供了并行处理能力,这意味着许多符号逻辑操作可以在向量空间中同时进行。这一特性对于处理复杂的逻辑推理和大规模知识库具有重要意义。
Katz等人[97]提出了一种NVM(神经虚拟机),用于执行符号化的机器人控制算法。该方法通过模拟图灵完备的符号虚拟机的执行,利用神经网络进行符号操作。首先,它通过神经网络从符号逻辑数据中提取特征,将符号逻辑操作转换为神经网络内的活动模式和连接权重,并使用一组神经元的特定激活模式来表示程序符号中的变量名、运算符等。这些激活模式是预先定义的,以便神经网络能够准确地表示和区分各种程序符号。随后,利用神经网络的特定层和活动模式来描述图灵完备虚拟机中寄存器、内存、指令指针等的状态,并通过更新相应的神经活动来表示状态变化。通过这种方式,可以通过预定义的神经网络模式和动态权重调整来执行算术运算、逻辑判断、条件分支和循环等符号操作。编译后的程序随后可以作为一系列指令序列发送到NVM进行处理。此外,通过专门设计的神经网络层,符号决策可以被转换为可执行的控制信号,例如电机指令或动作序列。NVM的一个关键优势是能够使用几乎任何程序逻辑来编程和执行复杂任务,这对于机器人的开发和操作至关重要。
6 多模态异构神经符号人工智能
Katz等人[97]提出了一种逻辑神经网络(LNN)框架,将神经网络和逻辑符号处理功能相结合。LNN的创新之处在于,神经网络和符号逻辑在相同的表示空间中操作相同类型的数据,避免了使用额外的中间层来转换数据类型。具体而言,LNN支持利用神经网络从多种模态的原始数据中提取特征,例如数值、文本、图像和声音数据。更重要的是,LNN将命题、谓词中的逻辑符号对应到一个或一组神经元上,这意味着每个神经元或神经元组的激活状态代表逻辑命题的真值状态,例如激活状态表示命题为真,非激活状态表示命题为假。同时,逻辑运算(如与、或、非)也可以通过特定的激活函数和网络结构设计来实现。例如,通过多个输入的加权和与阈值激活函数可以构建“与”运算,只有当所有输入都被激活时,输出神经元才会被激活,这意味着“与”运算的结果有效。当任一输入有效时,“或”运算会激活输出神经元,表明该运算结果有效。“非”运算则在输入非激活时激活输出神经元。通过这种方式,LNN可以构建更复杂的逻辑表达式,并支持命题逻辑、谓词逻辑、模糊逻辑、描述逻辑和时态逻辑等多种逻辑符号形式。
LNN采用端到端的训练方法,无需手动设置规则或逻辑推理步骤,基于学习到的参数执行逻辑运算。每次网络的前向传播相当于执行一次参数化的逻辑运算。例如,在训练一个执行“与”运算的LNN时,可以使用两个命题的真值状态作为输入,将“与”运算的结果作为输出。训练数据集包含所有可能的真值输入组合及其对应的“与”运算结果。网络通过训练学习参数,以便在接收到命题状态时准确执行其“与”运算。
在传统的深度学习模型中,模型内部的隐藏层往往难以解释,被视为“黑箱”。很难准确解释每个参数(如神经元的权重和偏置)的具体含义和作用,以及它们如何协同工作以实现整个网络的逻辑运算。尽管LNN试图将逻辑门和逻辑规则直接映射到网络结构中,但其学习过程仍然是一个“黑箱”。尽管该方法可以执行特定的逻辑运算,但LNN内部如何表示和处理这些逻辑运算的详细机制需要更加直观。
尽管如此,LNN仍然是在相同表示空间中使用相同表示方法执行神经网络和逻辑符号操作的有意义的尝试。首先,它摒弃了传统的表示转换层,尝试采用融合方法处理这些不同类型的数据并执行逻辑运算,从而更自然地实现神经网络和符号逻辑的知识对齐,同时避免了复杂的转换和信息丢失。此外,由于LNN直接将逻辑运算映射到神经网络中,每个神经元或神经元组的激活状态可以直接对应逻辑命题的真值状态,因此LNN执行逻辑运算的决策过程更容易解释。更重要的是,这种集成处理方法可能会为大型语言模型的设计带来新的启发,帮助LLM稳定内部概念表示,并提供更准确、更可解释的逻辑链推理能力。
此外,[103, 105]提出的高维计算(HDC)或向量符号架构(VSA)方法为实现神经符号人工智能提供了一种与传统神经网络和符号逻辑推理不同的过程。第六章提到,在这种方法中,数据和概念被表示为高度高维向量,能够捕捉复杂的模式和关系,作为符号和非符号信息的统一表示。因此,传统的符号逻辑运算可以通过对高维向量执行算术和逻辑运算来模拟。同时,借助高维空间中向量的正交性,HDC可以通过简单的近似匹配检索存储的信息,并支持快速检索和联想记忆。此外,HDC方法可以从数据中提取和泛化模式,并通过学习高维向量空间支持复杂的决策和推理任务,从而为符号逻辑和神经网络处理提供了一种自然且有效的方式。由于上述两篇综述已详细介绍了HDC或VSA方法,本文将不再赘述。
7 动态自适应神经符号人工智能
与多模态异构神经符号人工智能相比,这一分类能够动态调整并适应涉及多模态数据处理、符号逻辑处理以及内部表示调整的计算任务。目前,尚无研究满足动态自适应神经符号人工智能的要求。具体而言,这一分类具有以下特征。
7.1 自动选择和整合适当的模态数据处理策略
首先,此类系统能够在通过神经网络进行特征提取时,根据具体任务的需求和上下文自动选择并整合最合适的模态数据处理策略。例如,在面对视觉和文本的双模态任务时,系统可能会优先使用视觉特征进行初步提取。当视觉信息不足以支持符号逻辑决策时,它可能会结合文本模态提供的上下文信息进行深入推理。这种策略的选择和整合并非静态预设,而是通过系统的动态学习和调整过程生成的。这一能力也使得动态自适应神经符号人工智能系统在处理多模态数据时更加高效、准确且节能。
7.2 动态调整符号逻辑的处理方式
其次,动态自适应神经符号人工智能系统能够根据任务需求自动选择符号逻辑的处理形式。这一特性意味着系统可以处理各种逻辑推理任务,并根据不同任务的特点动态选择最合适的符号逻辑处理方法。例如,在处理需要复杂逻辑推理的任务时,系统可能会采用更复杂和精细的逻辑规则;而在处理简单或直观的任务时,它可能会采用更直接的逻辑处理策略。这种动态调整能力提高了系统在处理逻辑推理任务时的灵活性,并优化了推理效率和能耗。
7.3 基于反馈和任务表现的自我调整内部表示
最后,基于反馈和任务表现的自我调整内部表示的能力意味着系统能够根据实际任务执行结果和性能评估自动调整和优化内部数据表示和处理逻辑。这种自我调整不仅包括模型参数的微调,还包括对模型结构和处理策略的根本性调整。例如,在任务处理过程中,系统可能会发现某种模态数据的处理方法不够有效,因此它可以在处理特定任务时通过调整处理策略或切换到更复杂的逻辑推理模块来自动增强其逻辑处理模块。这种基于任务表现的自我调整能力使得神经符号人工智能系统能够持续适应各种任务需求和环境挑战。
原文链接: https://arxiv.org/pdf/2411.04393
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.