Generative Causal Interpretation Model for Spatio-Temporal Representation Learning
时空表示学习的生成因果解释模型
https://dl.acm.org/doi/pdf/10.1145/3580305.3599363
摘要
从复杂且高维的时空数据中学习、解释和预测是人类和其他智能体的自然能力,也是人工智能领域最重要且最具挑战性的任务之一。尽管物体在不同情境下可能呈现出不同的观测现象,但其因果机制和生成规则是稳定和不变的。与大多数关注动态相关性的现有研究不同,我们在微观层面上探索了时空维度中因果描述符的潜在因果结构和机制,从而揭示了观测数据的生成原理。在本文中,我们将因果机制视为由非平稳外生变量调节的时空因果过程。为此,我们提出了一个基于理论基础的生成性因果解释模型(GCIM),该模型通过时空因果表示从观测数据中推断出具有解释能力的微观因果描述符。GCIM的核心是在可识别条件的约束下,利用时空因果结构和转换过程来估计因果描述符的先验分布,从而扩展了变分自编码器(VAE)。此外,我们的方法能够自动从观测数据中捕获领域信息,以建模非平稳性。我们进一步分析了模型的可识别性,结果表明,从观测数据中学习的所提模型能够在一定程度上恢复真实模型。在合成数据集和真实数据集上的实验表明,GCIM能够成功识别潜在的因果描述符和结构,并准确预测未来数据。
计算机科学分类概念
• 计算方法 → 知识表示和推理
1 引言
现实世界中的复杂系统,如交通系统、大脑、生态系统、社交网络等,是我们理解和分析自然行为的基础[5, 30]。时空数据作为这些复杂系统的主要表现形式,反映了它们的演变过程[14]。从可观测的时空数据中探索隐含的连续时间动力学,是理解、预测和控制自然界中复杂系统的一种关键方法,这被称为时空表示学习。它在多个任务中得到了广泛研究,包括时空序列预测[2, 28]、异常检测[16]和视频分析[11]等。
复杂系统可以自然地表示为时空图网络[5, 14, 15, 24, 30, 31],如图1(a)所示,其中空间节点代表对象或子系统,节点属性代表时间演化过程,链接代表它们之间的相互作用。宏观观测现象是由中观对象之间的相互作用产生的。为了探索系统内部的动力学,大多数方法依赖于来自中观对象的观测数据,要么在空间上学习隐式图结构[2, 8, 13, 18, 28],要么在时间上构建复杂的注意力网络[7, 12, 18, 22, 34, 35]来捕获长期依赖性。
现实世界的观测数据(例如,图像像素、传感器测量值等)并没有直接的因果边,而是由潜在的因果解释过程或因果相关的混杂因素生成的[27]。因此,这些研究停留在具有不稳定相关性的中观对象层面,而无意中忽略了能够解释观测生成原理的因果关系。
另一方面,观测数据是多源复合的,并不代表对象本身的特征[17, 23]。我们以交通系统为例,来说明相关性方法的缺点。
如图1(b)所示,医院周边的交通需求受到地铁站和主干道的影响。即使可以根据时空相关性推导出动态模型,系统的潜在行为也可能被相关性引入的混杂因素所掩盖,使得难以明确地将实际的交通需求模式与医院本身分离开来。这不利于将模型推广并应用于真实场景。
相比之下,因果关系被认为是基本公理[19]。在机器学习的背景下,正确建模和推断因果变量及因果关系可以诱导出更稳健的表示,特别是对于分布外样本的泛化能力更强,这表明模型已经克服了训练数据中偏差和捷径的利用[9]。我们将这种因果变量称为微观因果描述符,它主导着对象的发展趋势、演化行为和物理状态。对象的观测是由微观因果描述符通过复杂的非线性时空混合生成的。因此,通过估计和表示对象内部因果描述符的潜在因果结构和机制,有助于解释系统的观测现象。
目前,因果表示学习主要关注于估计单个节点时间序列的因果关系[2, 26, 27, 33](注意,节点和对象可以互换)。然而,要深入了解对象,仅仅追踪所有单个节点的这种还原论方法是不够的。实际上,复杂行为不仅仅来自单个节点,而是来自节点之间的动态相互作用[5],这使得因果描述符之间存在非线性时空转换过程。如图1(c)所示,北京人民医院周边的交通需求观测显示出明显的早、中、晚高峰时段。我们进一步在微观因果描述符层面对医院的交通需求进行分解,可以发现早、晚高峰主要由过境交通主导,而中午高峰则由医院本身的吸引力决定。这一观测实际上同时受到这两者的控制。如果模型只关注医院本身而忽略周围对象的影响,将产生有偏的表示估计。此外,域作为系统的外生因素,可能随时间动态变化,从而导致非平稳的时空观测序列。例如,工作日的办公区域可能在周末转变为购物区域,这导致同一区域的交通模式发生动态变化。因此,因果描述符的时空转换过程也受到非平稳外生变量的调制。
在本文中,我们关注于利用微观层面的表示学习探索因果描述符在时空维度上的潜在因果结构和机制,从而揭示观测的生成原理。根据以上分析,由于空间维度的高复杂性和受非平稳外生因素调制的动力学,从观测数据中推断潜在的因果结构和机制极具挑战性。为此,我们提出了一个生成性因果解释模型,该模型包括外生变量、时空条件父变量、因果转换函数和时空混合函数。其核心思想是,在适当的建模和条件下,时空维度中描述符之间的相互作用(因果结构)和转换过程(因果机制)是稳定的且可识别的。首先,为了建模受非平稳外生变量调制的动力学,我们提出了一个域适配器,将观测分配到相应的域中,其中每个域中外生变量的分布是一致的,但不同域之间存在差异。其次,条件生成模块(CGM)利用邻接关系作为归纳偏置来捕捉节点内和节点间的因果关系,并将时空父变量转换为因果转换函数的条件参数,控制函数的具体形式。第三,因果解释模块(CIM)利用可逆神经样条流网络实现因果转换函数,并在条件参数的影响下将外生因素映射到具有物理意义的因果描述符上。最后,解码器通过因果描述符的非线性混合生成节点的观测序列。
本文的主要贡献如下:
• 我们对复杂系统的因果关系进行了自上而下的分析,揭示了观测在微观层面的生成原理,并系统地定义了受非平稳外生因素调制的因果描述符的时空转换过程。据我们所知,这是首次明确定义时空因果机制的工作。
• 我们提出了一个理论基础的生成性因果解释模型,该模型通过时空因果表示从观测数据和归纳偏置中推断出具有解释能力的微观因果描述符。我们理论上证明了模型的可识别性。
• 在合成数据集和真实世界数据集上的大量实验证明了因果结构和机制的有效性,并且我们的方法在时空序列预测方面全面优于最先进的方法。
2 模型与理论
2.1 生成性因果解释模型
观测值x由潜在因果描述符z通过非线性时空混合函数生成。这些因果描述符支配着对象的发育趋势、演化行为和物理状态。同时,在因果描述符z之间存在一个由非平稳外生因素调节的时空转换过程。为此,我们提出了一个生成性因果解释模型(GCIM),以挖掘潜在的因果结构和机制,进而揭示观测值的生成原理。GCIM由外生变量、时空条件父变量Pa(z)、因果转换函数和时空混合函数组成,定义如下:
2.2 可识别性理论
基于经典的非线性ICA理论[10, 27],我们在表示函数空间中定义了GCIM的可识别性,如定义1所述。
此外,如果估计的因果描述符在排列和分量可逆变换下可以被识别,那么潜在因果结构也是可以识别的。因为在因果充分的系统中,条件独立性能够完全表示时空因果关系,而分量可逆变换不会改变这种关系。
根据[27],我们得到了GCIM的可识别性如下,定理1的完整证明见附录A。
那么,GCIM的分量可识别性就得到了保证。
尽管在学习过程中,真实的潜在因果机制是未知的,但定理1给出的生成模型的可识别性保证了zˆ是z的一个经过排列的可逆分量变换。
3 所提出的框架
基于生成性因果解释模型及其相应的可识别条件,我们提出了一个时空因果表示学习框架,用于从观测值中估计潜在的因果结构和机制,并将可识别条件作为学习框架的约束。如图2所示,GCIM的估计框架包含四个组件:变分自编码器、域适配器、条件生成模块和因果解释模块。
3.1 变分自编码器
为了满足假设(1)中混合函数的可逆性,我们利用变分自编码器(VAE)框架来建模推理和生成过程。如图2所示,我们使用GraphGRU[2]作为编码器和解码器,以同时处理空间和时间维度,其定义如下:
3.2 域适配器
在大多数情况下,尽管观测值受到域的影响而呈现非平稳性,但域信息通常是未知的。为了满足假设(3)的约束,我们提出了一个域适配器,用于从观测值中捕获潜在的域信息,并使用Gumbel-Softmax技巧来确保每个节点的观测值仅属于某个特定的域,其定义如下:
根据假设(3),如果因果描述符的数量为,那么所需的域的数量应满足 ≥ 2 + 1。
在域信息的基础上,我们可以定义外生变量的分布,并根据条件独立性进一步对其进行因式分解:
3.3 条件生成模块
根据因果描述符的条件独立性,我们通过条件器Conditioner将从时空因果结构获得的父变量转换为转换函数的条件参数:
3.4 因果解释模块
CIM(因果推断模型)解析因果描述符的内在因果机制,并通过一个可学习的先验分布来近似这一规则,从而对因果描述符的后验进行正则化,提高模型的可识别性。
3.5 预测
基于估计的潜在变量预测系统的未来状态是生成模型的一项重要能力。如图2所示,我们假设在短时间内域不会发生变化,因此下一个时间点的外生变量可以从外生变量分布中采样得到。CGM(因果生成模型)生成转移函数的条件参数。然后,CIM将外生变量转换为因果描述符。最后,解码器生成下一个时间点的时空序列。预测过程如下:
3.6 学习策略
我们使用证据下界(ELBO)和预测损失来优化GCIM的估计框架。给定一个数据集D,ELBO如下所示:
4 实验
我们在合成数据集和两个真实世界的时空数据集上评估了我们提出的GCIM的可识别性和预测性能。此外,一项全面的消融研究表明了我们模型中每个组件的有效性。
4.1 评价指标
为了评估我们方法的可识别性,我们在合成数据集上计算了真实因果描述符与从估计的后验中采样得到的相应描述符之间的皮尔逊平均相关系数(MCC),这是连续变量独立成分分析(ICA)中的一个标准指标。为了计算这个性能指标,我们首先计算真实描述符和估计描述符之间的所有相关系数对。然后,我们解决一个线性求和分配问题,将每个估计描述符分配给其最相关的真实描述符,从而在表示空间中匹配任何排列。高的MCC意味着真实描述符(在排列和分量可逆变换的范围内)被成功识别。
为了评估我们方法的预测性能,我们在真实世界数据集上计算了真实时空序列与预测时空序列之间的均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)。
4.2 基线方法
我们在合成数据集上将我们的模型与非线性ICA方法进行比较,以验证时空观测的可识别性。
(1)IVAE[10]:它假设潜在变量的先验是条件独立的指数分布族。
(2)LEAP[27]:它假设潜在变量的先验是一个非参数的时间延迟因果过程。
我们在真实世界数据集上将我们的模型与时空表示学习方法进行比较,以验证时空序列预测性能。
(1)DGCRN[13]:它通过结合预定义的邻接矩阵和输入特征来生成动态图。
(2)DMSTGCN[8]:它设计了一种自适应图构建方法,以学习路段的时间特定空间依赖性。
(3)RGSL[28]:它推导出一个稀疏的隐式密集图结构,并融合了显式图和隐式图。
(4)DSTAGNN[12]:它设计了复杂的多头注意力和多尺度门控卷积来提取动态时空相关性。
(5)D2STGNN[22]:它将扩散和固有观测特征分开,并使用自注意力机制来处理长期依赖性。
(6)STNSCM[2]:它基于结构因果模型应用干预来消除混杂因素,并将预测任务视为回答反事实问题。
(7)CCHMM[33]:它利用变分推断来表示交通系统中的核心物理概念为因果隐变量。
4.3 合成数据集实验
合成数据集。我们生成了一个满足定理1中可识别条件的合成数据集。具体来说,我们根据等式1生成了50,000个数据点,其中空间节点数=50,时间窗口大小=7,观测数据维度=8,因果描述符数量=8,以及领域数量=20。我们随机生成空间邻接矩阵,并控制边的数量不超过10%。其中80%的数据用于训练,20%的数据用于测试。生成过程如下:
结果。图3展示了在合成数据集上,GCIM与基线方法之间的MCC结果。如图3(b)所示,我们的方法成功识别了潜在的因果描述符,达到了排列和分量可逆变换的程度。IVAE没有建模时间转移过程,并假设潜在变量是独立成分。IVAE完全忽略了时空因果关系,因此几乎无法处理时空数据。LEAP将先验建模为非参数非平稳时间延迟因果过程。然而,由于缺乏对空间维度的考虑,LEAP无法有效识别时空因果变量。
比较结果充分证明了空间因果关系在时空数据中的重要性。GCIM设计了一个可学习的节点间因果矩阵,以捕捉每个节点局部邻域内的空间因果关系,有效支持了潜在变量的可识别性。如图4所示,我们在合成数据集上可视化了节点内和节点间的因果矩阵,GCIM能够成功恢复时空因果关系。
4.4 真实世界数据集实验
XC-Traffic数据集。XC-Traffic数据集包含了2021年6月1日至2021年12月31日,北京市西城区三种交通模式(包括自行车、出租车和公交车的流入和流出)以及道路速度。研究区域被划分为175个不重叠的子区域。
NYC-Traffic数据集。NYC-Traffic数据集包含了2016年4月1日至2016年6月30日,美国纽约市两种交通模式(包括自行车和出租车的流入和流出)。研究区域根据纽约市城市规划局的邻里统计区(NTAs)划分为51个不重叠的子区域。
此外,我们统计了所有子区域中每种交通模式的流入和流出,并使用每个区域内路段的平均速度来表示区域速度。我们以30分钟为间隔分割数据集,得到XC-Traffic中的11,753个样本和NYC-Traffic中的4,368个样本。我们使用三小时的历史数据来预测接下来的30分钟数据。其中60%的数据用于训练,20%用于验证,其余用于测试。
实验设置。我们将GCIM所有组件的特征通道数设置为64,批量大小也设置为64。对于超参数,时间窗口大小=6,因果描述符数量=8,领域数量=20,样条箱的数量=128,图卷积的深度为2。XC-Traffic的空间节点数=175,NYC-Traffic的空间节点数=51,XC-Traffic的观测数据维度=7,NYC-Traffic的观测数据维度=4。我们使用Adam优化器对所有模型进行最多500个epoch的优化,并使用耐心为50的早停策略。所有深度学习模型的最佳参数都是通过在验证集上进行仔细的参数调整过程选择的。实施细节见附录B。
结果。表1展示了三次独立实验的平均结果,即整体预测性能。对于时空序列,观测维度越高,系统内的因果关系越复杂,MAPE可以有效反映模型抵抗随机波动的能力。因此,我们的GCIM在基线模型中始终表现出色且优势显著。特别是在多模态交通数据集XC-Traffic上,GCIM在MAPE方面显示出显著改善。
对于基于隐式图挖掘的方法,AGCRN(自适应图卷积循环网络)仅使用自适应邻接图,导致性能不佳,这表明有必要使用预定义的邻接关系作为先验知识。DMSTGCN(动态多尺度时空图卷积网络)和RGSL将训练数据中的时空相关性嵌入到隐式图中,并与显式图进行融合以进行观测预测,两者性能相似。DGCRN(动态图卷积循环网络)利用输入数据动态生成隐式图,能够更好地捕捉动态时空相关性。这表明捕捉动态时空相关性对于预测是有益的。对于基于时空注意力的方法,DSTAGNN(动态时空注意力图神经网络)是一个专门用于预测交通速度的模型,因此难以适应高维观测数据。同样,D2STGNN在低维数据(如NYC-Traffic)上取得了具有竞争力的性能,但在高维数据(如XC-Traffic)上性能下降。这表明当数据维度增加时,注意力机制可能会失效。然而,这些方法局限于具有不稳定相关性的中观节点层面,却无意中忽略了能够解释观测数据生成原理的因果关系。
对于基于因果表示学习的方法,由于建模了稳定的因果关系,CCHMM(条件因果隐马尔可夫模型)和STNSCM(时空网络结构因果模型)均优于其他基线方法。CCHMM对影响多模态交通观测的核心物理因素进行建模。STNSCM则基于因果干预消除了时空表示中的混杂因素。两者都因建模了稳定的因果关系而优于其他基线方法。然而,这些方法仅关注节点内的因果关系,忽略了节点之间的交互因果关系,从而导致估计存在偏差。
图5展示了我们的模型与基线方法在测试集上的平均绝对误差(MAE)的变化趋势。由于准确建模了系统内的因果关系,我们的模型在每个时间段都表现最佳,这体现了其稳定性。
4.5 消融研究
为了评估关键组件的有效性,我们在XC-Traffic数据集上进行了消融实验,具体描述如下:
(1)高斯先验:外生变量遵循等方性标准高斯分布。在这个变体中,外生变量是平稳的,不受领域的影响,即违反了定理1中的假设(3)。
消融实验的性能如表2所示。显然,外生变量的非平稳性至关重要。事实上,外生变量仅影响系统,而不受系统的约束。这意味着我们只能通过条件信息(即域信息)来确定它们。最终,没有条件信息的模型会退化为一般的序列表示学习模型。文献[10]已经证明,未受约束的潜在变量是不可识别的。如果域信息是连续变化的随机变量(即变体3),那么域信息会连续且轻微地变化,导致域变化的界限丧失,从而无法判断域的变化是否足够大以至于容易被识别。此外,变体3的结果与变体1相似,这再次表明连续域变化的界限不明确,导致外生变量的分布趋向于等方性高斯分布,使得连续域的结果几乎等同于高斯先验。
我们进一步可视化了XC-Traffic上不同时间段的域识别结果。如图6所示,域适配器成功地恢复了不同区域的域信息,尤其是医院属性。医院周边的交通流具有明显特征,域适配器可以自动将具有相似交通模式的区域分类为同一类别。此外,不同区域的域会随时间动态变化,一些区域在下班时间会显示出购物属性。
转移函数的可逆性确保了因果父变量对描述符的直接影响。GCIM中转移函数的具体形式由因果父变量计算的条件参数控制,而变体2使用预定义的多层感知机(MLP),这削弱了因果父变量的直接影响。此外,可逆神经样条流可以近似任意分布,这确保了描述符先验分布的表示能力。MLP可以近似任意函数,但在近似任意分布时会失败[3]。
对于建模时空因果关系,比较变体4和6可以发现,仅仅建模节点之间的因果关系就可以大大提高模型的性能,这表明空间因果关系在时空序列中无处不在。相比之下,完全忽略节点内因果关系(如变体5)是不可接受的。因为时间转移过程和因果关系是因果描述符演化的内在驱动力,也是导致观测中复杂动态时空相关性的核心因素。
5 相关工作
时空表示学习。时空表示学习的目标是将观测数据映射到特征空间,以描述节点的时空特性。为了探索和预测系统的动态变化,目前主要有两类令人印象深刻的方法:隐式图挖掘和时空注意力。前者认为预定义的图无法表示数据内的潜在相关性,因此追求数据驱动的可学习图[1, 6]。后者则希望捕捉时空数据的动态相关性,以建立长期的时序依赖[7]。DMSTGCN[8]学习道路路段的时间特定空间依赖性,以构建动态图。RGSL[28]通过节点嵌入和Gumbel Softmax技巧推导出稀疏隐式密集图结构,将显式图和隐式图融合在一起来预测观测值。D2STGNN[22]以数据驱动的方式分离扩散信息和固有交通信息,并使用自注意力机制处理长期依赖。DSTAGNN[12]不仅使用改进的多头注意力机制表示节点之间的动态空间相关性,还通过多尺度门控卷积从多感受野特征中获取广泛的动态时序依赖。最近,提出了时变图结构来进一步挖掘动态相关性。TPGNN[18]将动态相关性表示为时变矩阵多项式,其中系数由时间确定。DGCRN[13]通过在每个循环步骤中学习矩阵来处理动态关系。尽管这些方法从不同角度有效地建模了动态性,但它们总是依赖于中观对象层面的观测数据。现实世界的观测数据没有直接的因果边,因此它们只能建模不稳定的相关性,而无意中忽略了可解释的因果关系。
因果表示学习。因果表示学习逐渐成为研究热点,并在许多领域得到广泛应用[21]。因果学习的目的是赋予模型追求因果效应的能力[20, 32]。在计算机视觉领域,CasualVAE[25]提出了一个具有因果层的模型,将外生因素转换为与数据中因果相关概念相对应的因果内生因素。IFSL[29]通过后门调整去除了由预训练知识引入的样本特征与标签预测之间的虚假相关性。CasualMotion[17]通过分离行人运动模式中的物理定律、风格混杂因素和非因果虚假特征,确保了行人运动表示的鲁棒性,从而进行轨迹预测。在时间序列的非线性独立成分分析(ICA)中,IVAE[10]假设潜在变量的先验是条件独立的指数分布族,并使用变分自编码器(VAE)实现潜在空间的可识别性。LEAP[27]基于非参数先验设置建立了潜在时序过程的可识别性。TDRL[26]利用划分的估计潜在子空间,并对其在条件转移先验中的分布变化进行建模。在时空表示学习中,STNSCM[2]首次将结构因果模型引入时空表示学习,通过干预消除混杂因素,并将预测任务视为回答反事实问题。CCHMM[33]进一步探索了影响多模态交通系统的核心物理概念,并使用变分推断将这些概念表示为因果潜在变量。然而,它严格定义了物理概念的范围,使其局限于多模态交通场景。同时,这些方法仅关注节点内的因果关系,忽略了节点之间的交互因果关系,从而导致估计有偏。
6 结论
在本文中,我们自上而下地分析了复杂系统的因果关系,并指出解释观测生成原理的核心是恢复微观层面上时空因果结构和因果描述符的机制。为此,我们提出了一个基于理论基础的生成性因果解释模型,以建模时空序列的生成过程,并从观测中推断潜在的因果描述符。具体来说,域适配器从观测中捕获潜在域信息,并推导出外生变量的分布。其次,条件生成模块基于可学习的因果关系矩阵生成转移函数的条件参数。然后,因果解释模块利用转移函数将外生变量映射为具有物理意义的因果描述符。最后,通过因果描述符的非线性混合生成观测值。在合成数据集和真实数据集上的实验表明,GCIM成功识别了潜在的时空因果结构和机制,并有效预测了未来数据,这证明了从微观因果关系建模时空数据的重要性。在未来的工作中,我们将进一步探索时空数据中的因果推断问题。
附录:
https://dl.acm.org/doi/pdf/10.1145/3580305.3599363
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.