科学能解释自由意志吗？|决定论|二元论|本体论|相对论|亚里士多德

分享至

导语

大脑层次结构中是否可以涌现出通过向下因果来控制神经活动的协同核心？也就是说，是否如一些神经科学家所认为的，一方面大脑的神经活动涌现出意识体验，反过来，涌现的意识通过向下因果（自由意志）来影响底层的神经活动？最新发表的一篇综述文章否定了这种观点，并试图证明向下因果是错误的。从心灵哲学中关于自由意志的思考到神经科学中关于大脑的实验，作者梳理了关于大脑层次结构、因果涌现、意识理论等领域的一系列研究。集智俱乐部因果涌现社区成员全文翻译了这篇综述文章，并希望招募对文章感兴趣的朋友，在后续的因果涌现读书会中共读论文，深入探讨其中的重要概念和观点，欢迎感兴趣的朋友参与！

由北京师范大学教授、集智俱乐部创始人张江领衔发起，组织对本话题感兴趣的朋友，深入探讨因果涌现的核心理论，详细梳理领域发展脉络，并发掘因果涌现在生物网络和脑网络、涌现探测等方面的应用。读书会自7月11日开始，持续进行中。第四季读书会正在筹备中，将深入探讨信息分解与整合信息论相关话题。

研究领域：复杂系统，层次结构，意识理论，向下因果，因果涌现，因果等价原理

Sergey B. Yurchenko| 作者

袁冰，杨明哲，牟牧云| 译者

张江| 审校

梁金| 编辑

论文题目：Can there be a synergistic core emerging in the brain hierarchy to control neural activity by downward causation? 论文链接：https://www.authorea.com/users/655476/articles/661267-can-there-be-a-synergistic-core-emerging-in-the-brain-hierarchy-to-control-neural-activity-by-downward-causation

摘要

引言
因果
信息和因果
协同和向下因果
还原论和因果链
复杂系统的层次结构
脑层次结构中的因果和信息
结论

摘要

心智与大脑的关系是神经科学中因果分析的基础，与物理还原主义、信息论和网络科学有关。尽管意识的奥秘尚未解开，但当前神经科学对意识如何从大脑动力学中产生的神经生理机制进行了深入探讨。因果关系在这里有双重涉及。第一个问题是关于大脑中的神经活动如何因果地产生意识体验。第二个问题是关于意识本身是否可能具有因果能力（自由意志）来控制大脑。考虑到意识的涌现属性和信息属性，心理因果在两个条件下是可成立的：1. 向下因果是可能的；2. 信息具有超越物质所提供的因果能力。最近，基于粗粒化（coarse-graining）和部分信息分解（partial information decomposition，PID）的因果涌现理论提出，“协同信息”可能满足上述条件，从而重新唤起了控制大脑的“小人”（homunculus）这一古老观念。基于因果等价原理（Causal Equivalence Principle，CEP）和多尺度层次结构的定义，这篇综述表明，从上述条件出发，必然会导出双重因果谬误（double causation fallacy）和笛卡尔的二元论（Cartesian dualism）。

1. 引言

因果分析对神经科学和心理科学极其重要，却又充满迷惑。向下因果，或自上而下的因果，假设组织的高层级可以因果地影响低层级的行为，这个观点具有争议。在神经科学中，向下因果通常与心理因果或自由意志有关，这个话题通常在“身心问题”的背景下进行讨论（Sperry, 1985）。作为神经活动的全局产物，意识能否对大脑施加因果控制呢？或者，意识是否是一个没有因果能力的被动涌现现象？如果是这样，是否意味着意识不能利用向下因果，或者这个概念本身就是错误的？如果说它是错的，那么它为什么在神经科学、心理科学和进化生物学中如此具有吸引力？

一般来说，向下因果直接与复杂系统、动力系统和网络科学中的许多其他哲学概念有关，如涌现、自组织和协同，这些话题通常在非线性、临界性和无尺度性（参见 Corning, 2012; Spasić and Kesić, 2019; Turkheimer et al., 2022）的背景下进行讨论。协同是一个总称，意味着复杂多尺度系统具有自发地变得自组织的涌现属性，并被概括为“整体大于部分之和”的说法。鸟群、蜜蜂群或蚂蚁群是自组织复杂系统的典型例子，它们展示了由大量单个元素的相互作用产生的“涌现协同”（Haken, 1983; Kauffman, 1993）。以这种方式，向下因果可能解释了系统（整体）是如何能影响其自身的组成部分（部件）的。

在神经科学中，协同的一个简单直观的例子是立体视觉，它只能从两个信息源，即两只眼睛中得出。Williams 和 Beer（2010年）基于信息论提出的理论允许将两个或更多信息源共同提供关于目标的总信息分解为特有（Unique）、冗余（Redundant）和协同（Synergistic）等信息分量。相应地，我们认为与向下因果关联的“强”版本的涌现，即“强涌现”（O’Connor, 1994; Bedau, 1997; Kim, 1998）可以与更高阶的认知功能相联系，这些功能参与处理协同信息，并彼此互动，这些高阶的互动不能被简单地还原为底层神经生理学的法则和原则（参见 Turkheimer et al., 2019; Vohryzek et al., 2022）。关于意识的因果作用，在自由意志问题和笛卡尔二元论中隐含地涉及了向下因果。当这些因素放在一起时，它们再次呼应了类似“小人”（homunculus）这样的古老哲学观念（Nizami, 2019），只不过现在以“协同工作空间”（Luppi et al., 2020; Mediano et al., 2022）的形式呈现，该空间可能在大脑中自发地涌现，并通过向下因果在层次结构中控制底层的神经活动。

译注：

笛卡尔二元论（Cartesian dualism）是由17世纪的法国哲学家笛卡尔（René Descartes）提出的观点，主张精神和物质是两种完全不同的实体。在这个观点中，精神（或心灵、思想）是非物质的，不能被测量或观察，而物质（或身体）则是可以被测量和观察的。

自由意志、自我意识和意识是哲学和心理学中的重要概念，它们之间有一些重要的区别：

1. 自由意志：这是一个哲学概念，指的是个体做出决定和行动的能力，而这些决定和行动不受外部因素（如命运、神的意志等）或内部因素（如冲动、欲望等）的强制影响。有自由意志的个体可以基于理性和道德来选择他们的行为。

2. 自我意识：这是一个心理学概念，指的是个体对自己的认知和理解，包括对自己的思想、感觉、行为和身体状态的意识。有自我意识的个体可以反思自己的行为和经验，理解自己的动机和目标，以及认识到自己是一个独立的存在。

3. 意识：这是一个更广泛的概念，指的是个体对自己和周围环境的感知和理解。意识包括感觉、思想、情绪、记忆等各种心理过程，是我们体验和理解世界的基础。

自由意志的物理学主要依赖于不相容论（incompatibilist）对自由意志的解释。这一问题从如下疑问开始：确定性动力学的大脑如何能产生并不完全由过去预先决定的意识状态？有人提出可以用量子物理中的随机性和塌缩来解释这种人类（和动物）决策中，可以自由选择的选项（参见 Jedlicka, 2017; Hunt and Schooler, 2019）。根据所提出的量子现象是宏观的还是微观的，决策的自由要么是有意识地启动并向下驱动执行模块（Hameroff and Penrose, 2014; Fisher, 2017），要么是无意识地启动，向上经过不同尺度的处理，以事后体验的方式被动地暴露给意识（Beck and Eccles, 1998; Yurchenko, 2022）。

相反，自由意志的神经科学则致力于其相容论（compatibilist）解释。这主要涉及Libet类型实验——这类实验提议去测量并比较分别反映神经活动和主观体验的两个时间：一是检测到辅助运动区准备电位的时刻，二是产生动作意图的时刻。自从Libet等人（1983）的首次实验以来，许多研究发现神经运动预测因子和意识上的动作意图之间存在几百毫秒的延迟（还有一些文献：Soon et al., 2008; Bode and Haynes, 2009; Fried et al., 2011; Schurger et al., 2012; Guggisberg and Mottaz, 2013; Salvaris and Haggard, 2014; Perez et al., 2015; Schultze-Kraft et al., 2016）。从这些实验中得出的共同结论是，自由意志体验可能是一种幻觉。

译注：

利贝特实验是由神经生理学家Benjamin Libet在20世纪80年代进行的一系列实验，旨在研究人类意识和自由意志的性质。实验中，参与者被要求进行简单的动作，并报告他们意识到决定的时间。Libet使用脑电图记录参与者的大脑活动，并发现大脑活动在参与者报告决定之前就已经开始了。具体来说，Libet观察到参与者的运动皮层（motor cortex）的准备电位（readiness potential）在参与者报告决定之前约400毫秒就开始了。这一发现对自由意志的传统观点提出了挑战，引发了关于自由意志和决定论之间关系的讨论。

关于这一结论的长期争议是，准备电位和意识意图属于两个非常不同且几乎不相容的领域：前者位于生物物理领域，而后者属于心理领域（Triggiani et al., 2023）。生物物理领域完全依赖于动力学模型和网络科学的概念和工具，而心理领域则涉及主观和难以捉摸的概念，如注意力、自我意识、元认知和人格。因此，所有这些实验已经受到心智-大脑二元性的偏见影响，在心智-大脑二元论观点下，是否存在自由意志属于心智层面问题，和大脑在补充运动区（或其他地方）的神经活动是否先于涌现出特定意识状态的给定时间t的关系不大。从这个意义上说，如果隐秘地承认了身心二元论，Libet类型的实验并不威胁到自由意志的普遍存在（Mudrik et al., 2022）。

然而，仅仅假设笛卡尔二元论还不足以解释心智如何可能对大脑具有因果能力。什么过程或机制能够让涌现的意识状态影响底层的神经活动？向下因果被提出来为解释自由意志另辟蹊径（Ellis, 2012; Juarrero, 2009）。向下因果通常以一种由信息流介导的方式来描述，这种方式允许系统的更高层次影响更低层次（Auletta et al., 2008; Davies, 2012）。在社会科学中的一个典型例子是权力层次结构，其中在最高层次（由政府）做出的决策影响所有社会层次的社群和个体。

一个通常来自物理学的还原主义反驳观点认为，组织的更高层次是依赖于更低层次的细粒度、本体上真实变量的时空模式的粗粒化变量。在系统层面用预测性术语表达的因果链最终可以还原为基础层面的物理因果链。这种还原主义的因果观点原则上与拒绝向下因果的“弱”版本的涌现是相容的（Bedau, 2010; Kim, 1998）。换句话说，弱涌现不允许信息拥有超越物质在微观尺度下所拥有的因果能力。

与此同时，许多（如果不是全部）现代意识理论都从这样一个一般观点出发，即意识是神经活动的大尺度涌现现象。更准确地说，其特定状态是大脑在某一特定时刻刚刚处理过的一定量的信息。相比于由未知神秘存在构成的永恒灵魂，这算是一个科学性的替代方案。然而，就算接受了这个一般观点，我们又会面临另一个关键问题。意识在大脑中是主动的还是被动的？大多数主导的，如全局工作空间理论（GWT）、预测加工理论（PPT），尤其是整合信息论（IIT），直接将意识与原则上也可被非大脑系统处理的信息联系起来，从而为（Dehaene et al., 2017）或甚至某种形式的泛灵论（Panpsychism）另辟蹊径（Tononi and Koch, 2015）。

另一方面，即便只有大脑参与处理的信息才能关联意识的涌现，这会让意识状态成为信息处理的附带现象，也就是说意识不具备对大脑的因果能力（更不用说其他通常不被认为是有意识的自然或人工系统）。为了解释心理因果或自由意志（在其相容论版本中），这些理论也隐含地将信息与因果混为一谈，并采纳了向下因果这个概念。从这个意义上说，GWT、PPT、IIT（以及一些其他理论）可以被分类为强涌现的相容性理论（Turkheimer et al., 2019）。因此，心灵哲学中关于自由意志的古老问题转变为神经科学中关于向下因果的问题。

现在让我引用一些杰出科学家的两个引人注目的观点。第一个观点来自Roger Sperry，他因其关于脑分离病人的工作而获得生理学和医学诺贝尔奖：

“意识现象作为大脑处理的涌现功能特性，在塑造大脑兴奋的流动模式中发挥着积极的控制作用。一旦由神经事件生成，更高阶的心理模式和程序具有自己的主观品质和进程，按照自己的因果规律和原则进行操作和互动，这些规律和原则不同于并且不能还原为神经生理学的规律和原则”（Sperry 1980）。

第二个，更为激进的观点是在整合信息论（IIT）的背景下由Tononi、Koch及其同事提出的：

“我可以拥有真正的自由意志：我可以拥有真正的备选方案，以及在它们之间进行选择的真正自由，促成我所决定的事情的真正意愿，以及对后果真正的责任。最根本的理由是，作为一个有意识的存在，“我”真正地存在并真正地引发因果，而不是我的神经元或我的原子”（Tononi et al., 2022）。

很可能，许多人会支持这些观点，从而隐含地假设（尽管有时并没有意识到）信息可以具有因果能力。

毫无疑问，在生物系统中，信息不仅仅是标记状态的手段，而是系统的固有属性：其动力学与信息内容耦合，使得系统的动力学改变了信息内容（Davies, 2012）。更广泛地说，有人提议生命（特别是意识）的涌现可能对应于伴随着因果结构变化的物理转变。虽然信息源于物质，但物质的因果结构反过来也赋予了信息对物质的因果效力，直接的和上下文依赖的（Walker and Davies, 2016）。后一观点明确地被用来解释人类思想通过反馈控制对物理世界的影响，其中涉及用符号表征研究并评估不同选择的潜在结果，从而实现目标选择（Rolls, 2020）。进一步又提出了向下因果依赖于层级系统中的多重可实现性，从而与更高层次的宏观状态相比，微观状态可以具有冗余度（Hoel et al., 2013）。令人惊讶的是，这种类型的因果分析经常提到多尺度分层组织，但没有明确定义层次结构究竟是什么。

本文从澄清因果关系的概念开始。在介绍因果链和层次结构的集合论定义之后，将会展示宏观状态的多重可实现性确实可以在多尺度层次结构中发生：从不同的微观状态开始，经过许许多多模块化链条，汇聚到相同宏观状态。这允许人们通过反向信息流来假设更高级别的功能可以通过向下因果影响更低级别的子系统。与这一假设相反，本文的目的是要证明向下因果是错误的，除非“向下”一词本身已被歧义化，以至于它的所指是一个不能在科学上合法存在的虚假轴线。论证基于两个前提：（1）因果关系可以产生（和销毁）信息，但它不能跨越尺度而不产生双重因果；（2）信息可以跨越尺度（并且可以是协同的），但它不能产生因果，除非隐含地涉及到二元论的本体论。结论是信息既不是基础的因果因素，也不是能够操纵其物质基础的现象学上有效的因果控制器。

2. 因果

因果（Causation）是一个模糊的概念，经常与理由（Reason）的概念混淆。然而，这两者是非常不同的概念。因（Cause）是一个物理事件，必然会引发另一个事件——果（Effect）。事件可以在不同的尺度上观察。因果（Causation）以规范的因果关系（Cause-effect relationships）形式表现出来。因此，空间、时间和尺度在这里是基础性的。理由（Reason）是对为什么某事发生的“类因”（cause-like）解释。它忽略了空间、时间和尺度；只有逻辑在那里起作用。

2.1 因和理由

因和理由之间的混淆可以追溯到亚里士多德，他定义了四类因（aitia）：材料因、效果因、形式因和目的因，所有这些都应用于某个实体（而非事件）X（Hofmeyr 2017）。

1. X是由什么构成的？（其材料因）；

2. 是什么造成了X？（其形式因）；

3. X来自哪里？（其效果因）；

4. X是为了什么而制造的？（其目的因）。

如果X是一个物体/系统或过程，它们看起来是合理的（甚至最后一个“目的论”的因也是如此）。但是询问事件X是由什么构成以及其目的是没有意义的。或者，一种（形式）因如何能在另一种（材料）因缺席的情况下起作用？它们中的任何一个（即使是效果因）都不能严格地被视为在严谨的物理研究中的一个因。尽管科学家通常不会用亚里士多德的分类来思考因果关系，例如，木头是桌子的材料因，木匠是其效果因，但他们仍然将因与理由混淆，因为他们更感兴趣的是解释可观察现象，而不是如何在时间和尺度上确定地执行因果关系。（参看《》）

例如，在统计学中的典型表述是X（例如，吸烟）可以导致Y（例如，肺癌），这涉及到的就是“理由”，而不是“因”。吸烟是一个不良习惯，癌症是健康状态的永久状态。这两者都不能被视为特定的物理事件。另一个混淆因与理由的典型例子是著名的“鸡和蛋问题”，其中每一方都是另一方的理由（而不是因）。从严格的角度来看，因果关系应该仅与可以在各种空间尺度上观察到的瞬时事件之间的关系有关，例如，地球上的日出，道路上的车祸，大脑中的神经元被激活，或物理实验室中的粒子检测。

2.2 物理因果

当因果关系由线性因果链表示时，因果分析变得更为严格，这些链是由基于相对论原理的物理学中的因果集合方法概念化的，该原理规定因果作用的速度不能快于光速（Sorkin, 1991）。从这种方法立即得出，因必须先于果，且因果链必须满足马尔可夫条件。一个因果集由一个部分有序集 ℒ = (, ≺ ) 表示，其中有一个二元关系≺ （在相对论中符合洛伦兹流形中事件之间的类时间间隔）。这符号化了因果顺序，并满足物理时空中的两个条件（Bombelli et al., 1987）：

(a) 传递性： (∀, , ∈ ) 如果 ≺ 且 ≺ ，则 ≺ ；

(b) 非自反性： (∀ ∈ )(不满足 ≺ ).。

条件(a)和(b)都自动地暗示在 ℒ 中因果链是线性的：没有链可以包含闭合的环。直观地说，这源于时空中事件的唯一性。我们可以一天又一天地观察某个事件（例如，日出），但它不是同一个事件；每次出现都是独一无二的。如果一个独特的事件x导致两个独立的（同时且独特的）事件y和z，那么包含x的线性链将分裂为分别包含y和z的两个线性链。反之，如果事件z由x和y同时导致，那么包含事件x和y的两个链将汇聚到事件z。

这些链可以分为“空间性”的，涉及多个物体（例如，牛顿摆）和“时间性”的，只涉及一个物体（例如，简单摆）。在后一种情况下，因果链可以描述系统的时间演化，其瞬时状态就是事件，每个事件都依赖于前一个事件，前面是因，后面是果。因此，许多线性的单体和多体因果链可以在不同的事件处汇聚和分裂，生成贯穿时空的全局因果集ℒ。此外，由于因果关系的概念是从不同尺度的观察事件中推导出来的，ℒ不应局限于某一个优选尺度：它应该贯穿时空的所有尺度。

椋鸟群的飞行动力学通常被作为“涌现协同”的一个例子（Barnet and Seth, 2021）。这群鸟表现出一种属性，仿佛它有“自主的生命”。群体中的每个成员的行为都取决于它周围的鸟的行为。数值3D模拟显示，每只鸟通过相对简单的规则只与平均六到七只邻近的鸟进行互动，就可以让鸟群表现出典型的涌现现象（Ballerini et al., 2008）。因此，在某一时刻t，这些邻居的瞬时状态是影响每只鸟在下一时刻状态的事件。这反过来又促使它的邻居根据它的轨迹改变他们的飞行计划。虽然反复迭代的反馈在空间中生成了虚假的因果环，但在包含时间的ℒ中并没有闭合。相反，源于个体尺度多体因果链的纠缠和相互依赖，群体尺度的宏观涌现现象得以发生。这一过程涉及跨尺度的动态雪崩（Cavagna et al., 2010）以及其他一些标志着系统处于混沌和秩序交界处的自组织临界性的特性（Bak et al., 1987; Kauffman, 1993; Adami, 1995; Chialvo, 2004; Aguilera and Di Paolo, 2021）。

请注意，如果有人想描述椋鸟群迁移到一个遥远地点的情况（或者更普遍地说，描述它的整体行为），那么他应该使用粗粒化来通过一个宏观变量来表示迁徙，这个变量在环境背景中随时间沿着一个单体因果链进行演变。因此，单体因果表示可以被视为一种理想情况，即环境对“体”产生的因果影响可以忽略不计（例如，在简单摆的情况下）或者“体”的每个状态能够完全决定了它的下一个状态。

2.3 统计中的因果推理

集合ℒ可以通过有向无环图G=(N,E)进行局部表示，其中N是节点的（有限）集合， ⊆ × 是节点之间的边的集合。直观地说，如果G中的节点与物理事件相关联，那么禁止闭环意味着所有的事件都不能是它们自身的“因”。因此，可以通过将随机变量赋给节点，并用边表示变量的条件概率（Pearl, 2000），将贝叶斯网络用于反事实因果建模，然后施加在这些物理因果链上。

这使得在数据分析中使用因果循环成为可能。图中节点不是与实际的物理事件相关联，而是与可观察变量相关联，用于检测它们之间的统计依赖性。这些可观察变量大概是整个物理系统中的自治子系统（译注：因此可以通过截取因果循环的一部分来构建有向无环图）。实际上，Pearl的因果建模关注的是“理由”，这些理由是对实际因果链条的统计性解释，而这些实际发生的因果链在物理定律的作用下自行在时空中展开（译注：但只有一部分状态可被观察作为统计性解释的数据）。虽然在获取数据时，时间流逝的信息得以保留，但在数据分析中，因果顺序是粗粒化和平均化的。所以，这里有一个原则性的范式转移：从检测实际因果关系到获取合理解释。

考虑一个关于因果推断的最简单的反事实推理例子，其中爱丽丝对复仇的渴望可能是鲍勃死亡的“有效因”（Woodward，2003年）。假设这是真的，我们必须考虑这个情境的因果链，因为它们应该在适当的尺度上在时空中演变。首先，我们可能会谈到爱丽丝大脑中的神经元因果链，以解释她对复仇的渴望。其次，我们应该发现这些神经元链推动了爱丽丝扣动枪的扳机，这导致了弹簧释放，进而导致了撞针击发了子弹，这又导致了子弹的爆炸，推动弹头沿着枪管轨迹飞出，击中了鲍勃的心脏，等等，涉及到鲍勃身体中的许多其他事件，这些都会导致他的死亡。尽管所有这些事件都是真实、独特的，但在统计因果建模中却完全被忽略。

在相同模式的反事实推理中，丙泊酚的注射导致意识丧失，或者在分子尺度上管理药物的使用可促进心理健康，这两者都被定义为向上因果的例子。可以争辩说，尽管这些例子忽略了线性因果链，但它们提出了有效的“类因”的解释。这里重要的是，将“因”与“理由”混淆也可以使向下因果成为有效，例如，把一群鸟说成一个整体，它能因果地影响作为组成部分的成员（Rosas et al., 2020; Luppi et al., 2021; Mediano et al., 2022），或者说环境在大尺度上因果地对约束了身处其中的有机体（Noble et al., 2019; Ellis and Kopel, 2019）。有点讽刺的是，反事实推理允许通过改变观察尺度，将上述向上因果的例子转变为向下因果，例如，也可以将药物的使用定义为由实验室中的临床医生对患者大脑施加的环境约束。

2.4 因果和预测

我们在最著名的因果关系度量中也发现了从实际因果关系向类因解释的转移，例如格兰杰因果（Granger causality）或转移熵（Transfer Entropy, TE），它们都是用预测能力来表述因果度量的（Granger, 1969; Schreiber, 2000）。显然，如果可以预测事件X的发生总是导致事件Y的发生，那么它们之间就存在因果关系。但是，在“理由”的上下文中得出的这个结论可能会混淆或甚至忽视了变量之间的问题描述尺度。尽管这些度量尊重因果顺序，但在实际应用中，更细致的时间和空间分辨率往往是受限的。当正确应用时，因果建模中涉及的粗粒化是科学上合法的，但通过混合不同的尺度，它再次为向下因果打开了一个漏洞。一些强涌现的捍卫者直接将粗粒化与向下因果混为一谈（Jaeger and Calkins, 2011; Hoel, 2017; Flack, 2017; Grasso et al., 2021）。让我们在因果链的背景下考虑这一点。

3. 信息和因果

使信息理论成为神经科学中有用的分析工具的是其模型独立性，适用于任何混合的多元数据，包括线性和非线性交互（Wibral et al., 2015; Timme and Lapish, 2018; Piasini and Panzeri, 2019）。然而，将其应用于因果分析必须谨慎。信息理论最初是由香农（Shannon 1948）为了在嘈杂的通信通道上将信号可靠地从信号源传输到接收器而开发的。它表明，具有输入X和输出Y的离散无记忆通道的最大容量C由互信息给出：

C=I(X;Y)=H(X)-H(X|Y)，

其中是香农熵。

由于信号的物理性质、通道的长度和传输信息的时间都没有被限制，在熵的定义中明显地嵌入了粗粒化含义：H和信号的性质无关，和如何划分传输过程也无关，或者，用香农自己的话说，“如果一个选择被分为两个接连发生的选择，原来的H应该是两个新的H之和”（Shannon, 1948）。更正式地说，香农熵是一个可加的度量： (, ) = () + ().

3.1 神经科学中基于信息的因果度量

这些元素、概念和信息理论度量如何在神经网络的因果分析中进行解释呢？首先，如果通道（理想情况下是无噪声的）可以在适当的空间尺度上被识别为线性的多体因果链。降低时间分辨率也允许将因果链“压缩”成一对变量，其中输入变量X是因，输出变量Y是果，省略了它们之间的所有中间事件（“选择”）。其次，在神经网络中，神经元既充当信号源又充当接收器，它们的瞬时状态代表事件；两个神经元之间的突触连接提供了通道，连接输入X和输出Y这一对因果变量。

在神经科学研究中，将输入/输出信号的定位归于脑区，而不是单个神经元，从而拉低了各种神经影像技术所能提供的时间和空间分辨率。因此，互信息(; )是一种粗粒化的度量，它告诉我们在一个任意的时间延迟上，通过了解关于系统某一部分的信息，让我们对系统的另一部分的无知程度减少了多少。互信息非负，上界为()，并且对称（图1A）。

图1. (A) 在工程学中，信道是线性因果链的物理传输通道。它们的生物学例子是血管或白质纤维。互信息被施加在这些因果链上。(B) 两体（顶部）或单体（底部）因果链之间的转移熵可以应用统计测量因果链的存在。(C) 部分信息分解（PID）允许将两个（或更多）源关于目标的互信息分解为冗余信息、特有信息和协同信息等组件，使整体的互信息大于各个部分的互信息之和。

对称性属性使得互信息不太适用于因果分析，因为它不能区分输入（信号源）和输出（接收器）之间的因果方向。尽管在通信工程中，信号源和接收器都是已知的，因此事件之间的因果顺序自然得以保留，但神经科学中因果分析的主要任务之一是揭示大脑中因果回路的结构。在这种情况下，互信息是神经网络功能连接性的一种度量，源自统计相关性。相比之下，一种更先进的度量，转移熵，能以可测方式检测连接的有效性（Vicente et al., 2011; Ursino et al., 2020）。

从一个过程X到另一个过程Y的转移熵是在给定Y的过去值的情况下，通过知道X的过去值，Y未来值的不确定性减少的量。以因果的形式表达是这样：如果一个信号A对一个信号B有因果影响，那么给定B的过去，与同时给定A和B的过去，B在两种条件下的概率是不同的，这显示了与格兰杰因果关系的密切类比（Barnett et al., 2009）。

转移熵是衡量两个（或更多）过程之间有向信息传递的度量，它通过观察如果将Xt-1的过去知识添加到Yt-1的过去知识中，Y的当前测量的不确定性如何减少来获取预测信息：

( → ) = (; −1|−1) = (|−1) − (|−1, −1).

转移熵不是对称的，并且受到互信息的上限约束（图1B）。由于从感兴趣的系统（如大脑）中推导出因果结构非常困难，许多研究结果表明，通过转移熵估计有向信息可以成为推断因果关系的有效诊断工具（Wibral et al., 2014）。实际上，转移熵只能根据时间顺序去捕获因果顺序。因此有证据表明，这种度量有时可能无法检测到本该存在的因果关系，而有时又可能给出一个不存在的因果联系（Lizier and Prokopenko, 2010; James et al., 2016; Tehrani-Saleh and Adami, 2018）。实际上，转移熵测量的是相关性，这种相关性源自神经网络中两个节点之间连边上的直接因果效应，即发生于大脑两个多体因果链上的事件之间的因果联系。然而，长程相关性也可能由于过去事件的共同原因而出现，而这些事件之间并没有因果联系（图1B）。

3.2 来自多个资源的协同信息

（参看《》）

由于香农熵是可加的，互信息低估了可以从多个输入中产生的信息的协同特性，例如，由两只眼睛提供的3D空间中的立体视觉。更一般地说，如果关于目标变量Z的一些信息是由两个（或更多）源变量的联合状态揭示的，而不是由任何单个变量X或Y揭示的，那么系统就会表现出协同现象。Williams和Beer（2010）提出了（PID），它允许将(, ; 分解为以下的信息“原子”：

(, ; ) = (, ; ) + (; ) + (; ) + (, ; ), (4)

其中，(, ; ) 表示包含在X和Y中的关于Z的冗余信息，(; ) 和(; ) 分别对应于X和Y单独提供的特有信息，而(, ; ）指的是可以从X和Y一起得到的协同信息，但不能从它们各自单独得到。

最简单的协同网络示例是，X和Y是互相独立的二值变量，而Z由XOR函数确定， = ⊕ （其中⊕ 是XOR异或运算符）。可见源变量和目标变量之间不存在互信息，即 (; ) = (; ) = 0，这意味着它们中的任何一个都不能单独提供关于Z的信息。然而，把放在一起却能完全决定Z的状态。Z与X和Y的关系被称为“纯粹的协同”，因为只有当X和Y都已知时，才能计算出Z的值（图1C）。

尽管这个技术性实例有助于我们建立直觉，但它并没有捕捉到协同作用的本质，即超出单独由源提供的信息的额外信息（非个体可加性的）。特别是，XOR异或门与像鸟群那样的大规模协同模式无关，这种复杂系统能在无需外部指导的情况下自发形成自组织（Haken and Portugali, 2016; Rosas et al., 2018）。相反，这个例子显示XOR网络中的直接因果连边对转移熵是不可见的。因为不仅X和Y变量之间的互信息为零，转移熵也会消失，( → ) = ( → ) =0 ，尽管事实很明显，X和Y共同对Z的状态有因果影响。

在密码学的语境下，可以更好地描述协同作用。对“秘密”的访问权分布在参与者之间，每个参与者都持有部分关于“秘密”的独一无二的信息。因此，它允许由两个或更多参与者持有的信息源共同形成一个协同（非可加性的）组件，其互信息大于每个信息源单独信息贡献的总和（Gutknecht et al., 2021）：

(, ; ) ≥ (; ) + (; ). (5)

特别是，由于协同信息本质上是非可加性的，因此，最初由Williams和Beer（2010）提出并随后被许多科学家采用的通过文氏图表示PID的方法，在集合论的术语中显然是不一致的：整体(, ; )大于其部分(; )和(; )之和，(, ; )就像变魔术一样无中生有（图1C）。对于这个问题，有种解释是这样的：协同组件(, ; )与等式4中的其他三个“信息原子”不同，它是在信息源网络更大的尺度上涌现出来的。实际上，在和单个源的尺度上，冗余信息可以从任何一个源完全获取。特有信息也是在同一尺度上由每个源单独提供的。相反，协同信息则需要在源的联合这一更大的尺度上从所有源中获取。哪怕只缺了一个源的额外信息，也可能从整体上破坏协同信息。

因此，一方面，动态系统提供的协同信息量，在某个状态空间11中经过离散时间随机过程演变，应该由在时间t处每个源提供的内关于Z的那部分额外信息之和表示。另一方面，这些额外信息应该最初属于单个源Xi的尺度上的的一部分，但只在所有源的联合尺度上才会涌现。如前所述，香农信息不区分输入和输出之间的因果顺序（除非明确给出了因果顺序），也不区分尺度。然而，时间顺序仍然可以被强加在如转移熵这样的信息论度量上，只需加入跨尺度传输信息需要时间这一考虑。

例如，考虑立体视觉，并进行一个简单的实验。如果我们闭上一只眼睛，只提供目标和源（另一只眼睛）之间的互信息，而等式4中的所有PID组件都丢失了。现在，如果我们在时间t睁开两只眼睛，我们（的大脑）是否同时接收到协同和特有信息，还是协同（立体）效果在短时间后出现？如果后者是真的，我们可能通过延迟的信息解释等式4（以及图1C中和集合论与协同作用的不一致性）如下：

我们最感兴趣的问题是：宏观的涌现现象是如何通过跨尺度的线性因果链来实现的？向下的因果关系是否会因为协同作用而成为可能？

4. 协同与向下因果

最初由Williams和Beer（2010）发展起来的PID并非用来处理因果关系。是后来有人提议，协同分量(, ; )可以用来解释尺度相关的因果涌现和随机动力系统中的多尺度向下因果，从而使强形式和弱形式的涌现得以统一（Rosas et al., 2020, Mediano et al., 2022; Varley and Hoel, 2022）。这一证明利用了时滞互信息，从预测能力的角度解释，并将其置于IIT的背景中。IIT的基础假设是意识体验等同于整合信息，并且具有自由意志以对大脑产生因果影响，从而本质上克服了其自身的神经相关性（Tononi et al., 2022）。

(t; t+1|t) > 0. (7)

通过用ID框架取代PID框架，Rosas等人（2020）将某些随附（supervenient）特征（宏观变量）t的预测能力转化为t对底层动力系统的因果能力。因此，系统的时间演化由一个单体因果链表示，其中状态Xt和Xt+1分别扮演源和目标的角色。当且仅当(t; t+1) > 0时，系统被认为具有因果涌现特征t。现在，如果让t与特定的意识状态相关联，从结构或从作为“协同核心”（synergistic core）的大脑的全局工作空间（Luppi et al., 2020）随时间涌现出来，而让表示神经网络的相应状态，则可用下列条件正式定义心理（向下）因果（Rosas et al., 2020）：

(t; t+1}|t) > 0.（7）

换句话说，当一个涌现特征t既具有独特的预测能力，又对底层系统的特定部分具有不可约的因果能力时，向下因果关系就会产生。此外，当t对整个系统具有上述预测和因果特性，而不仅仅是对任何特定部分时，就提出了因果解耦（Mediano et al., 2022）：

(t; t+1|t, t+1) > 0.（8）

因此，以本体论的术语来表述，向下因果（连同因果解耦）源于将关于感兴趣系统的香农信息的预测性质转化为系统本身的因果能力。这个结论可以被看作是生物学中一个更一般的观点的特例，即信息在生命系统内在加工的过程中可以获得对物质的因果能力（Flack, 2017; Ellis and Kopel, 2019; Noble et al., 2019），这一观点被概括为“生命=物质+信息”（Walker and Davies, 2016）。本文的目的是展示信息可以被误解为因果关系，就像理由（逻辑解释）经常被误解为因（时空中的物理事件）一样。

现在考虑上述动力系统统——假设它是物理系统——以质心等概念为例。质心是物体质量空间分布的平均位置。对于由多体构成的系统，质心的计算是通过将它们的质量乘以与参考点的距离，并取平均值得到的。虽然质心在物理上是虚构的，但在许多科学应用中，它是一种统计上有用的近似。在有些情况下这个粗粒化变量的虚构性是明显的：比如质心刚好落在轮廓之外的单个物体，或者质心与任何个体位置都不重合的多体系统。

质心可以与等式9和10中的一个随附变量t相关联。事实上，Rosas等人（2020年）已经展示，在二维鸟群的计算模型中，通过互信息I(Vt; Vt+1)，要比通过反映个体鸟类的行为的能更好地预测鸟群质心的动力学。令人惊讶的是，作者提出用这个结果作为因果涌现理论的一个例证，然而事实恰恰相反，因果涌现理论实际上是这个结果的一个例证。

质心从系统的行为中涌现出来，就像一个并不存在的协同引力极点。这个点状的中心据称具有强大的力量，能够主动地驱动整个系统，但可能在物理上却空无一物。显然，它没有任何因果能力。同样地，温度作为系统中粒子的平均动能是一个粗粒化（随附）变量，它代表了所有粒子的行为，能比测量单个粒子的速度更好地预测系统的未来状态。然而，这依然不能赋予温度以因果能力。

同样地，了解当前的意识（随附）状态比了解大脑（底层）的宏观状态能够更好地预测未来状态。假设有个叫爱丽丝的人，要在一个苹果和一个橙子之间做出选择。可以预测爱丽丝的下一个状态是“苹果”或“橙子”的概率相等p(x)=0.5。如果有关于爱丽丝行为的更多信息，心理学家就可以对她的选择做出更精确预测，而神经科学家则很难从爱丽丝先前的大脑状态准确出预测未来的状态（更不用考虑从神经影像数据中揭示意识内容的问题了）。然而，爱丽丝做出选择的方式通常与她的自由意志相关联。

原则上，没有什么能阻止我们计算大脑的质心。因此，我们可以得到一个位于单个神经元内部的点，从而将特别的机械角色赋予这个普通神经元。类似地，我们也可以计算出一个像协同的“小人”的东西，赋予其在大脑上的因果能力（自由意志），并将这个消息灵通且力量强大的实体与Tononi等人（2022年）的“我”（图2）相关联。

图2. 质心和协同的小人。尽管它们在物理上都是虚假的概念，但在以更大尺度对感兴趣的系统建模时，它们可以作为有用的近似。前者在力学、工程学和天文学等领域有许多应用，而后者则在人口动态学、博弈论、心理学、社会科学和经济学等领域中常被使用，其中个体被建模为粗粒化的“黑盒”，彼此之间通过相对简单的规则进行交互。

5. 还原论与因果链

向下因果要求强涌现形式，这与还原主义是不相容的（Anderson, 1972; Bar-Yam, 2004）。还原主义认为，因果关系（或因果性）仅在物理分析的最小尺度上是有效的。这要求给线性因果链赋予一个优选尺度，而现代科学的常见做法告诉我们，每种科学都研究其所关注系统的最适合尺度的因果过程。在原子尺度上解释大脑的认知功能或从量子相互作用的角度制定社会学理论将非常困难，甚至实际上是不可能的。还原主义者认为这是在合理简化和保留细节之间的权衡问题，尤其是当细粒度模型与低维粗粒度模型相比可能导致计算成本过高时。

这种观点在物理学中占主导地位，尽管基本物理定律（如守恒定律）是与尺度无关的。从历史上看，牛顿在没有任何有关原子的知识的情况下制定了他的运动定律。同样地，神经科学家可以通过适当的模型（如霍奇金-赫胥黎模型、Wilson-Cowan神经质量方程或Kuramoto耦合振荡器模型）在不涉及原子尺度的情况下研究不同尺度上的神经过程。

因果关系的概念是从我们对事件的观察中得出的。例如，以玻璃在与地板碰撞时破碎为例。玻璃是一个固体物体，由排列在晶格中的原子组成。那么玻璃是真实的存在吗？还是只有原子是真实的存在，玻璃只是幻觉？如果我们同意玻璃是真实存在，就必须同意发生在玻璃上的事情就是一个事件。由此，在观察到的一个宏观事件的同时，也会在原子尺度上伴随发生许多个微观事件。这两种事件并不能等同。同一个事件会出现在多个尺度上这种说法是没有意义的，因为微观事件原则上无法在宏观尺度上观察到，而宏观事件也不能在微观尺度上出现。宏观因果可以被视为在空间和时间尺度上粗粒化的结果。

5.1 因果等价性：没有优选尺度

以下原则是相对论基本原理的扩展，即物理定律在所有惯性参考系中都是相同的，因此受这些定律支配的系统的动力学与观察尺度无关。

因果等价性原则（CEP）。对于感兴趣的系统，粗粒度的和细粒度的变量必须产生相同的动力学，并/或在时间演化上做出一致的预测，如果不考虑两者在细节范围上的差异。

CEP可以从洛伦兹流形上的因果集合 ℒ = (, ≺ ) 严格推导出来（Yurchenko, 2023a）。这个推导超出了本文的范围。根据上述分析，CEP似乎是直观上显而易见的。尽管每个特定事件在相应的尺度上出现，但事件的概念本身是与尺度无关的，没有哪个优选尺度可以被归于这一概念上。（但是）正如所述，我们把非常不同的事物同样地称之为“事件”：地球上的日出、道路上的车祸或大脑中的神经元放电。不过在空旷的空间中是没有可观测事件的。物理系统能产生事件，它们跨越时空，因果相连。从原子到整个有机体再到大尺度的环境，这些系统不仅可以在不同时空尺度上进行研究，而且它们真实存在且自身就在不同尺度的物质层级组织中被自然地“粗粒化”。它们在不同的尺度上制造着和尺度相关的事件。那么，为什么因果关系会有优选尺度呢？

CEP有三个推论。

推论1：没有因果上的优选时空尺度。

因此，CEP不是一种还原主义原则。从物理主义的角度来看，还原主义基于两个前提：（i）微观因果闭包和（ii）宏观因果排除（Kim，1998）。相比之下，CEP承认不仅微观尺度是因果闭合的，而是每个尺度都是因果闭合的。

译注：

在金宗锡（Jaegwon Kim）的1998年的著作中，提出了微观因果闭包（micro-causal closure）和宏观因果排除（macro-causal exclusion）的概念，这两个概念是他对物理主义和精神现象之间关系的理论探讨的一部分。

1. 微观因果闭包（Micro-Causal Closure）：这个原则认为，对于任何一个物理事件，如果它有一个充分的微观物理因果解释（即，可以通过描述其微观物理状态的变化来完全解释这个事件），那么就没有必要再寻找其他类型的因果解释。换句话说，微观物理因果关系可以完全解释所有的物理事件，不需要引入其他类型的因果关系。

2. 宏观因果排除（Macro-Causal Exclusion）：这个原则认为，如果一个事件已经有了一个充分的因果解释，那么就不能再有其他的、与之不兼容的因果解释。换句话说，如果一个事件的宏观状态（比如，一个人的心理状态）可以被其微观物理状态（比如，大脑中神经元的活动）完全解释，那么我们就不能再引入其他的、与之不兼容的因果关系（比如，心灵因果）来解释这个事件。

形式上，CEP与生物相对论原则非常相似。然而，它们之间存在原则上的区别。生物相对论与相对论理论无关，并且通常混淆了“因”的严格概念（作为时空中的瞬时物理事件）与“原因”的概念（作为逻辑或甚至在进化背景下的目的论类因果解释，类似于亚里士多德的目的因）。因此，它允许循环因果（通过反馈）和多尺度因果（向上/向下）。向上因果描述了系统中较低层次的元素如何作用并影响较高层次元素的力学表征。向下因果描述了环境条件（大尺度）对系统在较低层次上的动力学施加的一组约束表征（Noble et al.，2019）。相比之下，CEP禁止了这两种多尺度因果关系。

译注：

生物相对论原理（Principle of Biological Relativity）是英国生理学家Denis Noble提出来的一个概念。他指出，当我们考虑因果时都会在一个特定尺度背景下，就好像运动都会在某一个坐标系下分析。而在生物领域，不存在某一个尺度（分子、细胞、组织等等），可以被孤立地理解。也就是说，在因果解释上尺度之间没有本质的高下之分，每一个尺度都会依赖它更高或更低层次的尺度。

参考资料：Noble, Denis. Dance to the Tune of Life : Biological Relativity. Cambridge: Cambridge University Press, 2017. Print.

推论2：混合两个（或多个）因果闭合的尺度是双重因果谬误。

这个推论排除了向下的因果或过度决定性的谬误。需要注意的是，这里的“过度决定论”不能与在相同的尺度上两个（或多个）同时发生的事件导致同尺度另一个事件发生的情况混淆（参见图1B）。在因果集合ℒ 中，不同线性因果链之间的这种碰撞（和分叉）可能是普遍存在的。推论2允许线性因果链在任一尺度内相交，但不允许跨尺度相交。过度决定性发生在粗粒度和细粒度的变量被假定对同一事件产生因果影响（图3A）的情况下，尽管从原则上讲，微观事件无法在宏观尺度上观察到，反之亦然。

译注：

在哲学中，过度决定性（overdetermination）通常用于描述一个事件或现象同时由多个充分的原因引起的情况。这个概念强调的是现实世界中的事件和现象往往不是由单一的原因引起的，而是由多个因素共同作用的结果。

图3. (A) 粗粒化通过将许多微观变量聚合成一个宏观变量，用马尔可夫链模拟，并隐含地从线性因果链的事件观察中推导出来，从而可以将高维空间的数据降维到低维空间。它们的反事实解释则通过概率空间进行形式化。因此，粗粒化在微观尺度上将许多因果链“压缩”为宏观尺度上的单个因果链，涉及空间和/或时间。因果（马尔可夫）链通过其自身的因果关系（绿色箭头）在相应的尺度上演化。CEP只允许因果链在相同尺度上相交，而不允许跨尺度相交。如果假设一个尺度上的链的时间演化受到另一个尺度上的链的影响（红色箭头），则会出现双重（向上和向下）因果关系。(B) 在这里，由随附变量t表示的意识状态流从大脑的时间演化中产生。神经因果链遍布大脑的微观尺度，而大脑动力学则由宏观状态表示。现在，如果将信息与因果混淆，向下的因果就变成了心理因果，影响神经因果链。相应地，在宏观尺度上，心理因果以自由意志的形式出现，影响一个人的意识状态（意识状态在根本上决定一个人在环境中的行为）。

在过度决定性的经典例子中（Kim, 2006），有两个涌现的精神态M和M*，分别随附在系统S的物理状态Q和Q*上。现在如果我们同意Q导致M*，我们必须同意Q也对M*有因果作用。如果M和Q都解释了M*，那么就出现了过度决定。不过，在这个例子里更关心的是身心问题而不是向下因果。如其所述，向下因果假设并不足以解决身心问题。为了解释心理因果，必须将因果与信息混为一谈。

为了具体说明，将上述示例翻译成上一节的形式化语言。假设宏观尺度的随附变量t和t+1代表了动力学系统（如大脑）的心理状态M和M*。系统的每个部分的时间演化可以用对应尺度小于整个系统尺度（理想情况是神经尺度）的线性因果链表示。在时间动力学中，每个部分的状态由其先前状态决定（虽然其他部分也可能介入链中）。当也受到t跨尺度的影响时，就会出现双重因果或过度决定的情况。因此，如果满足不等式7的条件（图3B），心理因果就有可能存在。

最终，CEP拒绝了强版本的涌现（连同向下因果和心理因果），但采纳了弱版本的涌现。这并不意味着大脑是一个自动化机器或一个没有自由行动的决定论机器。CEP允许保留一个常规形式的自由意志。正如注意到的那样，Libet类型实验并不威胁这种由大脑无意识产生并在事后经历有意识体验的自由意志（Mudrik，2022）。这需要不相容主义的自由意志观。大脑动力学不能完全被过去所决定，而是通过涉及量子微观效应的参与，这些效应不会被热噪声抹去，而是在非线性（确定性）神经动力学中被放大，进而引起认知（无意识）处理。越来越多的证据表明，生物进化确实能够利用细胞结构中的量子随机性，包括神经处理（Brookes, 2017; Jedlicka, 2017）。

假设t和t+1是一个对应的宏观尺度下的一体线性因果链的两个大脑状态。同时，假设大脑与环境完全隔离，排除通过感官信号影响神经活动的外部原因。我们说t+1是由t所引起的。然而，因果论并不等同于决定论。从因果（传递性和非自反性）集合 ℒ = (, ≺ ) 的角度来看，因果论意味着没有事件可以从无中产生：无论是常规事件还是随机事件都是由其他事件（因）引起的。相比之下，决定论严重依赖于来自于全知拉普拉斯妖视角的可预测性思想。在给定初始条件和由自然法则控制的动力学的情况下，常规事件完全可以以概率(|) =1进行预测。随机性（不确定性）被认为是由于观察者缺乏完美知识的限制所引起的。相比之下，随机事件虽然在因果上是由之前的事件驱动的，但原则上无法提前精确预测（量子不可行定理表明即使是拉普拉斯妖可能也无法预测）。因此，作为一个宏观尺度下的线性因果链，随着时间的推移，由于存在量子微观不确定性，大脑状态可能仍然无法完全由过去所决定。

现在让t代表这个线性链，作为与一个人的那个“我”相关的意识状态流（Tononi et al., 2022），包括一个人的原子、神经元和身体。根据CEP，所有尺度都是因果闭合的，因此从t到t+1（向下）的心理因果被排除在外（图3B）。相反，意识状态从大脑宏观状态中被动地涌现。这可以形式化地表述为将大脑状态t即时（即在某种程度上是非物理的）映射到意识流中相应的意识状态t中来。因此，t和t+1之间的因果关系（虽然并非完全确定关系）通过映射自发地转化为t和t+1之间的心理关系，就好像前者导致了后者（图4A）。

尽管这种对物理脑状态和主观意识体验之间的形式映射并没有解决二者之间的关系之谜，但它可以解释自由意志的幻觉，同时保留了大脑或（更一般地说）意识有机体的自由行为能力。与此同时，CEP通过将信息与因果混为一谈（图4B）的方式，防止我们陷入身心二元论。

图4. (A) CEP通过假设微观尺度上的不确定性来解释传统形式（不相容主义）的自由意志。(B) 相反，用向下因果来解释物理形式（相容主义）的自由意志会导致身心二元论。

推论3:粗粒化是因果上合法的。

这里所说的粗粒化，与主成分分析或数据压缩等统计分析中降维技术无关。而是与实际事件有关，因为这些事件应该按照自然法则独立进行，形成因果链并在时空中交织成网。相应地，粗粒化取决于观察的空间和时间分辨率，就好像时空本身被压缩，从而只能观察到宏观事件那样。它允许改变描述的尺度。粗粒化的例子包括热力学中的温度、力学中的质心、网络分析中的聚合节点、还有人口动力学中，将群体数量缩小为单一变量的相空间模型。所有这些都是弱涌现的例子，即“地图比领土更好”（Hoel, 2017），而不是强涌现的情况，即“宏观胜过微观”（Hoel et al., 2013）。（参看《》）

5.3 粗粒化和空间跨度

Flack（2017）建议区分两种不同的粗粒化，一种是科学家为了对感兴趣的系统实现良好的预测，寻找对其行为进行紧凑描述的过程，另一种是自然界中内生的粗粒化。内生（或本体论）粗粒化表现为物质的分层多尺度组织，从原子到行星，尤其是生物系统，范围涵盖基因到社会。CEP认为从物理学到生物学再到社会科学展开的多层级科学层次结构是完全合理的。这种层次结构是弱涌现的：每个层次都不会产生那种不能从底层（最终是从物理学）推断出来的本层规律。每个层次原则上都是可归纳到前一个层次的，但实践中并非如此（Bedau, 2006）。

在实践中，科学家自然受限于选择一个最适合所研究系统（例如太阳系或细胞）大小和动力学的基础元（elementary basis）尺度，作为观测和因果分析的下界。这个基础可以明确或隐含地选择，但它将始终嵌入到研究框架中。基础之下的所有尺度都被忽略（例如量子、原子、分子）。此外，在所研究系统的空间（和时间）跨度之上也有观测和因果分析的上界。同样，上界以上的所有尺度都被忽略，通常与环境相关（例如社会、生态）。在这个跨度内，通常提出了三个尺度：一个微观尺度用于基础元，一个宏观尺度用于系统本身，以及介于它们之间的介观尺度。

乍一看，图论提供了在相同空间（和时间）分辨率尺度上发生且有效的因果链条的最佳表示。然而，建立在节点集合上的图并未区分尺度：一个节点与另一个节点的大小都是相同的。尽管可以通过将节点间相互连接密切的网络局部聚合为大尺度上的单个节点（模块）来对图做粗粒化，这样的转换会改变描述的尺度，但保留了单一尺度表示。

根据CEP，图论表示确实可能是动态因果建模的最佳选择，但前提是所有节点都与所关注系统的基础元相关联。在心智-大脑关系的情况下，基础元应与单个神经元的尺度相关，其中最重要的因果事件发生在任意体积的神经元群体内，例如在密度图的情况下。显然，在这种情况下，通过白质纤维的结构（解剖）连接应自然地提供神经元之间线性因果链的通信通道。不幸的是，图表示可能会粗略地混合不同时空尺度，因为它通过使用各种神经影像技术检测脑不同区域之间的功能连接的统计相关性来实现。这可能导致虚假因果关系的出现（有关综述，请参阅Reid et al., 2019; Weichwald and Peters, 2021; Barack et al., 2022）。

总体而言，CEP认为观察者应该将因果分析的尺度隔离开来。理论上，我们应将系统的基础元B标记为尺度1。其中的n个元素的集合， ⊆ ，通过它们的基本元自发地产生等价类，然后分配给尺度n。每个新的尺度n+1都是通过向每个集合添加一个新元素而产生的。尺度是可加的，即互相依赖的组成元素的集合可以被一个尺度等于各个组成元素尺度之和的单个组成元素替代（Bar-Yam, 2004）。不幸的是，实际上，尺度之间的区分无法严格界定。

例如，微观尺度和宏观尺度应该在何处划定边界？特别是，分子尺度如何转变为细胞尺度，单个神经元的尺度又如何转变为神经模块的尺度？这个困境与哲学中的所谓“堆悖论”非常相似。堆悖论认为，如果一粒沙子不是堆，而将一粒沙子加入到不是堆的东西上并不会产生堆，那么堆在物理上是不可能存在的，尽管在观察者眼中这是一种产生。沙堆是真实的吗？显然，将“堆”替换为“模块”或任何一组相互连接的元素都不会改变这个结论。

因此，不同尺度之间的边界无法用数值定义，只能通过类似拓扑空间中邻域的方式来进行拓扑上的定义，拓扑空间中的接近程度（或极限）是通过开集（闭集）而不是度量距离来描述的。让每个尺度l作为等价类，其基数为|n|，并延伸到邻域O，使得1 ≤ ≤ k。最近的尺度定义为。在这个意义上，CEP允许一个事件导致n个后续事件，或者等价地说，被n个先前事件在同样的观测尺度上所引起（n≥1），但是它禁止n大于给定尺度的邻域（n≤）。

以堆积的沙堆、成群的椋鸟或大脑的神经网络中可能出现的雪崩现象为例。假设雪崩由一个单独的元素（如一粒沙子、一只椋鸟或一个神经元）引发。这个元素1因果影响了元素2，它们又分别影响元素3和元素4，从而使雪崩呈指数增长。某些人可能会认为这样的动力学展示了向上因果，允许一个部分跨越尺度对整体产生因果影响。这是否属实？

在特定时刻t，每个元素在邻近区域只能影响n个元素（n≥1)，但不能同时影响超出其邻近区域的无限数量的元素（n≤）（例如在鸟群中，（Ballerini et al., 2008））。根据 CEP 所述，当兴奋神经元的数量超过时，必须改变观察尺度。这就是雪崩效应不断演进并跨越了两个邻近的尺度之间的边界。与向下因果不同，存在许多分支链，其共同的起源是在久远的过去引发雪崩效应的共同因。由于这个共同因，雪崩效应的所有元素之间存在统计（功能）相关性，但它们之间没有因果（结构）联系。否则我们的大脑将是所有神经元由白质纤维构成的全连接网络。所以情况并非如此。

值得注意的是，假设雪崩中存在向上因果，也会使向下因果成为可能。实际上，如果一个元素可以同时影响无限多个元素，那么逆过程也可能自发发生。假设在上述情景中，元素1影响元素2，然后它们同时影响元素3和元素4，引发同样的雪崩。通过这种方式，在某个时刻，有大量元素同时影响一个新元素，这就好像整体能够因果影响其部分一样，从而可以解释向下因果。同样，这也要求大脑被白质通信通道所完全连接。尽管神经生物学证据表明在人类大脑中，平均每个神经元与其他神经元有数千个突触连接，而只有少数可以同时激活。

5.4 弱涌现，非还原主义

正如前所述，CEP原则不是还原主义的原则。从还原主义的角度来说，我们应该同意我们周围的一切和我们自己都是虚幻的，因为只有原子（或量子粒子？）真正存在并具有因果能力。在这个意义上，Tononi等人（2022）的“本体论论证”提出了相反的观点：只有“我们”作为有意识的观察者真正存在并产生作用，而不是原子、细胞和我们周围的一切事物。CEP原则同时拒绝了上面这两个对立的观点，认为：所有尺度在本质上都是合法的，并且是因果闭合的。特别地，大脑是一个多尺度层次结构，其中的因果链在每个尺度上并行独立演化。因此，CEP原则假设意识在大脑层次结构中表现为在分子、细胞、模块和脑区尺度上的因果过程，这些过程的表现形式可以成为神经科学研究认知功能和精神健康的最适当（优选）尺度（Branchi，2022），而不需要向下因果假设。

6. 复杂系统的层次结构

层次结构（Hierarchy）是社会群体、生物学和神经科学中的复杂系统普遍存在的特征（Mihm et al., 2010; West et al., 1997; Kaiser et al., 2010; Deco and Kringelbach, 2017; Hilgetag and Goulas, 2020）。然而，在因果分析中，必须谨慎使用这个术语，因为存在两种非常不同的层次结构类型。这是因为“层次结构”可以用两种数学上相关但在物理上不同的方式来概念化，分别是扁平层级结构和多尺度模块化层次结构。

6.1 扁平层次结构

在文献中，层次结构通常被定义为一组特定的元素（节点）按照等级（ranks）或层级（layers）排列。在最一般的数学表达中，层级是一个有向无环图 = (, ，也可以表示为一个上半格 ℋ = (, ≤) ，其中≤符号在数学意义上代表序的从属关系。一个典型的例子是权力层级，它由一个中央权威机构组成，将权力从上级层次向下传递以实施命令和控制。秩序在层级内部的等级之间自发产生。通常情况下，对于给定的一组节点N，层数（层级的高度）取决于分支度，即每个节点平均拥有的下属数量。这个≤可被分解为在层级结构中由所有下属节点组成的线性链。但是，这种表示方式会导致产生极大的混乱，这也是假设复杂层级系统（此处仅限于大脑）存在向下因果的原因。

首先，这个定义只描述了最简单形式的扁平层次结构，其中所有层级都呈现在相同的尺度上。另一个例子是嵌套层次结构，它由子系统组成，而这些子系统又有它们自己的子系统，依此类推。嵌套层次结构是一个多尺度模块化结构，被认为是“几乎可分解的”（Simon, 1962）。Simon认为几乎可分解性（模块化）是自然复杂系统的一种普遍特征，因为它通过稳定的中间功能模块使简单系统产生复杂性，这些功能模块使系统能够去适配一个模块而不用冒着损失其他模块功能的风险（Meunier et al., 2009）。其次，重要的是，在单尺度（或平坦）权力层次结构的所有层级的节点（元素）中，顶端的节点优于其他所有节点，底端的节点则次于其他所有节点；与之不同，在多尺度层次结构中，节点统一放置在最低层级（尺度）中，作为所有模块展开的基础元。

6.2 多尺度模块化层级结构

一个单尺度上半格ℋ = (, ≤)，可以表示为幂集，并通过将N的所有子集（包括单元素子集）包装为节点集合 {} （无需考虑{A}的内部结构）映射到。数学上，多尺度层次结构是一个对取并集和取下界运算封闭的结构，也被称为 “理想”（Yurchenko, 2023a）。根据定义，对于基础元N的结构，如果N的所有子集满足以下条件，则称之为理想Δ ：

(a) , ∈ ∆ ⇒ ∪ ∈ ∆;

(b) ∈ ∆ & ⊆ ⇒ ∈ ∆. (9)

条件（9a）给出了从上方对层次结构Δ 的一个闭包，提供了系统和环境之间的边界，可以视为自治性和自组织性的先决条件。需要注意的是，闭包是Δ 的普遍特性，和基础元的大小（例如大脑层次结构中的神经元数量）无关：人类大脑和小鼠大脑都是从上方闭合的层次结构。因此，这个属性在物种上是通用的（而来自体外实验的培养神经元或皮层切片则缺乏这种属性）。Δ 的另一个普遍特性是其自相似（分形）结构或无尺度特性，这是层次结构的基本特征之一。

显然，在自然系统中，并非基础元的所有数学上可能的子集都是有效的，只有那些与形式模块紧密相连、嵌入到系统的架构中的子集才是有效的。大多数Δ子集（在神经生理上）的伪功能对我们的分析并不重要。在网络科学中，人们提出了各种不同的措施来检测真正连接的人群（Rubinov and Sporns, 2010; Lynn and Bassett, 2019）。最重要的是，单词“级别（level）”、“层级（layer）”和“尺度（scale）”经常可以互换使用（详见Kivelä et al., 2014的评论）。这种不一致的术语混淆了复杂系统的因果分析。

从现在起，这些术语将严格区分开来。虽然“尺度（scale）”显然是指以层次化方式排列的空间（或时间）尺度，但“层级（layer）”一词专指以相同观察尺度研究的系统的结构组织。因此，权力层次结构、皮质金字塔细胞的层级结构，或者人工神经网络都会被称为“多层级”（multilayer），因为它们包含许多功能从属的层级，然而上面这些例子都是在在同一空间尺度上进行呈现的（图5A）。相反，从基因和蛋白质网络到突触和神经元网络再到整个大脑网络（图5B）形成的层级将被称为“多尺度”（multiscale）。

图5. 线性和对数尺度中的层级结构。(A) 顶部：这个示意图通过线性的单尺度因果链表明了扁平层级结构中的预测过程，其中预测误差（浅层金字塔细胞的蓝色圆圈）通过更新（蓝色箭头）位于更高层的期望值（深层金字塔细胞的青色圆圈）。底部：这些后验期望值通过下降的预测（青色箭头）生成较低层表示的预测。改编自（Carhart-Harris和Friston，2019）。(B) 顶部：相比之下，嵌套的大脑等级从个体神经元（基本单元）展开到神经网络（模块）到整体工作空间。改编自（Lynn和Bassett，2019）。底部：因果关系的单尺度链（蓝色线），仅位于基本单元中，通过模块化的⊂-链（粗红色线）在不同尺度间提供信息流动。

毕竟，“级别”（level）总是暗示相同系统的不同概念表达，而不涉及尺度或层级。一个典型的例子是多级别层次结构（multilevel hierarchy）作为一个有连边标签的多重图（edge-labeled multigraph ）（Kivelä et al., 2014; Boccaletti et al., 2014），其中所有级别都代表相同的基础元，而每个级别中的元素（节点）通过一些感兴趣的特性（如形状、颜色、年龄、家庭关系、从属关系、技能和其他任何分类）连接在一起。多级别层次结构原则上可被认为是模块化的，每个级别对应于大脑上施加的特定类别，例如，通过视觉、嗅觉、听觉或体感系统进行分级。大脑中不同类型的相互作用的另一个熟悉例子是结构（解剖）连接和功能（统计）连接之间的关系，可以用两个相互依赖的级别来表示。虽然多级别分解可以提供用于研究心智-大脑关系的强大数学工具（Signorelli et al., 2022），但这些级别不能通过从属层级一致地排序。严格来说，多级别网络（multilevel networks）根本不应称为层次结构。此外，如果将层次结构的概念定义为嵌套式无尺度网络架构，即网络是嵌套在彼此内部的，那么就连多层级从属结构（multilayer structure）也不能算是层次结构。

在对不同的层次结构进行链条分解时，单尺度（图形类型）和多尺度（理想类型）层次结构之间的差异尤其显着。在扁平层次结构 ℋ 中，所有节点都位于同一尺度上的线性链类似于因果建模中的单尺度因果链；而嵌套层次结构Δ的链条在空间上是多尺度的：每个“层级”对应于一个单独的尺度，而不是对应于其在从属层次结构中的位置，例如大脑中的皮层层次。因此，在模块化的 ⊂ -链条中，节点应该像俄罗斯套娃一样嵌套在彼此内部（图5B），符号边表示可以在不同尺度上传递的信息流。这两种链条的差异很重要，因为向下因果被认为仅沿着模块化的⊂-链条发生。因此，在严格的说法下，因果分析必须区分扁平（从属的）和嵌套（模块化的）层次结构。

7. 脑层次结构中的因果和信息

现在有多种不同的意识理论（有关综述，参见Doerig et al., 2020; Del Pin et al., 2021; Francken et al., 2022）。尽管存在差异，它们中的许多都聚焦于一个共同的观点，即大脑是一个信息处理系统，意识，或更准确地说，每一个特定的意识状态都是大脑在那一时刻处理的信息。另一个共识是，意识体验是一个大尺度下的涌现现象，由大脑中所有模块组成整体时所构成的层级结构生成。这些模块为认知和行为机制的功能分离和差异集成的神经处理提供了一种拓扑景观（Markov and Kennedy, 2013; Mesulam, 2012）。

在神经科学中，大脑使用层次推理的观点已经得到了广泛的认可，并为皮层系统的多层解剖组织提供了解释（Rao and Ballard, 1999）。在最有影响力的理论之一，（贝叶斯）预测加工理论（Clark, 2013; Howl, 2013; Friston et al., 2013）中，神经活动表现为皮层层次结构自下而上的预测误差和自上而下的预测。在这一层次结构中，前向连接的来源是浅层锥体细胞群，而反向连接的来源是深层锥体细胞群（Badcock et al., 2019）。预测误差是自下而上的感觉输入与自上而下对该输入的预测之间的差异。误差最小化依赖于在皮层层次的不同解剖层之间反复的神经相互作用，其中自下而上的信号将预测误差传递到更高层，以通过这些反馈机制优化后验概率。进一步观察，可以发现预测加工模型完全是基于一个扁平的层次结构，因此使用“自下而上”和“自上而下”的术语可能会引起误导，因为它仅指的是皮层的解剖层次结构。所有在那里引用的因果链都是同一尺度下的（图5A）。尽管如此，扁平的层次结构允许通过将自上而下的信号与自下而上的流动相结合，实现信息在不同尺度上的传输（Hohwy and Seth, 2020）。

另一个著名的理论，全局工作空间理论，提出大脑是按照层次结构划分为专门用于特定功能的模块，这些模块之间有远距离的连接（Baars, 1998; Dehaene and Naccache, 2001; Mashour et al., 2020）。一些学者认为，多层预测加工可以在一个多尺度协同的全局工作空间内展开，以向局部模块广播信息（Safron, 2020; VanRullen and Kanai, 2021）。然而，本文的目的并不是比较或调和各种意识理论（例如，参见Northoff and Lamme, 2020; Signorelli et al., 2021; Seth and Bayne, 2022）。我们最感兴趣的问题是：这个层次组织良好的全局工作空间能否生成一个“小人”，以对模块化的⊂-链施加向下的因果作用？我们的答案是，不能。

这个论点基于两个前提：

1. 因果关系可以产生（和消除）信息，但它不能在模块化层次结构的不同尺度之间进行，除非产生双重因果作用；

2. 在模块化的层次结构中，信息可以向上传输并向下广播，但除非涉及隐性的身心二元论，否则它不能产生因果关系。

乍一看，由于只有单一尺度的因果链是有效的，向下的因果作用仍然可以通过下级层次结构的线性链发生。但是，如果参考框架本身就是人为设计的，以反映的不是因果链而是信息流，这种因果作用能被合法地称为“向下”的吗？此外，在多层级权力层次结构或人工神经网络中，并没有优选轴来赋予信息流一个物理方向。严格来说，即使在这些层次结构的线性链中，信息也不能被称为是“向下”的。只有在多种空间尺度上传输的信息才能被称为是“向下”的。

同样地，我们经常用与谈论大脑的左右半球相同的方式来谈论大脑的上部和下部，因为这些都是自然呈现给我们的。然而，在大脑中并没有优选的轴线，除非是与大脑进化古老的区域相关的轴线。但即便是相对于这一由脑干到皮层的进化诱导轴，其中存在许多用于传输信息的双向投射，如脑干-丘脑-皮层唤醒回路，真正的向下因果作用也不能沿着这一轴展开，因为用于传输信息的因果链要么是线性的，要么与⊂-模块化链不兼容。尽管扁平层次结构ℋ和多尺度模块化层次结构Δ都可以用半格结构（semilattice）来表示，但这两者在拓扑上将是‘正交’的，如图5所示。

因果信息二分法可以更好地通过结构连接和功能连接的对偶性来捕获，因为这些在神经科学中得到了深入的研究。结构连接或连接体（connectome）（Sporns et al., 2005; Bennett et al., 2018）指的是神经元之间的直接解剖学链接，这些链接产生了通过各种神经成像技术检测到的统计相关性模式，这些模式与功能连接性有关（Bullmore and Sporns, 2009; Damoiseaux and Greicius, 2009; Messé et al., 2014; Fukushim...

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.