时间、信息与人工智能：从信息动力学角度看大模型的未来|原理|智能体|自组织

分享至

导语

近年来，人工智能（AI）大语言模型取得了突飞猛进的发展，人工智能对人类社会的影响也拓宽到了前所未有的范围。本文从与物理学有关的两个角度——信息和时间尺度，讨论对大语言模型带来的人工智能革命的一些不成熟的见解。文中首先回顾大语言模型的基本原理和近期发展，再讨论从信息动力学和复杂度的角度如何看待大语言模型的意义。基于人工智能模型和人类认知系统的比较，也会探讨人工智能的下一步发展方向，以及AI智能体方面的探索和发展。

发展中的复杂系统理论方法如何指导未来AI的设计，正在成为备受关注的问题。集智俱乐部联合加利福尼亚大学圣迭戈分校助理教授尤亦庄、北京师范大学副教授刘宇、北京师范大学系统科学学院在读博士张章、牟牧云和在读硕士杨明哲、清华大学在读博士田洋共同发起「」读书会，从复杂网络、统计物理、算法信息论、因果涌现、自由能原理、自组织临界等视角出发，探讨如何理解复杂系统的机制，这些理解是否可以启发我们设计更好的AI模型。读书会于6月10日开始，每周一晚上20:00-22:00举办。欢迎从事相关领域研究、对AI+Complexity感兴趣的朋友们报名读书会交流！

研究领域：大语言模型，人工智能，信息动力学，复杂度，系统1与系统2，AI智能体

来源：《物理》2024年第6期

作者：祁晓亮

1. 大语言模型简介

图1 克劳德·香农在关于信源编码定理(source coding theorem)的论文中研究的语言模型

图2 大语言模型的示意图。输入内容(粉色)经过运算预测输出下一个词(绿色)，如此迭代

图3 美国人工智能公司Anthropic的模型Claude 3在2024年3月发布时的评测结果，其中红框中的三个模型Opus，Sonnet和Haiku是Claude 3的三个不同版本，能力依次减弱(图片引自：https://www.anthropic.com/news/claude-3-family)

2. 信息复杂度的临界点

大语言模型的出现在这个意义上带来了一场革命：大语言模型的信息输入、处理和输出的复杂度都达到了和人类可以比拟的水平 (图4) 。如上文所述，语言是人类文明的载体，人类做的一切事情都可以用语言来描述，大语言模型对于自然语言的处理虽然还没有达到人类的智能水平，但其复杂度已经与人类相当。或者至少在对话场景中，对于语言文字的处理复杂度达到了和人类可以比拟的水平。可以说，大语言模型标志着机器的信息处理复杂度跨越了临界点。比起以前的计算机，大语言模型解除了信息的瓶颈。如果接受这个判断的话，其影响是难以估量的。具有了足够复杂的输入输出能力，一个模型的输出就可以直接变成另一个模型的输入，模型之间可以构建复杂的合作网络，就像人类个体构建社会组织一样。一旦模型之间的合作具有1加1大于2的效果，智能的发展将进入新一轮的指数增长。这就像物理学中的相变：一个磁性材料里面每一个电子自旋的行为在相变点之上和之下并无多大区别，但决定整个体系宏观性质发生定性改变的是随着空间尺度的扩展和自由度的增加，其有序性是增强还是减弱。

图4 大语言模型(LLM)和之前的机器(例如AlphaGo，Google)在信息的输入、处理和输出的复杂度对比。虚线代表人类水平

跨越临界点的AI将迅速成为与人类并驾齐驱的信息处理者。今天的语言模型，包括多模态模型，处理信息的基本单元是向量 (vector)。人类语言以及多模态数据通过称为嵌入 (embedding) 的映射被翻译成向量进行运算。可以说向量就是AI的语言。今天的AI革命，意味着信息的载体从人类语言部分转移到向量，起决定性作用的信息动力学过程从人脑的思考部分地转移到GPU中的计算。从这个意义上说，语言模型的革命具有和人类语言的出现同等级别的意义 (图5) 。

图5 按照起决定性作用的信息动力学过程给地球的历史分阶段

3. AI的快与慢

3.1 人类的认知系统

3.2 系统1和系统2的关系

那么系统2是和系统1完全独立的另一套认知系统吗？并不是。举个例子，如果我们要计算9乘9，就会根据记忆直接给出结果81，不需要思考，因此这是一个系统1的工作。如果我们要计算999乘999，就不能只凭记忆，就要开始调用系统2开始思考。我们可能会分成如下的步骤去做：

(1)利用999=1000-1，把问题转化为计算(1000−1)×(1000−1)；

(2)用乘法分配律展开这个式子；

(3)计算1000×1000，1000×1，1×1；

(4)计算加法，得出结果。

在这个过程中，我们所做的事情是把问题拆解成步骤，直到每一个步骤 (例如计算加法，应用分配律) 变成我们系统1可以完成的任务。从这个例子我们可以看出，系统2工作的方式是把问题拆解为一个流程图，这个流程图的每一个节点就是系统1的一个现有的能力。换言之，系统2是系统1组成的网络。

系统2和系统1的关系还有另一面：系统2获得的能力会在多次运用中为系统1提供训练数据，使得系统1获得新的能力。例如上面例子中的乘法分配律，是小学学过了以后才变成了系统1能够处理的内容。例如计算210，本来是一个系统2的工作，我会从2×2×2…开始一步步计算出210=1024。但因为这个数字在我的工作中经常用到，使用多次之后就会记住，变成了系统1可以完成的工作。类似的例子也会发生在更复杂的场景中。例如在科学研究中，一位有经验的研究者会凭直觉选择某一种解决问题的方案，可能他自己都没有想到原因，再回想一下才知道为什么做出这样的选择。这就是因为在过往的经验中训练出了系统1的直觉。这样的训练在各种时间尺度上都在发生。具体解决某一问题的方法沉淀到系统1，我们会称为“经验”或者“直觉”，而在更长的时间上，这些经验的集合，会形成我们的“习惯”和“性格”，其中很多部分可能终生保持稳定，但也有可能因为一些比较重大的内外因素的变化而发生改变。系统1和系统2的关系总结如图6所示。

图6 人类的系统1和系统2的关系。系统2是系统1的网络，系统2的使用带来的数据(经验)会反过来训练系统1

从这个分析中我们可以看出，人类的认知过程可以按照时间尺度分成一个连续谱，速度最快的“不假思索”部分称为系统1，其他部分称为系统2，系统2获得新能力的过程是通过把已有能力组合成一个网络来实现的。系统2在应用中积累的数据又会进一步用于优化系统1。人类就是通过这种不同时间尺度的能力之间的相互迭代优化，来迅速学习进步，处理复杂世界中纷繁芜杂的任务的。在图7中，我们列出了人类在不同时间尺度上完成任务的一些例子。

图7 人类和人工智能的时间尺度比较。人类的系统2涵盖了从1秒到几十年的时间尺度范围，可以针对不同的任务调整认知的时间尺度。相比之下，AI的快行为(推理)和慢行为(微调和预训练)之间存在空档，而且微调和预训练要通过人类干预才能完成

这样一个多尺度系统有点类似于一个城市的道路。如果所有的道路都是方格子，限速都一样，会是一个非常低效率的交通系统。最高效的道路系统是有速度的分层，去近处的车辆走速度低的小路，去远处的走快速路，更远处的走高速公路，这样一种规划方式之所以对于每个城市都适用，就是因为它面临的问题 (交通需求) 是按照尺度 (出行的距离) 来分层的。在物理学中对于我们理解物质状态至关重要的重正化群理论，也是通过分析不同尺度的动力学之间的关系，来排除不重要的细节，预测物质态在何种情况下会发生质变 (例如水的沸腾) 。

3.3 人工智能认知的时间尺度划分

现在让我们把同样的时间尺度视角应用于大语言模型。我们会发现大语言模型的工作方式非常类似于人类的系统1：过往的经验 (训练数据) 直接影响了模型的偏好。如果输出出现了错误，模型不会自动通过思考去判断和纠错，而是“不假思索”地输出它预测为最可能的答案。无论面对的是更简单还是更难的问题，语言模型输出的速度不会有区别。虽然大模型能够完成复杂的任务，例如编程，但其工作方式仍然是“凭直觉”的，比如面对一个陌生 (训练数据少) 的任务，容易出现与熟悉任务的混淆。一个典型的例子是我截图了一个关于三维黑洞的物理公式，请GPT4帮我转换成LaTeX格式，这本是一个非常容易的任务，但GPT4因为更熟悉四维黑洞的公式，总是会把输出的公式写错。对比人类的认知，我们会看到这是一种系统1的模式：要改变输出和输入的关系，必须输入大量数据去训练。比起需要大量数据的预训练 (pretraining) ，大模型在预训练之后也可以通过微调 (finetuning) 来优化某一方面的表现。比起预训练，微调需要的数据量较少，是一种更快的改变模型行为的方式，但相应的能够带来的改变也更有限。微调也可能会让模型在其他方面的能力有所退化。按照时间尺度来划分，我们可以把大模型的推理 (inference) ，微调和预训练，排在时间轴上 (图7)。比起人类的认知模式 (图1)，我们看到主要的区别有两个：

(1)微调和预训练都需要人工完成。如果训练大模型的公司不去进行微调和预训练，大模型的参数不会在与客户互动中自动调整。换言之，大模型要学到任何新的东西，都需要人工的启动微调或者预训练的过程。如果只是进行推理，大模型是一个无状态机器 (stateless machine)，除了保存在聊天记录的内容之外，就没有其他的状态参数会随着时间改变。

(2)在作为快系统 (系统1) 的推理和作为慢系统的微调和更慢的预训练之间存在着一个空档。人类的系统2可以作用于任何比系统1更长的时间尺度，而AI目前并没有办法灵活地调整学习和应用新技能的时间尺度。

和人类的认知相比较，我们看到AI所缺少的正是系统2。现有的大语言模型 (LLM) 就像一个所有街道只有一种限速的城市道路系统，要想改进交通状况只能整体或者局部翻修道路 (预训练或者微调)，其改进的效率远不如以适当的比例引入不同速度的快速路和高速公路。根据我们对人类认知系统的分析，系统2是通过系统1的网络来实现的。构建系统2，就是要让AI具有自己组织系统1的网络来构建新工具、解决新问题的能力。

4. 通向系统2：AI智能体

总结一下前文所说的内容，我们看到今天的大语言模型已经越过信息复杂度的临界点，训练了一个强大的系统1，这也为下一步，即构建系统2铺平了道路。从人类认知的例子中我们可以看出，系统1是构建系统2的基本单元。因此AI的系统2也就是系统1（大模型）组成的网络，也就是通过多次调用大模型完成不同的子任务，来实现更复杂的功能。这个方向过去一年中也有越来越多的研究，通常被称为AI智能体(AI agents) 。通过多个LLM分工合作，并且拥有长期记忆，原则上说可以实现从系统1到系统2的扩展。下面我会通过几个例子来解释一下AI智能体的基本概念。

第一个例子是著名的“chain-of-thought” (思维链) 提示策略 (图8) [6]。对于一个给定的问题，例如一道数学题，如果不是让AI直接输出答案，而是一步步输出中间过程，就可以提高AI的推理准确度。在最简单的实现方式中，AI根据输入x来输出中间步骤z1, z2,…zn，然后再得出结论y，所以这可以认为还是一次调用LLM。如果应对更复杂的问题，可以让AI先写出这个中间步骤的链条，再针对每一步去细化其内容，这就是多次调用LLM，也可以看成是最简单的智能体。在一篇2023年的工作中[7]，作者将这个策略推广到了“思维树”，即在每一步推理之后让AI产生一些可能的下一步，形成一个树状的结构，再去评估哪一种策略更可行。通过这种方式可以进一步提高AI解题的准确率。沿着这一方向，后续也有工作将思维树再推广成更一般的思维图 (graph of thought) [8]。

图8 几种不同的对大模型的调用方式 (a)给定问题直接输出答案；(b)思维链提示词；(c)多条思维链再做多数表决；(d)思维树[7]

第二个例子是斯坦福大学一个研究组设计的AI虚拟小镇 (图9) [9]。这个工作设计了一个虚拟游戏环境，有25个AI智能体生活在一个虚拟小镇中。每个智能体都有自己的人物设定 (学生、老师等不同身份) 、记忆 (每天经历的事情，遇到的人) 。智能体会根据记忆和自己的设定来决定下一步做的事情，也需要对于经历过的事情进行反思，把重要的信息存入记忆中。智能体之间的社交互动表现出了复杂的行为，例如组织一次生日聚会。在这个例子中，每个智能体都需要有系统2，通过调用长期记忆、计划和反思来实现复杂的社会行为。

图9 AI虚拟小镇[9]

第三个例子是通过多次调用LLM和多个智能体之间的对话来完成一个复杂任务。这方面有很多工作，典型的例子是最早提出的autoGPT[10]和微软开发的AutoGen (图10) [11]。对于人类用户提出的一个任务，AI会先做出计划，然后去执行，遇到问题再自己排除故障，如此循环迭代。LLM之间会通过对话来解决问题，比如一个LLM负责写代码，另一个负责运行代码和返回结果或者错误。

图10 AutoGen示意图[11] (a) AutoGen的智能体可以包括大模型或者其他工具，也可以包括人的输入；(b) AutoGen的智能体之间可以通过对话解决问题

最后举一个物理学的例子，在一篇2024年的工作中，康奈尔大学的一个研究组用GPT来分步骤进行Hartree-Fock近似的计算 (图11) [12]。在科研中，有很多已经成熟的推导或者计算内容可以用类似的方式来自动化。绝大部分这样的任务不是直接调用LLM就可以完成的，而是需要设计这样的多步骤流程，也就是需要用到AI智能体。

图11 LLM分步骤自动进行Hartree—Fock计算[12]

AI智能体的重要性越来越成为广泛的共识[13]，但其研究工作还处于早期阶段。目前的各种应用仍是尝试性的，对比人类的系统2，我们可以看到人工智能要发展出真正通用的系统2需要克服以下几点挑战：

(1)自组织能力。目前的智能体应用仍然依赖于人设计好的工作流 (workflow) 。要让AI智能体能够成为AI的系统2，就要让AI自己能够进行计划，设计出完成一件事情需要的工作流，并且不断根据反馈来改进这种设计工作流的能力。要形成这样的自组织能力，需要AI对于自己的系统1能够实现的各种能力具有良好的把握，能够从各种基本能力中准确的搜索和调用正确的组件来实现更复杂的功能。

(2)系统2沉淀成系统1的能力。在前面我们讨论过人类是如何把本来需要系统2的能力“熟能生巧”沉淀回系统1的。AI要不断扩展它的能力，关键在于也要具有这样的能力，对于常见的任务可以逐渐降低推理成本，而不是每次重复同样的计算。

(3)计算成本。目前AI的计算成本相对于人而言仍然高得多。人面对一件事情可以同时有很多思路，从中迅速作出判断选择，这对目前的AI来说需要很多次的反复调用来实现，其中的速度问题、准确度问题为智能体真正应用于实际问题带来了困难。但我们也要看到AI计算成本正在迅速下降，各大模型降价速度很快，随着计算需求的不断增加，基础设施的生产不断跟上，未来几年计算成本将会继续大幅下降。

解决这些挑战，在大模型基础上构建通用性的系统2，是实现通用人工智能 (AGI) 的关键一步，也是笔者现在的一个重点工作方向。

5. 总结与展望

总结一下，本文综述了大语言模型的基本原理和最近的进展，并且从信息动力学的角度分析了大语言模型对人工智能发展的意义。基于大语言模型与人类认知系统的比较，本文提出人工智能的下一步是系统2，而AI智能体这个方向与系统2的发展密切相关。本文对于AI智能体方向的一些发展给出了一些概述，并探讨了下一步工作主要需要应对的挑战。

在接下来的5-10年，人工智能的发展将会给人类社会的各方面带来深远的影响，甚至是翻天覆地的变化。在各方面的影响中，对于科学研究等创新工作的影响可能是最深刻的变化之一。如何应用人工智能来帮助科学研究，是非常值得深入思考和探索的问题。

作者简介

祁晓亮，斯坦福大学物理系终身教授。路径积分科技有限公司（txyz.ai）共同创立者。祁晓亮教授的早期研究方向为凝聚态理论，他是拓扑绝缘体理论和拓扑超导理论的开创者之一。近期集中关注量子信息、量子多体与量子引力之间的关系。曾获得包括物理学新视野奖和斯隆奖金在内的多项国际奖项。

个人主页：https://profiles.stanford.edu/xiaoliang-qi

参考文献

[1] Shannon's Source Coding Theorem. https：//web.archive.org/web/20090216231139/；http://plan9.belllabs.com//cm//ms//what//shannonday//shannon1948.pdf

[2]Vaswani A，Shazeer N，Parmar N et al. Attention Is All You Need. 2023，arXiv：1706.03762

[3] 祁晓亮 . 人工智能的黎明：从信息动力学的角度看 ChatGPT. https://mp.weixin.qq.com/s/DJRSqwo0cWGOAgZM4As-OQ

[4] Kahneman D. Thinking，Fast and Slow. Macmillan，2011

[5] Steven P. Psychon. Bull. Rev.，2014，21(5)：1112

[6] Wei J et al. Chain-of-thought Prompting Elicits Reasoning in Large Language Models. In：Advances in Neural Information Processing Systems 35，2022

[7] Yao S Y et al. Tree of Thoughts：Deliberate Problem Solving with Large Language Models. In：Advances in Neural Information Processing Systems 36，2024

[8] Besta M et al. Graph of Thoughts：Solving Elaborate Problems with Large Language Models. In：Proceedings of the AAAI Conference on Artificial Intelligence，2024，38(16)：17682

[9] Park J S et al. Generative Agents：Interactive Simulacra of Human Behavior. 2023，arXiv：2304.03442

[10] Yang H，Yue S F，He Y Z. Auto-gpt for Online Decision Making：Benchmarks and Additional Opinions. 2023，arXiv：2306.02224

[11] Wu Q Y et al. AutoGen：Enabling Next-gen LLM Applications via Multiagent Conversation Framework. 2023，arXiv：2308. 08155

[12] Pan H N et al. Quantum Many-Body Physics Calculations with Large Language Models. 2024，arXiv：2403.03154

[13] Andrew Ng. What's next for AI agentic workflows. https://www.youtube.com/watch?v=sal78ACtGTc

参考文献可上下滑动查看

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.