朱松纯：什么时候才能出现人工智能的“中国时刻”？|算法|解译|大模型

分享至

图15纹理合成：多层神经网络的产生式模型图22爬树与捞月能否登月？

2.18

知识分子

The Intellectual

图源：Pixabay

编者按

·为什么AlphaGo、ChatGPT没有在中国诞生？

·为什么中国只能出现“百模大战”？

·什么时候才能出现人工智能的“中国时刻”？

这是朱松纯教授提出的关于人工智能的“中国之问”，在当前通用人工智能（AGI）发展进程中，西方主导的”大数据+大算力+大模型”的模式被认为是唯一正确的发展路径。直到最近中国本土的大模型deepseek的出现才打破了这一根深蒂固的思维定式。

北京通用人工智能研究院院长、北京⼤学智能学院院长、清华⼤学基础科学讲席教授朱松纯在莲花山研究院成立20周年学术思想研讨会和第四届智能计算创新会议上回顾了数据驱动的人工智能研究的起源；2009年之后的技术范式从数据驱动转变为因果与价值驱动的根本原因；更提出了我们要突破西方主导的叙事框架，发展中国特色的AGI道路的关键——基于中国思想、突破单纯的数据驱动转向更综合的范式、构建融合”心”与”理"的通用智能体系、注重人机共生的智能社会构建。

撰文 | 朱松纯

{ 目录 }

一、引言：直面人工智能的“中国之问”

二、探源：大数据驱动的人工智能热潮
三、局限：数据与统计方法驱动的局限
四、出路：探索数据背后的因果与价值
五、新标：全球首个AGI评级测试标准

六、思考：思想自主与叙事权争夺

引言：

直面人工智能的“中国之问”

2022年底以来，以Chat GPT为代表的大模型进入公众视野，并引发社会广泛的关注。通用人工智能已经超越了纯粹的学术研究层面，成为了国家间科技争夺的前沿焦点。要知道2020年我刚回国时，提出要建立我国第一个通用人工智能研究院，那时还有人觉得谈通用人工智能太遥远，仅仅4年后的现在，很多人又觉得通用人工智能可以马上实现。资本和流量挤进这个热门赛道，声称他们已经“超英赶美”，故意激化国内的“百模大战”……要么冒进，要么悲观，就像很多人对通用人工智能的摇摆一样。作为人工智能领域学者，我觉得自己有责任去做一个解释说明，帮助大家去伪存真，让人们能够看到真实的通用人工智能。

《国家创新驱动发展战略纲要》指出，我国到2050年要建成世界科技创新强国，成为世界主要科学中心和创新高地。中国人能否在人工智能领域建立自主的、原创的独立思想和流派，关系到能不能在人工智能的前沿科技中抢占制高点。

每每站在国家命运的十字路口，中国人总会听到来自历史的叩问。无论是“李约瑟难题”“钱学森之问”“杨振宁三问”，还是今天的人工智能“中国之问”，都考验着我们国家战略方向的确立和科学家的使命感。我想，要交出一份满意的答卷，就要走出一条属于我们自己的路，走底层逻辑自主可控的创新之路，走人工智能与人类价值观对齐的创新之路，走不随大流、坚信人工智能的“中国时代”必将到来的创新之路。

2025年春节前夕，中国本土公司的人工智能创业公司，用更低的成本，做出了不逊于国外顶尖大模型的deepseek，就是很好的证明。

这就有必要从源头捋清一条发展脉络，说明我们的先进性。许多成果明明由我们先开始，却被误以为是别人先做出来的。这就像在体育场里跑马拉松经常出现的“套圈”现象，我们已经领先了10圈，其他选手虽然看起来像是在我们前面，实际上却忽略了我们已经远远超越了他们。

所以，我今天讲的故事里，既有我从图像大数据研究这个源头出发，经历人工智能逐渐兴起的经历，也有发现数据驱动人工智能存在巨大局限性的思考；有突破边界，追求价值驱动通用人工智能道路的坚持，还有将“UV理论”应用在建立全球首个AGI评级测试标准的创新尝试。

探源：

大数据驱动的人工智能热潮

人工智能现在是全国乃至全世界都关注的热门领域，这种“热度”来自于大语言模型的流行，是在这几年的资本炒作中带来的。但实际上，在这股热潮之外，人工智能已经在科学家们的艰辛探索下，走过了几十年的发展路程。对技术发展溯源，其实也就是对人工智能进行探源，将有助于我们在热闹和喧嚣背后进行清醒思考，并真正理性地选择人工智能的未来之路。

探源是一个非常复杂的问题。以长江为例，儒家经典《禹贡》记载，长江的源头是四川岷江，这种观念持续千年，直到明末徐霞客才通过探源并在《江源考》中提出，金沙江是长江的源头。我国科考队在1976年，才论证了长江源是沱沱河和唐古拉山。历史证明，尽管明代没有地图和导航，尽管科考要冒着风险、付出超乎寻常的代价，人们却着迷于追求源头对人类带来非凡意义。

图1 对数据的溯源就像对长江探源的过程，探索源头能够让我们了解事物的历史、本源，帮助我们更好地理解现在、展望未来

所以，我今天的报告是想追溯大数据的起源，做一次“数据溯源”的科学考察。首先，此处说的大数据尤其指在计算机视觉领域的数据，也就是图像数据。为什么要从视觉说起呢？视觉是“五感”中接收信息量最丰富、系统最复杂、范围最广阔的觉知能力，人的大脑皮层的活动，大约70%是在处理视觉相关信息。我和团队也是从视觉大数据开始，在技术创新的路上艰难突进，才走到今天，所以视觉大数据是我们的起点，是我们的“初心”。

其次，我希望大家能够记得几个时间节点：20世纪70年代、1999年、2001年、2003年、2004年，我还希望大家能记住几个简单的词：PG0、PG+和PG++。这些关键时间发生的几件大事，值得铭记，这几个关键词代表了我与团队探索智能极限、不断迈向通用人工智能的过程。下面我为大家展开讲一讲。

实现通用人工智能是全人类的梦想。要完成这个目标，有三个可以称为哲学层面的问题需要回答：

到底多“通用”才算是通用人工智能？

通用人工智能需要完成多少项任务？

如何评估智能体的进步？

我从20世纪60年代到80年代期间说起。那时陆续出现了基于视觉的人工智能研究，但限于当时的条件，缺乏有效的数据支持。60年代早期研究中使用的线图是由采样人员手绘的。到了70年代，这些线图被用于帮助理解和判断物品。即使到了1994年，技术也没有本质上变革，对于视觉数据的收集依然不尽人意。

图21990s年代，2D形状的表达与物体识别解译（朱松纯1994）

当我开始筹备我的第一篇关于计算机视觉的论文时，那时候是在做关于2D形状的对称中轴（media axis）表达，我们从明信片、拍照或书籍中扫描照片，然后手工将其转化为二维照片来研究。研究团队想建立一个叶子数据库，需要我们去捡大量叶子进行扫描。那时我常在波士顿的路上边捡叶子，有一次捡得太专注，直到被近处一声呼喊吓了一跳，原来我不小心误入了别人的院子，被当作了小偷。

图31960-1980年代主要是线画的解释（Line drawing interpretation，Waltz 1960s）和块状物体的解译（傅京孙先生，block world parsing）

这个时期，研究主要是对线画的解释和块状物体的图像解译。傅京孙先生构建了这类研究方法。输入线画图像就会出现线画解译图（Parse Graph，简称PG）,在结果中不仅能展示物体本身，还能标注物体之间的关系，例如“连接关系”“遮挡关系”等。

那时候对图像的分析只能用线图表示，图像数据非常匮乏。为什么没有数据呢？我认为主要有两个原因：第一个原因是那时候的计算机资源有限。那时候的微机的速度只有640K，这是什么概念呢？现在手机拍一张照片也有好几兆。手机拍照只要一瞬间，如果用那时的微机处理今天的一张图片，可能就要花很长时间，更不要提处理大数据了。

图4 左图：微机的内存只有640K；右图：世界上第一只数字摄像头诞生于1975年

第二个原因是那个时候还没有数字照相机。1992年，我所在的哈佛实验室花费25万美元构建了一个图像采集系统。这样的“天价”设备，从带宽、内存等方面仍然无法满足基本要求。即便到了1995年，我所在的实验室给我配置了当时最先进的32兆内存工作站，处理图片依然是个难题。编程时经常要读盘，将中间数据载入并保存下来，系统崩溃、数据丢失仍是家常便饭。可以说，一直到90年代中期，人类的硬件条件和数据条件无法支撑大规模视觉数据研究，视觉研究只能做最简单的几何研究。直到在90年代的末期，感知器技术革命的到来，才带动了大数据和机器学习的蓬勃发展。

90年代末，出现了大量图像集，例如索尔比（Sowerby Image Database，简称SID）和科立尔（CorelDRAW）数据集。一些摄影师还会将自己的作品刻进光盘售卖，我把他们买回来尝试读取、研究，只是那时只有图片，还没有标注，算不上是数据集。

图5 90年代末，感知器革命带来了大数据处理能力的变化，出现了大量图像集。例如，那时出现的索尔比数据集（Sowerby Dataset）就是其中之一

图6世界上第一次被标注的数据集，正式发表于1999年的CVPR。它的作者是斯科特·小西博士

时间来到了1999年，它的重要性在于，这一年出现了世界上最早的标注数据集。这个标注数据集来自日裔科学家斯科特·小西（Scott Konishi）。他在1998年的研究工作中完成了最早的标注数据集，他的成果后来在论文《边缘检测的基本边界：不同边缘线索的信息论评估》（《Fundamental bounds on edge detection: An information theoretic evaluation of different edge cues》）中有体现，这篇文章是做边缘检测。当时还有一些任务数据集，比如手写体识别，从0到9标十个数字，我认为那是分类，不是标注。

说起来我和小西还有一段故事。那时他是加州大学伯克利分校的博士生，没人带他，就跟了艾伦·尤利（Alan Yullie）做研究。小西博士当时在旧金山一所研究机构里做着枯燥的数据标注工作，经费捉襟见肘。我当时在斯坦福大学当讲师，斯坦福系主任从保罗·艾伦（Paul Allen）那里要到了一笔六万美元的经费（Paul Allen是微软的联合创始人之一）。我正准备辞职，没用完的钱就资助了小西博士，也是第一次用统计的方法来做边缘检测数据集。

图7统计建模与随机计算首次进入CVPR。以此为起点，用统计方法来做边缘检测数据集成为一种新的趋势。后来，在我们举办的“首届统计建模与随机计算工作坊”中，来的也多是统计学出身的学者

后来该成果发表在“计算机视觉与模式识别”会议（Conference on Computer Vision and Pattern Recognition，简称CVPR）上，随后我们举办了首届统计建模与随机计算工作坊（First Int'l Workshop on Statistical and Computational Theories of Vision - Modeling, Learning, Computing, and Sampling），来者也多是学统计出身的学者。

图8 2001年大卫·马丁（David Martin）提出图片分割（Image Segmentation）数据集，科学家们又向着更高层级图像解析迈出了一步。左下图为屠卓文的论文，意为《数据驱动马尔可夫链蒙特卡罗图像分割》

2001年，人工智能的重要时刻又到来了。加州大学伯克利分校的大卫·马丁（David Martin）提出了图像分割（Image Segmentation）数据集。我带的第一个博士生屠卓文在这个数据集上用马尔可夫链蒙特卡洛MCMC方法取得了最佳成绩，远远超过了他们当初提出的算法。2003年，李飞飞提出了Caltech 101数据集，其实这个数据集没有标注，只是包含了包括“狗”“飞机”“汽车”等在内的101个分类。

图92003年Li Fei-Fei团队提出Caltech 101数据集，但该数据集没有标注，只是分类

到这里，源头阶段的脉络就很清晰了，此时的我们已经身处“PG时代”。回顾这几个对人工智能来说重要的时间节点，从20世纪70年代到1999年中间跨越了几十年，从1999年到2001年、2003年仅仅只有几年时间，我作为身在这个领域的学者，能够深刻感觉到人工智能发展的“加速度”，成果诞生的时间周期越来越短，“奇点临近”的感受愈发明显，激动人心的未来似乎在向我们招手。

局限：

数据与统计方法驱动的局限

尽管早在20多年前就感受到了人工智能的“奇点临近”，但我必须强调的是，几十年的探索让我们清醒地认识到，数据与统计方法驱动的人工智能发展道路存在自身的局限性，当时对人工智能的认知与开发还远远不足，到今天证明了，我的想法是对的。为了说清楚这个问题，让我继续从本世纪初的科研实践讲起。

2003年，我们开始超越线画，做真正的图像解译（Image Parsing），这个工作在2003年国际计算机视觉大会上获得了计算机视觉研究的马尔奖。获奖并没有让团队停下思考的脚步，因为从上个世纪90年代最早将统计建模与学习方法引入计算机视觉，我们团队发现统计在对图像理解方面有着越来越重要的作用，所以我决定在湖北鄂州创立莲花山研究院，开启大规模、颗粒度极高的数据标注工作。

2004年，莲花山研究院在湖北鄂州成立，是世界首个大型图像/视频解译数据库，也是中国首家民办非营利性机构，具有划时代的意义。这不仅对我个人的科研生涯至关重要，在人工智能发展史上具有标杆意义的存在，制定了图像视频标注的标准图像解译的测试集，为我国人工智能人才的启蒙、乃至全球此轮由数据驱动的人工智能浪潮，起到了开创性的推动作用。

这个阶段的图像解译不同于以前的单点分割和图像分类，它需要解译整个图像的结构。举个例子，如果给莲花标记，我们不仅给莲花分类，还要标注花瓣、花蕊等所有结构。此外，图像解译还关注物体之间的关系，例如标记一辆被柱子挡住的车时，我们会标记遮挡关系，还会生成图像标签图、子图和三维标记。这是一个非常复杂的过程，所以我们还制定了标注标准，并产生了手册、定义了怎么解析图像的细节。团队后来承接了来自世界各地科研机构数据标注的业务，签订了不少合同。

图10莲花山图像解译操作手册，图像的分割、识别与解译。对PG0阶段，即对图像本身的开发程度已经到了完整的程度

到这个阶段，也就是我们现在可以称之为“PG0时代”的时期，人工智能技术对图像本身的解译可以说是非常成熟了。大家可以看图中的这个小三角形，其中的红色节点（nodes）都已经被填满了，这表示，此时技术能够达到对图片本身的解译没有“死角”的程度，通过“分割”（segmentation）“对象检测”（object detection）和“三维构建”（3D construction）等技术，已经能够对图片画面有充分理解。

图11 对图像的三维解译。这个时期，技术对画面上包括物体、场景等要素的“理解”已经很充分

值得一提的是，莲花山研究院还是人工智能生成内容（AIGC）应用的诞生地之一。我们开发了一种将结婚照转化为油画的技术。我们想，每年有数百万对新人结婚，可以将油画作为独特的纪念品或礼品。这也是我们最早的产业创新之一。

图12图片意为“从图像解析到绘画渲染”。将结婚照转化为油画作为新婚夫妇的结婚纪念，成为我们最早的产业化尝试之一

将结婚照转化为油画的技术依赖于我们在30年前提出的、用于纹理合成的模型，这可以算是世界上最早的生成式模型。目前流行的大模型GPT是pre-trained model（预训练模型），在30年前我们将其称之为prior learning（先前学习）。现在广受关注的生成式对抗网络（GAN），最早也是由我的学生屠卓文开发，后来被国外一些研究团队声势浩大地推广，并更名为“GAN”。

图13世界最早的生成式模型：（Generative Model）纹理合成

图14 论文题目意为《先前学习与吉布斯反应扩散》。先验模型（Prior Model）最近被改称为“生成式预训练”（Generative Pre-trained）。最早叫做先前学习（prior learning）和生成图片的“郎之万动力学”（Langevin dynamics for generating images）

莲花山研究院作为中国第一个“科民非”，可以理解为现在的新型研发机构。莲花山研究院的建立开创了国际交流的盛况，当时很多青年学者后来陆陆续续都成了人工智能领域的中流砥柱。

图16第一届莲花山研究院研讨会合影。很多青年学者后来陆陆续续都成了人工智能领域的中流砥柱

到了2005年，欧洲出现了一个叫“帕斯卡（PASCAL）”的数据集（全称Pattern Analysis, Statistical Modelling and Computational Learning，意为“模式分析、统计建模和计算学习”缩写），它专注于图像分类和分割，是一个非常有名的数据集。这里有个插曲是在2005年，我们开始对外接订单，为美国一些公司标注数据，我们标注得非常准确，价格也比较便宜。当时这个数据集的人找到我们，希望我们标注他们的数据。按照我们的标法，每张图片标注一千多个点，报价是每张照片一欧元。因为对方有数万张照片，所以觉得价格太贵，最后没谈成，他们不再做图像解译，只做分割和分类。

大约也是这个节点，科研风气发生了变化。在后来做单纯的分割和分类这波人中，一部分是传统20世纪70-90年代研究几何的，因为1999年统计建模出现后，这些人陷入了危机，点云（Point Cloud）等技术难以继续，所以他们转向做大数据集分割和分类，组织竞赛和刷榜。2004年之后，“刷榜”文化开始盛行，所谓刷榜，就是一般下载了人家的代码，改进、调整、搭建更快的模块，用一个数据集在不同场景下进行测试、评估和排名，不断地在排行榜上拿名次。但是，这个代码不是自主创新的，实际上对技术进步无益。

记得我们2006年在加州大学伯克利分校召开了一次会议，很多数学家在场，这波专门做大数据的人站起来说：“你不用管有的没的，只需在我的数据集上测试就可以了。”我的导师，获得过菲尔兹奖的知名数学家大卫·曼福德(David Mumford)当时在场，感到了很强的冒犯。这其实背后反映的是深层次的、用经验主义还是理性主义来解决问题的争论。

经验主义和理性主义有什么不同呢？经验主义完全依赖于数据驱动，但数据之外总有例外，世界的复杂性可能远超数据所能涵盖的信息。数据可以帮助我们窥见事物的一部分，但却无法呈现完整的图景。而理性主义则强调科学的美感，比如爱因斯坦所倡导的第一性原理，即通过对复杂世界的简化，找到事物本质，形成普遍适用的理论框架，也就是“大一统理论”。

图17经验主义的审稿人和理性主义的审稿人产生了对立，凸显了当时解决问题的研究路径出现分歧

说到这里，我讲一个非常典型的故事。2010年，我在一次发言中讨论了理性主义和经验主义的争论。我们当时投论文的时候大概有两类审稿人：经验主义审稿人和理性主义审稿人。经验主义的审稿人通常会要求你在不同数据集上运行你的方法，这些审稿人迷信模型，对理论本身是不感兴趣的、质疑的。就像“如果你真聪明，怎么会不富有呢？”他们会说“如果你的研究方法真的好，那么为什么比不上现在的模型呢？”这种简单粗暴的标准将评判科学成果“是否带来创新、进步”变成了成果“是否符合模型”。其实，就像聪明和富有并无直接关联，能不能在数据集上运行成功，跟成果的创新性也没有必然关系。

对于那些偏好运行数据集的文章，理性主义的审稿人则会说：“你的算法只是在你选定的有限数据集上有效，但对解决真实问题没有帮助。”坚持理性主义的研究者会从理论上证明某个问题不可解，以此作为拒掉文章的标准。因此，经验主义和理性主义的分歧，导致了一个现象，就是当时论文能否被接受，很大程度上取决于论文被送到哪派审稿人手里。现在，经验主义审稿人占据了主导地位，坚持理性主义的研究者就逐渐退出了计算机视觉领域。

我更倾向于理性主义，同时结合一定的经验数据。用通俗简单的话来比较，经验主义就是立足于前人经验，在现有的地基上“垒砖”，我坚持的理性主义更偏向于“轻装上阵”，从一开始就抱定对世界本源、本真、本质的极致探索。明明是在前人经验上“垒砖”更容易，就像做大模型，更容易出成果，为什么我还是这么执着于理性主义、坚持价值驱动的研究道路呢？因为，我认为我们国家已经到了鼓励颠覆式创新的阶段。什么是颠覆式创新？就是你这个技术一出来，之前的很多技术都直接归零了。想要在人工智能这种绝对的前沿领域达到这种结果，你追求的不能是在别人的范式之下做科研，渐进地从1到3，从3到n。我们现在希望实现做“从0到1”的成果，只有这样的技术突破多涌现在这个国家，中国才能成为真正意义上的世界科技强国。

出路：

探索数据背后的因果与价值

接下来我解释PG+和PG++这两个关键概念，这也是我们取得跨越式发展、找到出路的重要原因。

到了2008年，科学家在PG0阶段对图像的探索和创造到了一个“百花齐放”的时代。我曾经的同事、来自麻省理工大学（MIT）的安东尼·托拉尔巴（Antonio Torralba）曾经创建了一个网站叫做LabelMe，意为“给我打标签”，这个网站让人们在上面打标签，他们只在乎两种标签：场景类数据（Scene category）和物体类数据（Object category）。每一个节点其实就是一个任务，这在当时是颇具影响力的一项研究。

图18 来自麻省理工大学（MIT）的安东尼·托拉尔巴（Antonio Torralba）曾经创建LabelMe，意为“给我打标签”，用来收集场景和物品数据

另一个例子是“图网”（ImageNet）。他们在图片本身的解译工作中更加看重对物体的分类，大约分了1000个类别。这项尝试后来也变得很流行。

图19对图片解译的探索已经到了一个瓶颈期，研究只能在PG0框架内“打转”

但是我想强调的是，这些努力都是在一个PG0的框架内做尝试，科学家们此时并没有跳出对图片里内容的解译，顶多是从不同角度在“场景”“物体”“物体关系”上着力，这个阶段对“智能”的认知在今天看来确实比较狭隘，如何走向通用人工智能，需要从更深刻的角度去思考。

当技术来到一个瓶颈期，科学界就会存在大量的争论和分歧。这就好比科学家们的面前有一扇门，大家都想要跨过这扇“通用人工智能”之门，需要正确的钥匙。我认为，想要找到通往“通用人工智能”的大门钥匙，需要先知道困住当下的究竟是什么，需要认识到当时图片解译这一套逻辑的局限性。

第一个局限性是大量物理和社会变量该如何标注的问题。物理学家认为，我们可观察的物质和能量只占宇宙总体的5%，剩下的95%是观察不到的暗物质（Dark Matter）和能量。这些变量包括在社会现象中，人的意图和想法等。且不同于统计学中的潜在变量（latent variables），潜在变量是客观的隐藏变量，而“暗物质”常常是主观的、唯心的、内化在社会环境中的。人类能够感知到这些变量，但机器无法识别，更无法直接标注这些内容。

图20用传统打标签方式无法满足多样的标注需求。当标注了“电话”一词，系统就会自动认定图片中的物体就是电话，但现实生活中，电话不仅仅是个物体，图片中的人会展示拿起电话、拨号、接听等任务，此时系统可能没法精准识别电话

第二个局限性是图像和场景的解译与具体任务高度相关，光靠标注这种“一刀切”的方法，是没法应对复杂多样的现实场景的。任务是无限的，并且与智能体的具身性有关，因此标注变得非常困难。正如马尔所说，“the more you look, the more you see”，也就是说，感知到的内容取决于观察者想做什么，也就是观察者的价值，中国古话更简明扼要，即“相由心生”。例如，标记一个电话，简单地用一个框将电话框柱、打个标签，系统就记录和认定该物体是“电话”——这是传统大数据驱动范式的做法，但在真实场景中，具体的标注方式取决于任务，比如拨号或接电话时，人需要接触电话的不同位置，接触的位置不同，标注方式也理应不同。传统方法无法满足这种多样的标注需求。

第三个局限性是我们不仅希望进行简单的标注，更希望实现图像的理解。理解(Understanding)这一过程非常复杂，不同学者对此有不同的讨论。一些学者认为需要定义语义，而语义依赖于任务、因果关系和价值系统等。

图21计算机视觉的三种表达方式

计算机视觉中有三种和“理解”相关的表达方式：

第一种是以视图为中心的（view-centered），基于二维图像的外观；

第二种是以物体为中心的（object-centered），即基于几何进入三维场景；

第三种是基于任务的（task-centered），即从智能体的角度来理解世界。

当时大多数研究以视图为中心，依赖数据驱动。我们希望能够转向任务驱动，以智能体为中心。

认识到现有方法的局限性还不够，还需要提出解决方案。当时就“如何实现通用人工智能”这一问题，领域内不同学者各执一词，一定程度上也反映了经验主义和理性主义之间的矛盾。2010年，在美国自然科学基金委的推动下，就这一问题召开了一场学术会议，我应邀发言。发言之前，我让我的大女儿画了一幅画。

如果说，实现通用人工智能就相当于登月，是一个非常困难的任务。有人会说“只要我爬得足够高，我就能够到月亮”，所以这些人去爬世界上最高的树，去登世界上最高的山，试图够到月亮。资助者看到这些人每天都能在树上、山上快速上升，就会很高兴。但是因为无论树还是山，都是有尽头的，这个尽头离月亮还是十万八千里的。当然也有人会去选择水中捞月、乘坐热气球，但是真正实现人工智能，去达到“登月”的高度，肯定是要造航天飞机的。只不过在现实生活中，制造航天飞机去登月，经常被短视的人们误以为是“不靠谱”的，很难获取信任，还要坐很多年“冷板凳”。

实际上，通用人工智能“航天飞船”的构建，不是单一部件、单一路径去实现的。人工智能技术经过几十年发展与分化，形成了计算机视觉、自然语言处理、认知推理、机器学习、机器人学与多智能体六大核心领域为主构成的复杂系统。其内部结构之复杂，其研发道路之艰难，不是“大数据”+“大模型”+“大算力”这种纯经验主义路线能够解决的。如果把实现通用人工智能比作“登月”，目前大数据路线正在前进的方向相当于“攀登珠峰”，虽然有机会登上珠峰也是很了不起的成就，但是这和达成登月的目标相差甚远。

图23“小数据、大任务”范式获得了学术界的广泛认同

后来，我提出了“小数据、大任务”范式，获得了学术界的广泛认同。我认为，人工智能研究中存在两种范式，一种是“大数据，小任务”，目前基于深度学习的很多大语言模型即属于此类，其特点是需要极大的数据，但只能完成有限任务，不能对应现实的因果逻辑，无法泛化，类似善于学舌但无法进行认知推理的鹦鹉，你教一只鹦鹉大量内容，它才能说有限的几句话；另一种是“小数据，大任务”，其特点是小数据、无监督，可以泛化，类似能在复杂情境中进行认知推理的乌鸦，仅仅靠示范几次，就能完成一整套任务。

因为此范式的提出，我们还获得了一些项目。我们的第一个DARPA（美国国防部高级研究计划局，简称DARPA）项目（2010-2015年）专注于图像解译。通过层层解译图像，我们成功生成了文本，用自然语言描述图像。这一项目成为后来视觉问答（VQA）模型的原型。

图24美国-英国联合AI研究团队 MURI 2010-2015，MURI 2015-2020 （美国国防部部长办公室资助），跨多个人工智能学科：计算机视觉、机器人、机器学习、认知科学、神经科学、统计学、应用数学。团队来自：Berkeley, CMU, MIT, Stanford, Oxford, UCLA, UIUC, Yale 等大学

第二个DARPA项目（2015-2020年）则聚焦于场景理解，涵盖语义解译，并进一步探讨了对物理和心智的理解。我们的主要目标就是通过一系列跨学科交叉研究，将计算机视觉、机器人、机器学习、应用数学、神经科学、统计与应用等各个领域专家聚到一起，探索出一条通用人工智能的统一理论。

我们很快发现PG0阶段的技术已经不够“智能”了。因为我们意识到，在现实中，当人看向一张图片的时候，可能想到的并不是只有眼睛看到的，其中包含了很多“想象”成分。上面这张图片中有人在做“倒水”这个动作，虽然看图的人并没有看见水，但是他能因此想象得到，水壶里是有水的，图片中的人想要喝水，这些信息量都没有在图片中直接体现来，而是隐含在图片背后，并且能够广泛被人们理解。

图25在IEEE上发表的论文《从图像解析到文本生成（From Image parsing to text generation）》,Proceedings of IEEE, （Yao et al,2010）

图26 看图的人即便没有看到水，但是因为看到了倒水的动作，
所以人会判断“水壶有水”“图片中的人要喝水”这些信息

这对图片解译的意义非常重大。从此开启了PG+时代。

在“PG+”的解释框架中，很多图片中不能肉眼可见的“暗物质”（dark matter）蕴含其中。例如物体的功能（functionality）、物质的机理（physics）、意图（intent）、因果关系（causality）和价值观（values）。你看不到人的价值观，看不到物理世界的因果关系，而这些都是深植在世界的运行中，是人类社会的“约定俗成”。

图27 在原有的PG0基础上，图像解译的维度和空间被拓展，图像解译新时代到来

图28 在“砸核桃”这张图片中，有对空间、时间和因果的感知

在我们看来，图片虽然是一个平面，但是蕴含了超越图片本身的信息量。以这个“砸核桃”图为例，看图的人不难想象到，在这个瞬间发生之前，核桃要被拿起、放下、对准、砸碎，这是一种对时间的感知；榔头的抬起、落下，这是对空间的感知；因为“砸”这个动作的发生，导致核桃碎了，这其中有对因果的感知。

图29社会智能包含能够对现象或行为进行推理的能力

到了PG+阶段，我们觉得还不够，最终延展到了社会智能（social intelligence），它被我们称为PG++，其范围远超出了PG0和PG+。人是社会性的动物，人会与他人、与外界环境产生交互，认知也会由此发生变化，在这个过程中，人会产生对某些行为或现象的推理。

想象一下，当你在教室里演讲，这时候有人举起了倒计时牌子，提醒你时间快要到了，但你没有看见，这时有位看见倒计时的观众冲你挥挥手并将手势指向了倒计时牌。你可能会下意识地去看他手势指向的方向，从而看到了倒计时牌。这样一个过程至少包含了你脑内以下推理过程：“他对我挥手”“他指向了一个方向”“他在提醒我什么”“那是倒计时牌”“我演讲剩下的时间不多了”“我要加快速度了”。所以，这个过程分解来看，是个很复杂的过程。

社会智能一般包括信念（belief）、意图（intention）和社会性推理（social reasoning）等。可以说，人类作为智能体在“看”这样一个看似简单的过程中，其实在内部做了很多自上而下的决策，从高层次的认知出发，看图或者分析场景时做了很多从社会智能到暗物质，再到场景和物体本身的思考。关于PG++的研究是很匮乏的，也是我们进行进一步探索的动力。

图30PG++是比PG0、PG+更高一层的阶段

我们认为，在这个包含PG0、PG+、PG++的系统中去构建智能，才是把智能的“版图”拼完整了，即除了考虑视觉本身，还要考虑隐藏在背后的、人的内在要素和社会的内在机制，才能真正迈向通用人工智能，才能在时间、空间、因果上构成一个完整的智能体任务体系。

图31 通用智能体的构建必须考虑暗物质和社会智能的存在，要在时间、空间和因果上构成一个完整的体系

沿着这条通路，我和研究团队不断拓展着对视觉大数据、对人工智能、对通用人工智能的边界，完成了对个体意义上通用人工智能体的底层逻辑搭建。然而，这就像爬一棵树，世界上有那么多树，那怎么办呢？在这个从PG0到PG+、再到PG++的框架下，搭建一个可以被广泛使用的平台，自然成为了我和团队的下一个任务。

新标：

全球首个AGI评级测试标准

2024年，我们研发了首个通用智能体"通通"，这一成果入选"中关村论坛重大科技成果"。通通突破了传统人工智能系统仅关注具体任务的局限，展现出更接近人类的认知特征。她具备基本的物理常识和社会认知，能在价值驱动下完成无限任务，并具有自主定义任务的能力。这种能力是通用智能的核心特征，也是人类从儿童时期就开始发展的基本能力。

图32全球首个通用智能人“通通”入选中关村论坛重大科技成果

以通通为基准，我们进一步开发了全球首个通用人工智能测试评级标准与平台——通智测试（Tong Test）。该平台借鉴人类婴幼儿发育评估标准，构建了基于能力（U系统）和价值（V系统）的评测框架，同时开发了复杂的物理场景模拟和社会交互测试环境。

图33研究团队在2016-2019年之间，将丰富数据导入VR环境，用来搭建虚拟场景

图34运用语言评估系统和以任务为导向的模拟器，构建对智能体的测试

平台建设经历了系统性的发展过程。2016年至2019年间，研究团队致力于构建高度逼真的虚拟场景。我们将丰富的环境数据导入VR系统，通过深度学习和任务规划实现智能体与虚拟环境的有效互动。同时，建立了完整的语言评估系统和任务导向型模拟器，形成了智能体测试的基础框架。目前，该系统能够模拟多样化的现实场景，包括办公楼、社区、学校等复杂环境，为智能体提供全面的测试条件。

图35在2024年中关村通用人工智能论坛上发布的通智测试（TongTest）

通智测试的核心是其评价体系，即"V系统"和"U系统"。这一评价体系的设计深深植根于对人类智能发展的研究。实验表明，人类的价值体系是与生俱来的，在婴幼儿身上就能观察到其雏形。例如，3-4个月大的婴儿已经具备基本的因果推理能力，能够识别魔术，即不满足因果常识的物理现象；18个月大的婴儿能够识别他人意图并做出回应。此外，研究还发现，人类能进化出大量的价值判断。比如图中这个实验，12个月的婴儿看到了两个成人在分配玩具，会倾向于选择分配“公平”的成人一起玩。8-12个月大的婴幼儿对于相似族裔的偏好要胜过对“公平”这一价值的偏好。也就是这个阶段的婴幼儿会在“公平的人”和与自己族裔相同的成人之间选择相同族裔者。这些研究发现为构建人工智能的价值评估体系提供了重要依据。

图3612个月的婴儿参与测试，倾向于选择更加具有“公平”特征的成人

图378-12 月大的婴幼儿参与测试，相对具有“公平”特征的成人，更愿意选择相同族裔成人

图38人的需求既包括生理和安全这类基础需求，也包含着的人类价值和社会因素，构建智能体价值体系时，需要以人类价值为基准，构建分层分级的价值体系

在价值体系（V系统）的构建中，我们采用了分层分级的架构，借鉴了马斯洛需求层次理论和施瓦茨价值观理论等经典心理学理论。价值系统分为五个层级：基础自我价值、高级自我价值、多智能体交互价值、基础社会价值和高级社会价值，涵盖了从基本生存需求到高阶社会价值的完整谱系。

图39价值驱动：除了关于自身的价值驱动，人还具有与他人相互作用产生的价值，以及在社会中作为利益共同体的价值

图40通智测试的能力测评系统，按照从L1到L5的顺序，对能力要求的难度逐渐增加

能力评估系统（U系统）则构建了视觉、语言、认知、运动和学习五个维度的评估框架。每个维度设置了五个能力层级，随着层级提升，任务复杂度逐渐增加，对智能体的要求也随之提高。例如，在语言能力评估中，从最基础的词语理解发展到复杂的多主体交互推理；在运动能力评估中，则从基本的自主运动发展到高级的社会互动能力。

举个例子，评估智能体语言能力时，第一层级就是理解词语，第五层级就得实现推理和理解多人、多智能体交互；评估运动能力时，第一层级需要智能体控制自身运动，到了第五层级就包括社会交互与价值流动。这只是一个简单说明，实际基于通智测试出版的书籍《通用人工智能：标准、评级、测试与架构》超过200页，其中设置了86项能力测试，并进一步衍生出更大量的任务测试，累计任务指标多达上百项。

图41《通用人工智能：标准、评级、测试与架构》形成了标准化、定量化和客观化的完备评估体系

图42能力系统与价值系统相互作用，价值驱动能力系统产生行为，能力产生的行为与外界相互作用，又能够构建价值系统

在这个评估体系中，价值系统和能力系统紧密关联、相互促进。智能体基于内在价值驱动外在能力，通过与环境的互动反过来强化和完善其价值体系。这种动态平衡与人类认知发展过程高度类似：价值导向推动行为表现，行为体验反馈强化价值认知。

图43 通智测试UV评价系统，两个系统又各自分5个评价等级，构建了完整的“双轮驱动”评价体系

至此，通智测试完成了它“价值”与“能力”的“双驱动评价体系”。这个体系将能力空间和价值空间进行联合考虑，设置了5个通智测试等级（Level 1-5），进而形成了一套基于能力与价值双系统的通智测试评级理论。它建立的任务强调实用性、可测量性及与人类智能发展一致性，成为挑战传统理论的范式，弥补了传统理论缺陷的典范。智能体能够在通智测试中通过完成任务进行测评，能完成的难度越高，最终就能够实现U（能力）和V（价值）越高的融合程度，就越接近真正的通用智能体。

不仅如此，我们还提出一套标准来阐释我们的UV评级框架，即“四论标准”，在人类社会中，我们常会因评价标准单一而陷入困惑：是看“他做了什么”，还是看“他为何这么做”？这种“论迹不论心”的争论，不仅存在于对人的评价中，也同样适用于人工智能的评估。一个 AI 系统即便表现优异，但如果其动机不明、推理不合理，能否信任就会成为问题。为解决这些困扰，TongTest 提出了“四论”标准阐释 UV 评级框架，从“论绩、论迹、论理、论心”四个层次出发：

第一个层次是"论绩"，也就是考察最基本的结果。这就像考试打分一样，首先要看答案对不对。

第二个层次是"论迹"，关注行为过程。比如，一个AI系统即使给出了正确答案，如果是靠随机猜测得出的，那么这个过程就值得打问号。这就像老师不仅要看学生的考试成绩，还要观察他们平时的学习态度和解题思路。

第三个层次是"论理"，检验推理过程是否合理。举个例子：解数学题时，即使最后答案对了，如果计算步骤错误，就说明这个解题过程不可靠。现在很多AI模型就存在这样的问题 - 虽然能得出正确答案，但中间的推理步骤却常常出错。

第四个层次是"论心"，审视AI系统的价值观和动机。这是Tong Test最高层次的评估。因为即使一个AI系统能得出正确结果，推理过程也很严谨，但如果它的价值取向有问题，可能会带来严重后果。

TongTest 的“四论”标准通过“论绩”夯实基础，“论迹”剖析行为，“论理”保障推理可信，“论心”聚焦价值观正确，层层递进、环环相扣。这一标准不仅是技术突破，更是伦理实践的积极探索。它就像为 AI 量身打造的“体检报告”，不仅关注身体健康（结果与行为），还深入检查大脑（推理能力）和心灵（价值观）。只有在“四论”都达标的情况下，AI 系统才能真正令人信任，并在未来社会中实现长期可持续发展。

从生物进化的角度看，智能体的发展遵循一定规律：大脑容量的增加往往带来智能水平的提升。这背后是基因选择、物种演化等复杂过程的结果。一个智能体的智能水平由三个系统决定：认知架构（Cognitive architecture, 字母C表示）、能力系统（Potential Functions, 字母U表示）和价值系统（Value System, 字母V表示）。尽管人类在某些具体能力上可能不及其他物种，但正是这三个系统的综合优势使人类成为最高级的智能体。基于此，通智测试致力于构建一个能够涵盖并超越现有智能体能力上限的评估系统。

图44从数学的角度，可以将所有智能体看作CUV作为变量的函数。C代表认知架构，U代表能力系统，V代表价值系统。人比黑猩猩、猴子这样的动物要高级，尽管人类的运动能力可能不如黑猩猩和猴子，但是从整体上来说人的CUV比黑猩猩、猴子的CUV整体上要高，所以综合来看人的智能程度是要高于这些动物的。要达到能测试智能体这个目标，就要站在最外圈这个“点”上，即认知架构、能力系统、价值系统都超越现有智能体上限的这个位置去建构，去寻找智能体的“公倍数”

通智测试的创新性主要体现在三个方面：

首先，它采用无限任务框架。无限任务指的是在通智测试中，任务的数量是无限的。我认为，一个智能体需要完成无穷无尽的任务才能称之为“通用”，真正的标准应该是在复杂环境中处理无限多项没有预先设定的任务。在以往传统大模型的设计中，智能体任务是由专一任务转向多任务处理的，任务的数量是“叠加”起来的，这种叠加的方式带来一个问题：要叠加到多少任务，才算真正的“通用人工智能”呢?如果100项任务算是“通用人工智能”，那么出现第101项任务怎么办？所以任务的数量不能是绝对数，而是要满足任务“无限”涌现才可以，只有像通智测试一样，任务是无限的，才能够实现真正优秀的泛化能力。

其次，它重视自主任务生成能力。人们憧憬着有朝一日智能体能够很好地融入人类日常生活，这就需要智能体可以根据外部环境事件和自我内在状态的变化，随时随地自动产生各种各样的任务，这也意味着在投入实际场景前，智能体能够应对和现实生活一样的随机要求。但是，如果智能体的运行完全依赖人类预设的任务目标，即便拥有海量训练数据和全面规则，仍然无法很好地应对未经训练的特殊情况和意外事件。例如，当孩子正拿着一个对他来说颇具危险性的小物件，没有经受过该物件数据训练的智能体能否自主识别出该任务的不合理之处并形成保护孩子安全的新任务？

为了应对这种情况，智能体需要具备自主定义任务的能力。当智能体处于开放环境时，它需要依据自身价值判断并自主设定任务，甚至可以进一步通过实际观察和体验来学习，逐步累积经验并塑造认知。这是通智测试的第二个特点。

最后，它强调价值驱动和人类对齐。通智测试的价值体系（V系统）是它的核心组成部分。为了让智能体自主生成并完成符合人类需求的任务，通智测试融入了人类的基本价值观，使智能体有能力学习和理解人类的价值偏好，并最终实现与人类价值的对齐。这意味着通智测试不但从功能上完成对智能体的测试和评级，同时还能保证被测试的智能体有足够的、能通过人类社会安全“红线”的能力。

图45 通智测试与其他测试对比优势明显

这些创新点对通用人工智能领域意义非凡，也让通智测试具有明显比较优势。

其他智能体测试往往有以下缺点：

第一，任务复杂度不足，主要基于在特殊设计的环境中的对话/图像/操作，而没有在人类世界中复制物理和社会互动。第二，主观偏见与缺乏量化。不同的人有不同的主观判断标准，缺乏对不同智能体之间的量化评估。第三，缺乏价值测试，只有能力测试。第四，缺乏对自主任务生成的测试，只有人类指定的任务。

现在我们再来讨论讨论AGI的现状，近些年，随着人工智能的迅猛发展，尤其是自ChatGPT4发布以来，社会各界人士对人工智能的未来形态或者说通用人工智能愈发关注，行业内的高校与企业也频频聚焦通用人工智能，然而 AGI的定义、评级与测试依旧没有达成共识并严格提出。制订一个严格的 AGI 定义和定量评级标准与测试平台是一个世界性的科学难题，我们列出了近年来国内外知名团队所提出的AGI内容并进行比较。

表国际知名平台在通用人工智能定义、分级与测试的比较

现阶段，围绕AGI定义、分级与测试的内容有以下三种情况：

①传播广但浅尝辄止，如OpenAI提出的AGI五阶段，然而我去搜索时发现OpenAI官方并未发布相关报告，所有消息来自2024年7月彭博社(Bloomberg)报道了OpenAI的内部传闻，只给出了五行话以粗糙概括AGI的五个阶段；

②严谨深入但仍无法给出答案，如Google DeepMind在2024年发布了一篇paper，它比OpenAI更全面地对AGI定义、分层与测试进行了阐述，深刻分析了其中的困难性，原文认为remains an open research question。举一个例子，Google DeepMind对AGI分级时对第二级的定义是“熟练成年人的第50百分位”，这是不能直接拿来用的，光是这项层级指标就涉及两类模糊问题：如何定义并建模熟练成年人？机器与熟练成年人如何比较（即它提出的50百分位）？

③给出了可行的方案但只解决单点问题，如之前走红的ARC-AGI任务，建设性地提出简洁的任务，评估复杂的抽象与推理能力，引发了人们对通用人工智能的思考。然而，它的着眼点相对单一，这一测试还不足以全面覆盖通用人工智能测试的所有维度。

对比后我们发现，尽管国内外多个平台已从不同视角对通用人工智能的定义、分级和测试进行了探索，但并未解决“给出严格的AGI定义和定量评级标准与测试平台”这一世界性的科学难题。

通智测试则采取了一种全新的策略，为通用智能体的实现设计了一套顶层测试方案。通智测试的设计全面考虑了通用人工智能的关键特征，填补了通用人工智能评测的空白。这不但有助于指导研究者为通用人工智能构建综合的设计架构与完善的评估体系，而且能够为人工智能的安全治理问题提供积极的解决方案。

图46 图灵测试无法准确衡量人工智能的智能程度，通智测试弥补了图灵测试方法的局限性

从实用性来说，在通智测试标准化、定量化和客观化的评估体系下，政府可针对不同水平的智能体制定不同的监管准入机制，对于规范化通用人工智能的发展具有重要参考意义。另外，通智测试的评级机制还可以为通用人工智能的科研路径提供明晰可靠的路线图，协助相关领域的研究者找准科研道路上的前进方向。

构建通智测试平台，形成全球首个AGI评级测试标准体系，就是对我开头提到的那几个问题的“答卷”：

到底多“通用”才算是通用人工智能？

我的回答是“能力与价值都与人类对齐”。

通用人工智能需要完成多少项任务？

我的回答是“无限任务”。

如何评估智能体的进步？

我的回答是“能力与价值双驱动，分级评估”。

以什么标准评估智能体的能力与价值水平？

我的回答是“基于四论标准：论绩、论迹、论理、论心”。

到2024年，莲花山研究院已经成立20年了。我们从图像大数据出发，现在火热的大数据、大模型这条路我们也走过，但我们最终还是坚定地选择和践行了“小数据、大任务”的研究范式。我坚信这一份在科学创新中的理智和冷静：坚持不“随大流”，坚持长期主义，坚持人工智能与人类价值对齐的本质，做困难且正确的事。

我们在实现通用人工智能路上一直在不断探索，不断重构，不断创造，不断再出发。赓续“莲花山”精神，建立基于价值的通用人工智能体系，独立自主地实现中国通用人工智能，将是包括我在内的中国科学家的责任和不懈追求。

思考：

思想自主与叙事权争夺

在当前通用人工智能（AGI）发展进程中，"大数据+大算力+大模型"的发展路径已成为一种根深蒂固的思维定式。这种认知框架的形成源于深度学习在多个领域的成功实践，同时也受到大型科技公司持续投入和商业成功案例的强化。随着GPT系列、DALL-E等大模型的出现，这种发展路径似乎获得了更多支持。然而，这种思维定式可能过度简化了AGI发展的复杂性。

西方主导的叙事与战略布局

在这种思维定式下，一种特定的叙事体系逐渐形成。芯片算力被视为决定性要素，数据规模被认为是核心竞争力，模型参数量成为衡量技术进步的关键指标。资本市场将算力基础设施投入作为重要的估值参考，媒体持续关注算力规模和硬件升级，企业则竞相发布更大规模的语言模型。这种叙事不断强化着既有的发展路径。

这种叙事背后是西方主导的战略布局。美国通过政府与企业的协同行动，构建了一个系统性的叙事框架。在政策层面，2023年4月设立"白宫人工智能特别顾问"统筹国家AI战略，9月国防部启动"AI曼哈顿计划"整合科研资源。在产业层面，OpenAI、Google等科技巨头不断强调其在算力芯片与AGI研发的优势地位，将技术门槛塑造为"难以逾越的鸿沟"。这种叙事得到资本市场的积极响应，进一步巩固了美国在全球AI领域的主导地位。

在学术领域，西方的话语主导权同样显著。NIPS、ICML等高水平学术会议的投稿和评审长期由欧美学者主导。2024年诺贝尔物理学奖授予神经网络领域的开创性研究，不仅是对Hopfield和Hinton个人成就的肯定，也强化了西方在AI基础研究方面的学术影响力。这种学术话语权的集中，某种程度上限制了全球AI研究的多样性发展。这种西方主导的叙事通过主流媒体和社交平台得到广泛传播，国内媒体的跟风报道更强化了这种影响。

思想自主是科技创新的前提

面对这种情况，中国需要建立独特的发展路径。中国思想体系是在五千年文明发展中积淀而成的智慧结晶，其特点是"心"与"理"的统一，强调推己及人的价值判断。这种思维方式为AGI发展提供了独特视角：不仅关注技术本身，更重视其与人文价值的融合。从上古时期的河图洛书，到儒、道、法等各家学说，再到理学、心学的发展，形成了一个完整的价值认知体系。

图47中国思想的“五彩线”模型

注：最上层列出了时间标尺，以 1000 年为刻度，中国有超过 5000 年的文明史，这里显示从公元前 3000 年到公元 2000 年。接下来的一层是中国的朝代，再下面是典型的思想，如上古时期的河图、洛书，之后的周易，儒、墨、道、法，禅宗，理学，心学等。再下面是代表性人物，如伏羲、孔子等。再下一层是一个“五彩线”的模型，其中一些关键时间点做了标识，如公元前134 年出现董仲舒以及“罢黜百家、独尊儒术”。最下面列出的是其他文明对中华文明的影响：它们对中华文明的影响不是一蹴而就的，而是有个过程，用不同颜色的曲线表示；线条的长短近似表示思想流传的时间，但不能也无需过分精确，线条的颜色是随机选择的；公元前 800 年—公元前200年的所谓的轴心时代特意标示了出来。

基于中国思想的AGI发展模式，应该突破单纯的数据驱动，转向更综合的范式。这包括提出"小数据、大任务"的技术路线，强调效率与价值；构建融合"心"与"理"的通用智能体系；注重人机共生的智能社会构建。在具体实践中，如北京大学武汉人工智能研究院开发的社会模拟器，通过"价值驱动"算法研究不同治理模式的效能，开创了人文社科研究的新方法。

图48 全球首个大型社会模拟器（大科学装置）

发展中国特色的AGI道路需要强大的文化自信。这种自信体现在深入挖掘中华传统文化中的科学智慧，推动古今中西的深度对话与融合，构建具有中国特色的技术评价体系。通过这种方式，中国能够在AGI发展中提供独特的价值主张：不是简单追求技术领先，而是致力于构建一个更富人文关怀、更具普世价值的智能文明范式。

此外，中国还应该充分发挥自身优势。庞大的应用市场、丰富的场景需求、完整的产业链，这些都是发展人工智能的重要基础。通过建立独特的发展范式和价值体系，中国能够在AGI发展中贡献独特的方案。

构建自主的发展道路并非意味着封闭。相反，中国应该在保持技术自主的同时，积极参与国际对话与合作，推动全球AI发展的多元化。这不仅有利于打破现有的叙事垄断，也能促进人工智能技术的健康发展。

总的来说，突破西方主导的叙事框架，建立思想自主的发展道路，是中国AGI发展的关键。这需要学术界、产业界和政策制定者的共同努力，在认清现实的基础上，探索符合中国特色的人工智能发展之路。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.