通往具身智能之路 | 峰瑞报告 37|算法|本体|模态|机器人|智能体|视频生成模型

分享至

过去的一年多时间里，在大模型浪潮持续滚烫的同时，具身智能赛道似乎也步入了快车道。

多家科技公司推出标志性的产品：Tesla 旗下的机器人部门发布了 Optimus Gen2，能够执行非常灵巧的柔性操作；Stanford Mobile ALOHA 机器人可以自主完成炒虾任务；Google发布的 RT-2实现大模型端到端任务理解和操作；更有数家如 Figure 这样的创业公司拿出了各自的阶段性成果，这都让我们不禁想问一句：具身智能真的快要到来了吗？

这是峰瑞资本《具身智能系列》的第四期内容。

在前三期里，我们组织了三场深度对话，对话的嘉宾是逐际动力创始人张巍、中国科学院自动化所的研究员连文昭，以及峰瑞资本的两位科技投资同事颜黔杭和刘鹏琦。他们从创业者、从业者，以及投资人的视角，分享了自己所经历的具身智能技术发展、产业落地机遇，以及资本热潮。内容详见下方链接：

今天要分享的这份行研，是峰瑞资本执行董事刘鹏琦在峰瑞基金月会上做的报告。我们把这份报告当成《具身智能系列》的一个阶段性的总结，我们会持续关注具身智能赛道的发展，后续还会推出相关的内容，期待你的关注。

回到这份报告，它主要讨论了如下这些问题：

具身智能到底是什么？
是哪些技术的进步，驱动着具身智能发展到了今天的水平？
大模型给具身智能带来了什么？
具身智能之路还有多远？人形机器人是未来的终局吗？
在具身智能的技术演进路径中，创业者还有哪些机会？

希望能带来新的思考角度，如果你是具身智能行业的创业者或者从业者，欢迎与本文作者刘鹏琦（ pengqi@freesvc.com ）联系。

互动福利

你如何看待具身智能的当下和未来？欢迎在评论区和我们聊聊。

截止至5月31日17:00，留言最走心的3位读者将获得峰瑞行研手册一份和《这就是ChatGPT》一本。

/ 01 /

具身智能如何走到今天？

具身智能（Embodied AI），即具象化和形象化的AI，根据中国计算机学会给出的定义，具身智能是指一种基于物理身体进行感知和行动（Embodied）的智能系统（AI），其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。

相比起通常意义上的 AI，具身智能多了物理实体，能与物理世界交互。相比起传统机器人，它拥有智能决策的能力，更能超出传统机器人的单一适用范围，多了泛化性。

从早期投资人的视角来看，我们觉得具身智能基本上可以约等于“ 通用智能机器人 ”。把这个概念拆解开，具身智能实际上是物理实体与通用智能能力的交叉。

观察具身智能领域的技术演进，可以拿人类的进化来类比，从单细胞生物开始，地球生物花了几十亿年才进化出了大脑。当大脑足够发达时，人类又进化出了特有的想象虚构能力，基于此，仅仅用了几万年的时间就构建出了包括语言、宗教和文化在内的人类文明演化的第二曲线。

在具身智能领域，我们也能看到类似的演进。

从以下这个图，我们可以很直观的看到，具身智能是如何一步步演化到了今天这个程度。

从驱动力来看，一方面工业化驱动着具身智能本体包括硬件和传感器的快速发展，可以类比我们人类身体的进化；另一方面，工业化也同时促进了半导体产业的发展，算力的提升进而带来了计算能力的增强并演化成了今天的计算驱动，这里可以类比我们人类大脑及智能的进化。

所以我们可以先把具身智能拆成物理实体和计算能力这两个部分来看，分别对应到 “实”和“虚” 。

在物理实体方面，工业化带动了比如家电、汽车、消费电子等产业的发展，进而促进了上游硬件的快速迭代和产业化。伴随着相关硬件成本降低与各类传感器精度提升，我们才能看到今天具身智能尤其是人形机器人本体形态的大量出现，物理实体的瓶颈在被一点点突破。

在计算驱动方面，最早的自动化就是那些在PC或工控机上面运行的软件，后来这些软件叠加了互联网化和在线化的能力，这就带来了互联网时代的蓬勃发展。这些互联网应用甚至可以脱离物理实体来独立快速发展，搜索与信息分发、社交网络平台的崛起是最好的例子。这些平台本身会产生大量的数据，也正是得益于海量数据的积累，才使得大模型的scaling law 成为可能。

当然，物理实体和计算能力这两条线在他们发展过程中也都会时不时产生一些交叉。比如，在自动化时代，我们看到了汽车和工业机器人等产业。到了数字化时代，我们又看到了上一波的所谓初代智能产品，比如辅助驾驶、AGV、柔性机器人等。

发展到今天，这两条线再次交叉，就是我们今天所看到的具身智能。

/ 02 /

AGI领域的“咖啡测试”

具体到具身智能的技术架构，我们按照行业共识可以将它拆解成三层来理解。最底层是硬件的本体，我们可以将其类比成人的身体，除了肌肉、骨骼，还包括感知器官（传感器）、手足（执行器）等等。再往上一层是控制运动的功能，相当于人的小脑，最上面一层就是大脑，是我们负责思考来进行规划决策和环境理解的能力。

在通用人工智能（AGI）的通用测试中有一个“咖啡测试”，由苹果联合创始人史蒂夫·沃兹尼亚克（Steve Wozniak）提出，来衡量机器人是否拥有与人类同等的执行任务质量。在这个测试里，机器人要在没有特定预编程辅助的前提下，进入一间陌生的房间，找到咖啡机，拿出杯子，煮一杯咖啡。

对人类来说非常普通的任务，放在机器人身上却非常不容易。首先，机器人需要拥有理解环境的能力，能够识别环境里哪些物品与“煮一杯咖啡”有关，并把做咖啡这个任务进行拆解，这些是大脑的能力。小脑接收到这些任务，需要做规划控制，包括移动路径的设计，比如用什么动作和姿态来拿到杯子，以及如果末端是个灵巧手或者夹爪，应该以什么样的姿势来完成执行。

总体而言，具身智能的技术架构，就是由“大脑”这一层来做环境和任务的理解，并进行决策和拆解任务，由“小脑”这一层来规划和控制，再由“本体”这一层执行任务。当然，这个过程中还需要传感器的数据来帮助“大脑”和“小脑”更好地去理解和控制“本体”。后面我们会再就这三层架构进行具体分析。

/ 03 /

未来的具身机器人，

不一定需要都是人形

其实我们现在用“具身智能”这个词，是因为它的形态不一定要局限于人形，这也是经常容易被误解的一点。确实在汉语语境里，“具身智能”里的“身”和“机器人”中的“人”都可能会让人误以为指的是人形。

我们来举两个不是人形的具身智能的例子，比如说 AI Agent ，某种意义上它也可以理解为一种具身，只不过它是在虚拟世界里的一个物理实体而已。再比如无人驾驶，本身也是具身智能的一种形态，只不过它的“身”是一辆车。

人形机器人一定会是未来社会中存在的一种形态，但是否能够取代其他载体形态的机器人呢？

人类之所以成为今天这样，是自然选择的结果，也是适应环境的产物。类比到具身智能，在不同的场景下，我们需要的是不同类、不同形态、不同功能的“人”，未来的具身智能应该是在各自的场景下效率最高的形式。

我们常讲到人区别于动物的点在于，人类能够创造和使用工具。那么，我们为什么要再造出来跟我们一样的人去使用我们创造出来的工具，而不是直接把智能放到这些“工具”上？比如说，我们与其造一个人形机器人来开车，不如直接造一辆车，它能自动驾驶就好了。

当然，我们也不得不承认，现代人类的生活环境的空间，多数是根据人的需要来设计的，比如台阶、门把手，所以人形机器人肯定是能够适应我们周围环境的最通用的形态。

对于人形机器人而言，特斯拉入局的节点为什么重要？

具身智能并不是新东西，波士顿动力研发的机器狗早就红遍全世界，但投资人会关注的问题是，为什么当时没有太多公司尝试跟进，即使是波士顿动力本身似乎也没有太多去考虑产品商业化和产业化的可能性。

直到特斯拉的入局，人形机器人市场才变得蓬勃起来。马斯克一向敢于实现别人不敢想的事，他提出要把人形机器人用在特斯拉的生产、研究和未来的服务之中。于是，具身智能并不仅仅停留在“能够实现人的能力”，而是出现了产业化落地的场景。所以，某种意义上，特斯拉带动了许多公司加入具身智能的大航海。

/ 04 /

具身智能的技术架构

接下来，我们再把具身智能这三层架构分拆来看。

▎本体部分的技术迭代，受限于物理世界

本体的发展受限于物理世界的发展，迭代速度相对较慢，并且是偏试错和经验驱动，好处则在于它能够受益于工业化，一旦规模效应足够大，就可以快速降低成本。

就传感器这一部分来说，它主要负责感知自己的状态以及周围的环境。自动驾驶行业的规模化发展已经给具身智能行业带来了不小的推动作用，因为汽车智能化的背后是各种各样的传感器上车。但对于具身智能来说，我们还需要更多的状态感知能力，所以当前特别值得关注的方向是力传感器和触觉传感器等。

在执行器这一快，我们把它分成移动和操作两大块能力。

在移动这个部分，目前整体的技术发展会更快和更成熟一些，我们也已经看到了非常多进化迭代水平比较高的产品。例如，逐际动力的双足机器人就已经在野外行走了。

但是在操作这部分，简单的夹爪、吸盘等末端执行器已经相当成熟，但显然无法满足任务通用性的要求。我们人的手可以劳作、敲键盘、做手术，还可以做实验、画画，但市面上还没有这么能干、灵活的类人的手，相关的技术还有待突破，我们投资的因时机器人也在这个方向做着努力。

▎连接着虚拟世界和物理实体的“小脑”

小脑的工作也分两部分，一个是做规划，一个是做控制，控制的最终执行会交给本体去完成。

规划，简单来说就是根据任务要求来输出运动（或者操作）的最优路径。简单的移动、抓取等任务，可以通过数学方法来求最优解。但现实世界里，智能体要完成的任务往往是复杂的，因此规划过程可能会受限于许多约束条件（机器人动力学，环境因素等），也涉及同时达成多个目标的最优化问题（最短、最快、最省能、最安全）。

而规划完成后，如何通过操作本体不同的关节，把任务按照设想的路径执行出来，就是控制层面要做的事。

目前行业里有比较主流的两种控制算法：MPC（模型预测控制）和WBC（全身控制）。

MPC是根据预先假设的模型，依据本体当前的状态来预测其下一秒或者说未来的状态，并把这个输出的未来状态与期望中的未来状态作比较，以此来优化控制的结果。这种方法受限于模型精度和状态感知能力，所以传感器维度越多越精准，模型预测也会越准。

WBC是将机器人的全部关节作为一个整体进行优化控制。这种算法能够实现更自然更灵活的运动，擅长处理多自由度、非线性、高维度的机器人系统。不过，它也受限于计算复杂度（实时性）和模型精度等。现在四足、双足机器人的运动控制大多是同时用到了MPC和WBC这两种算法。

那怎么能找到更精准的模型呢？目前业界的主要迭代方向是强化学习，简单来说就是通过不断的试错和反馈来自主学习控制策略。

强化学习最广为大众所认知的应用是 AlphaGo——通过深度强化学习在围棋领域战胜最强的人类。但围棋毕竟是一个相对封闭的场景，有非常明确的规则，现实世界里，智能体面临的物理世界肯定是非常复杂和多样化的。

那么，在复杂、不确定和动态的环境里，我们怎么能够通过强化学习去训练出一个好的模型，例如，学习如何在不稳定的地面上行走，或者如何在不同的光照条件下识别物体，是学界和产业界都在努力突破的一个方向。

强化学习的成功一方面依赖于设计合适的奖励函数，这需要一定的经验。另外强化学习通常也需要大量的试验和数据才能学到有效的策略，这也可能花费大量的时间和计算资源。

一种比较有效的策略是，在模拟或者说仿真环境中试验和学习，然后把学到的策略用到真实环境中（Sim2Real），但目前这种方法能应用的场景还比较有限，因为仿真环境的构建成本太高，且与真实物理世界差距很大。

另一个重要的演进方向是模仿学习（Behavioral Cloning），它让机器人通过观察和模仿人类或其他机器人的行为来学习新技能。模仿学习的好处在于，它可以让机器人快速地学习新任务，还能避免在学习过程中进行大量的试错，尤其对于很多复杂技能，如协作或灵巧操作特别适用。

之前很火的斯坦福机器人，其实就是一个大型的模仿学习平台。机器人通过大量学习人的操作的案例，就能够以一定的成功率自主完成一些特定的任务。但模仿学习目前仍被认为泛化性不足，且依赖大量数据，这构成了制约它发展的主要原因。目前业界的几个主流方法，比如遥操作、动作捕捉、视频、仿真/合成数据等都有各自的问题，也许未来会走向融合。

总结来讲，强化学习更适合用在移动类的执行，模仿学习更适合用于操作类的执行，但技术路线远未收敛，也不能一概而论。

▎“大脑”与大模型

大脑所做的工作其实就是理解环境、理解任务，再将任务拆解成不同步骤。具身智能区别于之前的自动化设备的地方在于，它拥有处理多任务、复杂场景的能力，还能够实现感知和任务决策的智能化和通用化。

以 Google 在 2023 年 3 月推出的 PaLM-E 大模型为例，人可以通过自然语言给 PaLM-E 模型输入一个任务，它通过自主摄像头做环境感知，最终以文本形式给出任务指令。但是它还只能实现文本形式的任务指令，还不能直接去控制机器人，控制层面还是需要“小脑”去完成。

而 Open AI+Figure01的那个视频展示的成果，也是 Open AI 的大脑加上 figure AI 的小脑与本体这两者的结合。真正惊艳到业界的，可能是 figure 01 展现出来的执行能力，比如拿起苹果这件事，它能以200Hz频率生成运动规划轨迹，再以1000Hz频率对全身关节力矩进行控制。

那么问题就来了，大脑的能力能否进一步下探到“小脑”的一部分功能呢？大模型能不能做运动规划？

/ 05 /

大模型给具身智能带来了什么？

在具身智能的大脑迭代这个方向，谷歌是走得比较靠前的。Google 推出的 RT-1 模型是Transformer架构的端到端小模型，采用模仿学习的方式进行训练，输入自然语言和图像，即可输出机器人运动指令，这个指令其实可以具体到底盘的下一个坐标的位置，以及机械臂下一个末端的位置和角度。但是 RT-1 模型的局限在泛化能力，而 Google 后续推出的 RT-2 模型大大提升了泛化能力，但实时性相对差，只能实现 1-3 赫兹的推理，也就是一秒钟只能给出一个或三个指令，在运动规划里是不够用的。此外，它只能云端部署，成本高昂，目前还只能停留在 demo 阶段。

但它们也给了我们一个启示，就是大模型也许暂时不适用于在运动规划中发挥作用，可能还是需要使用一些小模型。

我们也看到了有一些公司在做相关的工作，比如峰瑞早期参与投资的Covariant就在今年3月发布了一个80亿参数的小模型，可以实现图像和语言等多模态输入的端到端的运动规划的任务，但它只在特定的场景下做抓取和放置这类任务。好处是，这是工业场景里比较高频的需求，且80亿参数的小模型也很适合在本地部署。

那大模型究竟可以给具身智能带来什么？除了提升“大脑”的能力，也就是环境感知理解、自然语言任务理解和任务决策能力，还能够提升部分“小脑”的能力，比如端到端运动规划能力，但受限于运动复杂度（灵巧手）、任务通用性（+语言）、延时要求、算力和模型规模。

举个日常生活的例子，比如在人学打网球的初期，其实大脑参与得挺多，思考这个动作到底应该怎么做，用怎样的姿势挥拍才更有效，当你做了足够多的训练之后，这些动作就会变成人的肌肉记忆，大脑参与得就变少了。

当然，还有一些学者如李飞飞在试图通过大模型来构建面向具身智能的三维世界模型，以解决终极的泛化和通用性问题。这也非常值得期待。

/ 06 /

具身智能离我们还有多远？

把具身智能的三层技术架构演进讲完之后，我们会发现：

本体在工业机器人和无人驾驶产业的带动下整体成熟度比较高，但仍有两个方向值得关注：

更高精度、低成本的状态感知传感器
能执行更复杂任务的末端执行器

大模型在环境感知理解和任务理解决策上的能力已经被证明，而这方面能力的进一步提升有赖于多模态大模型的持续演进；当然大模型也已经在小脑的规划能力上展现潜力。

所以如今最核心的瓶颈在“小脑”，它既是数学优化与数据驱动的交叉点，又是软件和硬件技术迭代的交叉点，更是虚拟与物理实体的交叉点。这么一来，“小脑”就成为最难的地方，同时，也是最有机会之处。

小脑的核心是规划+控制，无论是做模仿学习还是强化学习，做好规划控制算法的核心都是数据，相比起能利用海量互联网数据的大语言模型，具身智能训练能用的数据量就小得多。

那下一步的挑战就在于，如何采集足够多的数据，帮助智能体提升“小脑”能力。目前提升“小脑”能力的几条主要技术路线包括遥操作、仿真环境、观察学习人类、合成数据。

/ 07 /

具身智能投资策略思考

目前，基于海量图文数据快速迭代的（开源）多模态大模型与产业化带动的机器人本体硬件和传感器的成熟，一定程度上降低了具身智能的实现门槛。但受限于硬件成本、算力、采用速度、通用性、成功率等种种因素，具身智能行业整体还处于发展早期，以Demo和科研成果展示为主，商业化落地较少。

以大家比较熟悉的无人驾驶、人形机器人为例。这两个概念早在十年前就已经有了，至今大家也还在探索它们的商业化落地。无人驾驶不追求通用性，但对成功率有极高的要求。人形机器人追求的是通用性，但在现实里实现泛化的成功率较低。

因此，在短中期，我们需要寻找一些能兼顾成功率和通用性的落地场景，与此同时平衡好硬件成本、算力、响应速度等多方面的因素。往长期看，我们相信基于短期积累起来的数据，未来有机会演进出新的算法架构，可以拉升具身智能的价值曲线，并解锁一些新场景。

在技术层面，新式传感器、末端执行器和“小脑”能力的提升都可能带来产品的飞跃，相应的技术突破将是我们迈向具身智能服务人类的未来的关键步伐。

具身智能在物理世界任务场景的多样性，使得这个方向有机会容纳较多创业公司参与进来，在这个方向，大厂的优势也不那么明显，因为在具体的研发进程中，数据是核心，产品能否实现场景——数据——算法迭代的闭环至关重要。

对于中国市场而言，持续发展的供应链成本效率优势和第二第三产业快速增长的场景需求，或将成为促进具身智能蓬勃发展的持续性机会。甚至在一定程度上，基于中国的产业结构与供应链基础，具身智能在中国市场的适用性，会高于大模型。

互动福利

你如何看待具身智能的当下和未来？欢迎在评论区和我们聊聊。

截止至5月31日17:00，留言最走心的3位读者将获得峰瑞行研手册一份和《这就是ChatGPT》一本。

星标峰瑞资本微信公众号

一手商业思考及时送达

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.