卢策吾教授演讲：具身智能是否找到了属于自己的 Scaling Law？｜Z Talk|机器人|鲁棒性|law|智能体|人工智能技术|scaling

卢策吾教授演讲：具身智能是否找到了属于自己的 Scaling Law？｜Z Talk

2024-07-15 18:36:31　来源: 真格基金

北京举报

分享至

Z Talk 是真格分享认知的栏目。

我们在这里谈论最新的行业观察，先锋的创业动态，也在这里与真格老友相聚。我们相信持续的学习和进化，相信最深刻的认知来自实践。

穹彻智能成立于 2023 年，是一家专注于开发和应用具身智能技术的前沿科技公司，由通用智能机器人公司 Flexiv 非夕科技战略孵化，上海交通大学教授、2023 年「科学探索奖」获得者卢策吾教授担任联合创始人。真格基金曾参与非夕科技 A 轮融资。

2024 世界人工智能大会（WAIC）上，卢策吾教授发表了演讲《穹彻具身大脑与具身智能 Scaling Law》。以下是演讲内容：

在 AI 大模型领域，Scaling Law 是重要的经验性发现，它是指大模型性能会随着模型大小、数据量和训练时间的增长而不断提高。

OpenAI 通过 ChatGPT 和 Sora 证实了 Scaling Law 在语言/视觉大模型领域的成功，那么，当下日新月异的具身智能领域是否找到了属于自己的「Scaling Law」？具身智能大模型如何实现通用性和鲁棒性？又如何进行数据的获取、训练和增长衡量？

在 2024 世界人工智能大会上，穹彻智能联合创始人卢策吾教授在同期论坛上发表了演讲《穹彻具身大脑与具身智能 Scaling Law》，分享他眼中发展具身智能的关键要素、落地产品和未来趋势。

是否能复制语言大模型 Scaling Law

到具身智能？

我们知道，具身智能是一种基于物理身体进行感知和行动的智能系统，是通过智能体和环境交互进行认知、学习、决策、行动。由于缺乏实际执行体与世界的物理交互数据，目前的语言/视觉大模型没有全面覆盖具身智能研究所需的物理世界规律，因而如果仅仅在它们的基础上加大数据量，并不能满足具身智能发展的需求。

那么假如复制语言大模型 Scaling Law，海量填充端到端的「视觉」到「控制」的数据用于模型训练，是否能得到性能足够优越的具身智能大模型呢？

答案是，即使这是一个逻辑成立的路线，在目前阶段还是面临许多瓶颈。最大的问题是数据获取难度的层级不同。探究过往语言/视觉大模型的演进，会发现互联网在蓬勃发展的过程中提供了海量的视觉/语言数据，相关数据的填充是一种全民式的行为。

然而，具身智能的数据需要进行 1：1 的采集，其数据空间巨大，在巨量的数据需求之上会产生超高的成本。

拿同样需要采集「视觉」到「控制」数据的无人车领域举例：过往三年共有 10 万级别、配备了高级仿真的无人车采集这类数据，勉强达到了一个还算可用的水平；但就操作、场景和仿真的复杂度而言，具身智能的执行体（如通用机器人）面临相较无人车数据具有至少几十倍的不确定性。

巨大的不确定性使得具身智能所需的数据空间巨大，这就成为了一个数据魔咒。因而我们在尝试有效、快速推动具身智能发展时，可以跳脱出「路线」本身，从第一性原理出发，去思考什么是使具身智能任务完成的关键因素。

从第一性原理出发

打造两级火箭大模型

从具身智能大模型的第一性原理出发，首先它要能理解这个物理世界，知道「世界是什么」；其次它要知道「如何决策」，才能展现出足够鲁棒的行为。结合语言/视觉大模型做预训练或辅助，通过对操作相关的物理常识和力反馈嵌入智能体过程中的行为决策的联合训练，具身智能才能够飞快成长。

由此我们打造了两个大模型，可以将它们看作是推动具身智能发展的两级火箭：

第一级火箭是实体世界大模型，它可以在训练中让机器人掌握常识性的、低维的操作物理表征，从而理解客观物理事实，并与人类概念对齐。

第二级火箭是机器人行为大模型，它可以充分耦合操作物理常识表征和执行体（以机器人为例）的高精度力反馈能力，从而作出仿人化的力位混合行为决策，且操作具有极佳的鲁棒性和通用性。

两级火箭串在一起做端到端的联合训练时，数据量需求就会大幅降低、增长斜率更加明显，使训练变得足够的低成本、可规模化。

可达的数据范式：

低成本、规模化的数据获取

为了不断训练实体世界大模型，我们需要有效获取物体的操作结构数据。

一方面，我们发现人手操作与物体具身知识具有对偶性，因此做了一个人手操作的学习平台，通过观察大量的手的操作，可以从中发现操作表征，帮助模型获得操作拓扑结构常识。

另一方面，一个有效模拟真实世界并能支持物理交互的虚拟环境是必不可少的，而我们自研了具身智能仿真器 RFUniverse（获 RSS 2023 & IROS 2022 最佳论文）。结合一系列机器学习技术，RFUniverse 能够加速 500 倍模拟物理世界、误差 1mm 以内，由此使仿真场景更加接近真实物理规律，且大模型能够以任务为中心理解常识，实现仿真与学习的耦合。

此次 WAIC 现场，我们搭配机械臂展示的衣物折叠体现了顶级的以任务为中心的物理常识理解能力。在 AI 的世界里，对操作对象的本质理解会随着其自由度增加而提升，如完全不会动的刚体是六维、关节体是 6+k 维，但衣服这类柔性物体的自由度是无穷维的，因此基于衣物的任意初始状态完成折叠操作需要在物体和操作常识理解上有一个巨大的突破。这个研究也使我们成为了历史上第一个获得国际顶会 RSS 2023 最佳系统论文题名的中国团队，并且我们应该也是全球第一个在公开展会上真实完整呈现衣物折叠的团队。

基于对操作物理常识的理解，我们还需要获取足够多力位混合的操作数据。传统的位置控制大模型只需要获取位置信息即可，但只有位置没有力将会使终端操作变得不够鲁棒、不够通用。

目前，我们已经在使用不少组合式的数据方案和设备，比如通过全球唯一的高精度力觉遥操作平台，获取高精度对齐的力位混合数据，做到「庖丁解牛」。我们还做了一个机械结构全映射的外骨骼数据采集平台，训练人员可以背着它去到任何地方，便捷、规模化、低成本地进行源头数据采集。

以这些数据生成方案为工具，我们参与构建了迄今为止最大的开源真实机器人数据集 Open X-Embodiment Dataset，其中已包含 22 个机器人的超一百万个真实机器人轨迹，被许多权威人士反复引用，也欢迎大家也来使用。

穹彻具身大脑：

通用智能体大脑 + 泛化技能库

在以上分享的所有这些技术的积累之上，我们在此次 WAIC 正式面向公众发布了一个具身智能的通用大脑：穹彻具身大脑 Noematrix Brain。

穹彻具身大脑具备全链路的具身智能技术框架，提供「以力为中心」的两个具身智能大模型（实体世界大模型和机器人行为大模型）、原子技能库 AnySkill、基础软件框架及相关开发者工具链，与各种类型的机器人本体、甚至工业设备都能有机结合，助力机器人轻松掌握更多技能、实现更多应用。

除大脑本身，在实际方案层面，我们可以向客户提供高共性的、可以被反复使用的软硬件一体平台，通过不同形态硬件的模块化组合，满足不同场景的实际需求。

另外，基于穹彻具身大脑，穹彻提供不断扩张的机器人原子技能库 AnySkill，从而使智能体具备通用操作能力。首发于 2021 年的通用抓取技能 AnyGrasp 是其中的代表。在初版发布时，AnyGrasp 已经不受物体种类、柔性程度限制，可直接对未知物体进行抓取，检测速度极快，世界范围内首次使机器人抓取速度达到人类水平。经过不断优化，AnyGrasp 现在可以具备动态物体抓取、高精度力觉抓取、多样纹理处理等多种泛化能力。

AnySkill 在我看来，其实是一种Scaling law by skill。它可以通过推进基础技能的鲁棒性和通用性达到 99.X%，使其产生一个能力跃迁，从而被观察到增长质变。而人类绝大多数的任务完成，都是通过基础技能的组合排列，因此 AnySkill 可以以最精简的原子通用技能集，通过多样的组合，并结合语言/视觉大模型辅助，支持各类场景的快速开发。

未来，通过统一模型和原子通用技能的不断增长，我们能够解锁的商业化任务也会成倍增长，直至统一模型形成技能空间，所有的技能都能够足够通用，覆盖全行业。

当执行体被具身智能加持，它们能够在很多行业成为人类的帮手：繁琐如工业产线上一颗螺丝的安装，危险如极端场景中的拆装爆破任务，细致如与日常生活息息相关的做家务、下厨、看护病患......我们会持续用技术推动行业进步，期待这一天早日到来。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.