清华具身智能CoPa：超过之前李飞飞团队的VoxPoser|点云|操控|机器人|大模型|robot|voxposer

分享至

文末《大模型机器人二次开发线下营》秒杀倒计时

清华推出机器人操控框架CoPa

3月下旬，清华交叉信息研究院的一团队通过这篇论文《CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models》提出了名为CoPa的机器人操控框架，其利用嵌入在基础模型中的常识知识(比如视觉语言模型的代表GPT-4V)为开放世界机器人操控生成一系列6自由度末端执行器姿势

具体而言，将操控过程分解为两个阶段：

任务导向抓取，类似抓到锤柄使用视觉语言模型(VLMs) 比如GPT4-V，通过一种新颖的粗到细的定位机制选择对象的抓取部件(这句话的意思类似，好比人拿一个锤子去钉钉子时，是知道用手去拿锤子的锤柄，而非锤头)
任务感知运动规划，类似拿打击面对准钉子再次利用VLMs来识别与任务相关的对象部件的空间几何状态(或约束)，然后用于推导抓取后的姿势

1.1 机器人基础模型：用于整体任务规划

近年来，基础模型已经极大地改变了机器人领域的格局[Toward general-purpose robots via foundation models: A survey and meta-analysis]。许多研究采用在大规模图像数据集上进行预训练的视觉模型，用于生成视觉表征以进行视觉运动控制任务[比如A universal semanticgeometric representation for robotic manipulation、The unsurprising effectiveness of pre-trained vision models for control、Real-world robot learning with masked visual pre-training,” in Conference on Robot Learning等等]

其他一些研究利用基础模型来规定强化学习中的奖励[Vip: Towards universal visual reward and representation via value-implicit pre-training、Eureka: Humanlevel reward design via coding large language models、Learning reward functions for robotic manipulation by observing humans、Zero-shot reward specification via grounded natural language、Can foundation models perform zero-shot task specification for robot manipulation?、Liv: Language-image representations and rewards for robotic contro]

此外，许多研究利用基础模型进行机器人高层规划，取得了显著的成功，比如

Do as i can, not as i say: Grounding language in robotic affordances

Grounded decoding: Guiding text generation with grounded models for robot control

Look before you leap: Unveiling the power of gpt-4v in robotic vision-language planning

Progprompt: Generating situated robot task plans using large language models

Physically grounded vision-language models for robotic manipulation

Task and motion planning with large language models for object rearrangement

Language models as zero-shot planners: Extracting actionable knowledge for embodiedagents

Text2motion: From natural language instructions to feasible plans

Llm+ p: Empowering large language models with optimal planning proficiency

Robots that ask for help: Uncertainty alignment for large language model planners

Llm-planner: Few-shot grounded planning for embodied agents with large language models

Tidybot: Personalized robot assistance with large language models

当然了，也还有一些研究利用基础模型进行低层控制[比如Google的RT-1、RT-2、Open x-embodiment: Robotic learning datasets and rt-x model、Octo: An open-source generalist robot policy

此外，一些研究对视觉语言模型VLMs进行微调，直接输出机器人动作。然而，这种微调方法需要大量的专家数据，为了解决这个问题

Code as Policies [Code as policies: Language model programs for embodied control]使用大型语言模型LLMs编写控制机器人的代码
而VoxPoser[16]通过基础模型生成机器人轨迹，产生基于基础模型的值图

然而，这些方法依赖于复杂的提示工程，并且对场景只有粗略的理解。与之形成鲜明对比的是，CoPa通过合理利用视觉语言模型中的常识知识，对场景有着细致入微的理解，并且能够推广到开放世界的场景，无需额外的训练，只需要最少的提示工程

1.2 机器人操控模型：用于精确控制

机器人操控是机器人领域中一个关键且具有挑战性的方面

大量的研究利用专家演示的模仿学习IL来获得操控技能(比如Google的RT-1、RT-2等等) 尽管模仿学习在概念上很简单，并且在广泛的真实世界任务中取得了显著的成功，但它在处理分布不匹配的样本时存在困难，并且需要大量的专家数据收集工作
强化学习(RL)是另一种主要方法[比如Do as i can, not as i say、Imitation learning from observation with automatic discount scheduling、End-to-end training of deep visuomotor policies]使机器人能够通过与环境的试错交互来发展操控技能然而，RL的样本效率限制了它在真实世界环境中的适用性，导致大多数机器人系统依赖于从仿真到真实的转移[比如Sim-to-real reinforcement learning for deformable object manipulation、Self-supervised sim-to-real adaptation for visual robotic manipulation] 而从仿真到真实的方法需要构建特定的仿真器，并面临仿真到真实之间的差距
此外，通过这些端到端学习方法学习的策略通常缺乏对新任务的泛化能力。相比之下，通过利用基础模型的常识知识，CoPa可以在开放世界场景中实现泛化，而无需额外的训练

物体抓取与运动规划

打开抽屉需要抓住把手并沿直线拉动，而拿起水杯则需要先抓住杯子然后抬起来。受到这一观察的启发，将方法分为两个模块：

1）面向任务的抓取

给定语言指令和初始场景观察 (RGB-D图像)，在面向任务的抓取模块中的目标是为指定的感兴趣对象生成适当的抓取姿态，该过程表示为，并将机器人到达后的观察表示为

2）任务感知的运动规划

对于任务感知的运动规划模块，我们的目标是得出一系列抓取后的姿态，表示为
，其中是完成任务所需的姿态总数。在获取目标姿态之后，机器人的末端执行器可以利用运动规划算法(如RRT* [50]和PRM* [51])到达这些

2.1 任务导向的抓取：SoM + GPT-4V + 准确定位物体被抓部位

物体的初始抓取的整个过程如下所示

首先使用SoM对场景中的物体进行分割和标记
然后，结合指令，我们使用GPT-4V选择抓取/任务相关的物体
最后，类似的细粒度部件定位被应用于定位特定的抓取/任务相关部位

首先，采用一种称为Set-of-Mark (SoM) [55]的最新视觉提示机制，其利用分割模型将图像分割成不同的区域，并为每个区域分配一个数字标记(即在粗粒度对象定位阶段，使用SoM在对象级别上检测和标记场景中的所有对象)

其次，类似人类根据预期使用方式抓取物体的特定部件(例如，当用刀切割时，我们握住刀柄而不是刀刃；同样，拿起眼镜时，我们抓住镜框而不是镜片。这个过程实质上代表了人类运用常识的能力)，CoPa利用视觉语言模型（VLMs），如GPT-4V [https://cdn.openai.com/papers/GPTV_System_Card.pdf]，它们融合了大量的常识知识[Look before you leap:Unveiling the power of gpt-4v in robotic vision-language planning]，[Sage: Bridging semantic and actionable parts for generalizable articulated-object manipulation under language instructions]，以确定抓取物体的适当部位

最后，为了生成任务导向的抓取姿势，我们的方法首先使用抓取模型生成抓取姿势提案，并通过我们的新颖抓取部件基准模块筛选出最可行的一个

那如何生成抓取姿势的提案呢？简言之，利用预训练的抓取模型生成抓取姿势提案，具体而言

首先通过将RGB-D图像反投影到3D空间中将其转换为点云
然后将这些点云输入到GraspNet [Graspnet-1billion: A largescale benchmark for general object grasping]中，这是一个在包含超过十亿个抓取姿势的大型数据集上训练的模型。GraspNet输出6自由度的抓取候选项，包括抓取点的信息、宽度、高度、深度和“抓取得分”，该得分表示成功抓取的可能性
然而，鉴于GraspNet在场景中产生了所有潜在的抓取，我们有必要使用一个选择性的过滤机制来选择根据语言指令所述的具体任务选择最佳的抓取方式

总之，回顾上述整个过程，可知分为以下三步

VLMs的任务是根据用户的指令来确定目标对象进行抓取(例如，一个锤子)

然后，从图像中裁剪出所选对象，并应用细粒度部件定位来确定要抓取的具体部位(例如，锤子的把手)。这种由粗到细的设计赋予了CoPa对复杂场景的细粒度物理理解能力，实现了泛化

最后，我们过滤抓取姿势候选，将所有抓取点投影到图像上，并仅保留在抓取部件掩码内的点。从中选择GraspNet评分最高的姿势作为最终的执行抓取姿势

2.2 任务感知的运动规划

在成功执行面向任务的抓取后，现在的目标是获得一系列抓取后的姿态。可将这一步骤分为三个模块：

与任务相关的部件定位与之前的抓取部件定位模块类似，我们使用粗粒度的物体定位和细粒度的部件定位来定位与任务相关的部件在这里，需要识别多个与任务相关的部件(例如锤子的打击面、手柄和钉子的表面)。此外，观察到机器人手臂上的数字标记可能会影响VLM的选择，因此过滤掉了机器人手臂上的标记
操控约束生成在执行任务的过程中，与任务相关的物体往往受到各种空间几何约束的限制。例如，充电手机时，充电器的连接器必须与充电口对齐；同样，盖子必须直接放在瓶口上方才能盖上瓶子。这些约束本质上需要常识知识，包括对物体物理属性的深入理解。我们旨在利用VLM生成被操控对象的空间几何约束
目标姿态规划

与23年李飞飞团队VoxPoser的对比

目前CoPa的局限与不足

首先，CoPa处理复杂对象的能力受到其依赖的simplistic geometric elements(如surfaces and vector)的限制CoPa’s capability to process complex objects is con-strained by its reliance on simplistic geometric elements such as surfaces and vector 通过将更多的几何元素纳入我们的建模过程，可以改善这一点
其次，目前使用的VLMs是在大规模2D图像上进行预训练的，缺乏对3D物理世界的真实基础。这个限制影响了它们进行准确的空间推理的能力若将3D输入(如点云)整合到VLMs的训练阶段中，可以缓解这个挑战
最后，现有的VLMs只产生离散的文本输出，而我们的框架实际上需要连续的输出值，如物体部件的坐标the existing VLMs produce only discrete textual outputs, where as our framework essentially necessitates continuous output values, like the coordinates of object parts 开发具备这些能力的基础模型仍然是一个备受期待的进展

除了以上，更多机器人相关见七月在线的《大模型机器人二次开发线下营》

校长July寄语

“1 截止到24年5月初，我们总算把斯坦福的UMI、DexCap成功复现了(国内最早复现这两模型的团队或之一，至于Mobile Aloha则大同小异)，且已把这两者的所有硬件全部换成国产平替，欢迎加入本线下营

2 通过本线下营共同实现一系列主流机器人的复现部署、二次开发之后，如合适，欢迎和我司的大模型机器人项目组合作，一方面，共同为高校/公司服务，二方面，共同打造世界级通用机器人”

↓↓↓扫码了解课程↓↓↓

课程咨询可找苏苏老师VX：julyedukefu008或七月在线其他老师

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.