网易首页 > 网易号 > 正文 申请入驻

大模型加持的机器人有多强,MIT CSAIL&IAIFI指导机器人抓取物体

0
分享至

机器之心报道

机器之心编辑部

来自 MIT CSAIL 和 IAIFI 的研究者将准确的 3D 几何图形与来自 2D 基础模型的丰富语义结合起来,让机器人能够利用 2D 基础模型中丰富的视觉和语言先验,完成语言指导的操作。

最近,具身智能成为人工智能领域关注的一个焦点。从斯坦福大学的 VIMA 机器人智能体,到谷歌 DeepMind 推出首个控制机器人的视觉 - 语言 - 动作(VLA)的模型 RT-2,大模型加持的机器人研究备受关注。

当前,自监督和语言监督的图像模型已经包含丰富的世界知识,这对于泛化来说非常重要,但图像特征是二维的。我们知道,机器人任务通常需要对现实世界中三维物体的几何形状有所了解。

基于此,来自 MIT CSAIL 和 IAIFI 的研究者利用蒸馏特征场(Distilled Feature Field,DFF),将准确的 3D 几何图形与来自 2D 基础模型的丰富语义结合起来,让机器人能够利用 2D 基础模型中丰富的视觉和语言先验,完成语言指导的操作。

论文地址:
https://arxiv.org/abs/2308.07931

具体来说,该研究提出了一种用于 6-DOF 抓取和放置的小样本学习方法,并利用强大的空间和语义先验泛化到未见过物体上。使用从视觉 - 语言模型 CLIP 中提取的特征,该研究提出了一种通过开放性的自然语言指令对新物体进行操作,并展示了这种方法泛化到未见过的表达和新型物体的能力。

研究团队用一个讲解视频详细介绍了 F3RM 方法的技术原理:

方法介绍

该研究分析了少样本和语言指导的操作,其中需要在没见过类似物体的情况下,给定抓取演示或文本描述,机器人就能拾取新物体。为了实现这一目标,该研究围绕预训练图像嵌入构建了系统,这也是从互联网规模的数据集中学习常识先验的可靠方法。

下图 1 描述了该研究设计的系统:机器人首先使用安装在自拍杆上的 RGB 相机拍摄一系列照片来扫描桌面场景,这些照片用于构建桌面的神经辐射场 (NeRF)。最重要的是,该神经辐射场经过训练不仅可以渲染 RGB 颜色,还可以渲染来自预训练视觉基础模型的图像特征。这会产生一种场景表征,称为蒸馏特征场(DFF),它将 2D 特征图的知识嵌入到 3D 体积中。然后,机器人参考演示和语言指令来抓取用户指定的物体。

该研究的一大亮点是从 CLIP 模型中提取密集的二维特征,来给蒸馏特征场提供监督。此前,OpenAI 的 CLIP 模型仅提供图片尺度的全局特征,而 3D 神经场的生成需要密集的 2D 描述符。

为了解决这个问题,研究团队使用 MaskCLIP 对 CLIP 的视觉模型进行重新参数化,提取 patch 级密集特征。此方法不需要重新训练,可以保证其描述符与语言模型的对齐。

具身智能 (embodied intelligence) 囊括机器人,自动驾驶汽车等和物理世界有相互作用的人工智能体。这类智能体需要对物理世界同时进行几何空间和语义的理解来进行决策。

为了实现这样的表征能力,研究团队将视觉基础模型和视觉 - 语言基础模型中经过预训练的二维视觉表征通过可微分的三维渲染,构建为 3D 特征场。团队将这个方法运用在 6-DOF 机器人抓取任务上,这种方法叫作机器人操作特征场(Feature Fields for Robotic Manipulation,F3RM)的方法需要解决三个独立的问题:

首先,如何以合理的速度自动生成场景的特征场;

其次,如何表征和推断 6-DOF 抓取和放置的姿势;

最后,如何结合语言指导来实现开放文本命令。

自然语言提供了一种将机器人操作扩展到开放物体集的方法,为目标物体照片不准确或不可用的情况提供了一种替代方案。在测试时,机器人接收来自用户的开放文本语言查询,其中指定要操作的物体。如下图 3 所示,语言指导的姿势推断过程包括三个步骤:

检索相关演示;

初始化粗略抓取;

语言指导的抓取姿势优化。

实验结果

我们先来看一些机器人抓取的实验效果。例如,使用 F3RM 方法,机器人可以轻松抓取一个螺丝刀工具:

抓取小熊玩偶:

抓取透明杯子和蓝色杯子:

把物体挂放在不同材质的架子上:

F3RM 还可以识别并抓取一些不常见的物体,比如化学领域会用到的量勺、量杯:

为了表明机器人能够利用 2D 基础模型中丰富的视觉和语言先验,并且可以泛化到未见过的新型物体上,该研究还进行了一系列抓取和放置任务的实验,我们来看下实验结果。

从示例中学会抓握

如下图 4 所示,该研究进行了 6-DOF 抓取和放置任务,并为每个任务提供两个演示。为了标记演示,该研究将 NeRF 重建的点云加载到虚拟现实中,并使用手动控制器将夹子移动到所需的姿势(图 2 (a))。

机器人在抓取和放置任务上的成功率如下表 1 所示:

下图 5 展示了该研究所提方法在未见过的新物体上的泛化情况:

此外,语义特征和详细 3D 几何图形之间的融合提供了一种对密集的堆叠进行建模的方法。例如,在下图 6 (b) 中,毛毛虫玩具被埋在其他玩具下面。图 6 (c) 显示机器人抓住了毛毛虫玩具,并将其从玩具堆的底部拾起。

语言指导的机器人抓取

该研究设置了 13 个桌面场景来研究使用开放文本语言和 CLIP 特征场来指定要操作物体的可行性。

在下图 7 中,机器人在语言指导下成功执行了 5 个抓握。整个场景包含 11 个物体,其中 4 个来自 YCB 物体数据集。

语言指导的操作成功率如下表 2 所示:

作者介绍

William Shen

杨歌

文章的两位共同一作,博士三年级的 William Shen 和博后 杨歌是CSAIL 「具身智能」团队的成员 (
https://ei.csail.mit.edu/labs.html)。这篇文章的指导老师是 Leslie Kaelbling 和 Phillip Isola. 其中 杨歌是 2023 年 CSAIL 具身智能研讨会的共同筹办人。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“扶弟魔”升级版!妻子因丈夫拒每月拿2000元帮弟还车贷,离婚了

“扶弟魔”升级版!妻子因丈夫拒每月拿2000元帮弟还车贷,离婚了

火山詩话
2026-05-26 07:27:35
比亚马逊雨林更湿更热!专家:天气系统出现异常;@上海人,好消息来了→

比亚马逊雨林更湿更热!专家:天气系统出现异常;@上海人,好消息来了→

新民晚报
2026-05-26 20:39:52
悲哀!10人小群里剩自己“干净”,30岁女生称身体忠于丈夫被孤立

悲哀!10人小群里剩自己“干净”,30岁女生称身体忠于丈夫被孤立

番外行
2026-05-20 08:19:19
《主角》结局:易青娥苦尽甘来,花彩香放下执念,米兰结局最意外

《主角》结局:易青娥苦尽甘来,花彩香放下执念,米兰结局最意外

秋姐居
2026-05-26 19:49:50
她买那条裙子时,就猜到了结局

她买那条裙子时,就猜到了结局

云朵偷喝奶茶
2026-05-26 01:42:47
56岁J.Lo穿回25年前同款牛仔裤,身材一点没变

56岁J.Lo穿回25年前同款牛仔裤,身材一点没变

影视情报室
2026-05-26 00:08:42
轰动全网!三体原CEO许垚被执行死刑,“中国绝命毒师”到头了

轰动全网!三体原CEO许垚被执行死刑,“中国绝命毒师”到头了

雷科技
2026-05-26 16:06:08
大润发之父尹衍樑去世 享年76岁:曾推动组建北京大学光华管理学院

大润发之父尹衍樑去世 享年76岁:曾推动组建北京大学光华管理学院

快科技
2026-05-26 16:48:29
蹇韬接近加盟国安!球迷建议蓉城提前引进马镇入替,值得期待

蹇韬接近加盟国安!球迷建议蓉城提前引进马镇入替,值得期待

懂个球
2026-05-27 00:13:17
操场埋尸案主犯杜少平,被捕5个月内“零口供”,被判死刑后痛哭

操场埋尸案主犯杜少平,被捕5个月内“零口供”,被判死刑后痛哭

莫地方
2026-05-24 01:25:03
善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

历史伟人录
2026-05-10 22:06:40
顾客携宠就餐引发争议,海底捞宣布关闭全部宠物友好餐厅

顾客携宠就餐引发争议,海底捞宣布关闭全部宠物友好餐厅

南方都市报
2026-05-26 17:26:10
比日本还嚣张!为支持台湾与中国断交后,又要求中国主动低头求和

比日本还嚣张!为支持台湾与中国断交后,又要求中国主动低头求和

云舟史策
2026-05-27 07:38:05
新规一出,我立马告诉孩子:广东对1-12年级学生放大招了!深圳试点,全省铺开!

新规一出,我立马告诉孩子:广东对1-12年级学生放大招了!深圳试点,全省铺开!

萌芽研究所BUD
2026-05-26 23:25:47
张嘉益150万的路虎揽胜,提这车时42岁,他还是中国首位车主

张嘉益150万的路虎揽胜,提这车时42岁,他还是中国首位车主

一盅情怀
2026-05-22 13:37:21
女子超市买牙膏抽中世界杯门票欲转让,有网友出价50万元,超市回应:票是真的

女子超市买牙膏抽中世界杯门票欲转让,有网友出价50万元,超市回应:票是真的

齐鲁壹点
2026-05-26 21:25:12
川航退掉A350只有两个原因,核心就是:止亏

川航退掉A350只有两个原因,核心就是:止亏

中国民航人
2026-05-26 12:39:37
4艘美国巨轮直奔中国,中俄千亿管道项目搁浅,日本彻底沦为陪跑

4艘美国巨轮直奔中国,中俄千亿管道项目搁浅,日本彻底沦为陪跑

暮雨咋歇着
2026-05-26 12:26:32
汽车大局明了?今明两年,拥有两辆以上燃油车的车主,坚持4不做

汽车大局明了?今明两年,拥有两辆以上燃油车的车主,坚持4不做

各生欢喜者
2026-05-27 01:13:57
李家风波再爆重磅新料!东周刊独家曝光李家鼎女友是马贯东母亲,与李泳豪因财产激烈争执

李家风波再爆重磅新料!东周刊独家曝光李家鼎女友是马贯东母亲,与李泳豪因财产激烈争执

TVB资讯台
2026-05-26 23:00:25
2026-05-27 08:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13088文章数 142653关注度
往期回顾 全部

科技要闻

狂飙19%!美光科技市值破万亿美元

头条要闻

食客吃完面往剩汤中加6勺辣椒酱 被店家不打码发网上

头条要闻

食客吃完面往剩汤中加6勺辣椒酱 被店家不打码发网上

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

游戏
健康
旅游
教育
亲子

猎魂世界:千仞雪/王秋儿售后盘点!售后是越多越好还是越少越好

外泌体抗衰,什么时候能用上?

旅游要闻

千城百县看中国丨湖南衡阳:稻蛙鸣夏迎客来

教育要闻

高考地理:做对这几件事,让你多拿15分,不开玩笑!

亲子要闻

孩子越胖越有福气?别让“可爱”透支了他的身高潜力

无障碍浏览 进入关怀版