网易首页 > 网易号 > 正文 申请入驻

RSS 2023|30分钟教会机器人做家务!CMU提出全新结构化世界模型SWIM

0
分享至

教会机器人在现实环境中解决各种复杂任务,一直是机器人控制领域的关键研究课题。近来随着具身智能的快速发展,机器人代理已经被要求拥有自主路径规划和对任务进行推理的能力。但是现有的方法仍然需要大量高质量的特定任务数据来训练代理模型,这使得机器人很难在一个陌生的环境中正常运作。本文介绍一篇发表在机器人顶级会议RSS 2023的论文,作者团队来自卡内基梅隆大学,本文提出了一种名为结构化意图世界模型 (Structured World Models for Intentionality,SWIM)的方法,SWIM仅使用few-shot的方式来从现实世界交互数据中学习,就可以高效的驱动机器人完成各种复杂任务。

文章链接: https://arxiv.org/abs/2308.10901 项目主页: https://human-world-model.github.io/

受到计算机视觉和自然语言领域大规模数据集学习成功的启发,本文作者认为,人类本身具有多样性的交互技能,如果能使机器人利用来自互联网中的人类视频数据进行学习,可以极大的提升机器人的控制性能。SWIM通过构建一个结构化的、以人为中心的动作空间,并从各种人类交互视频中捕获通用结构,训练得到一个高效的机器人世界模型,该模型可以尽在30分钟以内的交互数据上学习各种复杂环境中的各项操作技能,上面视频展示了SWIM学习到的一些具体交互示例,例如挑选蔬菜、拿起刀、打开柜子、拉抽屉、拉开洗碗机和操作垃圾桶。

一、引言

目前较为流行的机器人学习范式是基于模拟学习,或者在现实环境中部署强化学习框架,通过工程奖励的方式来训练机器人代理,但是这种方式训练得到的代理几乎是不可扩展的,其很难迁移到具有不同目标的新任务上。因此本文的目标是建立一个世界模型来解决这一问题,由于人类在日常生活中执行的诸多任务之间存在共性,这导致即使在不同的环境中,一些交互行为在环境动力学方面具有相似的结构,因此构建一个高效的世界模型,实现跨任务的未来交互预测,从而可以使智能体能够学习这种共享的行为结构。但是如何收集用来训练世界模型的数据呢,本文作者想到能否直接利用互联上的人类运动视频来对世界模型进行训练?

如上图所示,本文作者提出了一种结构化世界模型SWIM,其构建了一个既适用于人类视频领域又适用于机器人的动作空间,例如我们考虑一个“拿起杯子的任务”,从人类视频中提取到的运动信号与机器人实际执行时的运动信号完全不同,这导致操作层面的预测模型无法直接训练。如果能够提前在动作空间中对目标动作姿态和杯子把手的方向进行预测,并抽象出低级控制路径,那么人类使用的目标姿势也可以被机器人直接利用,因此SWIM要求在实际环境信息的介入下,学习一个形态不变的高级结构化动作空间来完成复杂的交互过程。

二、 本文方法

本文提出的SWIM框架主要分为三个阶段:(1)使用人类视频数据对世界模型进行预训练,(2)使用机器人特定任务的数据进行无监督微调,(3)将世界模型部署在特定的目标任务上。下图展示了前两个阶段的主要操作流程,下面我们将详细介绍其中的一些细节。

2.1 世界模型预训练

SWIM框架仍然遵循谷歌大脑和DeepMind联合提出的Dreamer范式[1],该文发表在ICLR2020上,其将世界模型定义为一个紧凑的状态空间,可以对传感器捕获的高维数据进行理解并产生控制信号,并且将中间状态信息进行保存,从而实现有效的预测和规划。在本文中,作者仍然使用Dreamer中的世界模型结构和训练过程,它具有以下组件:

这里的 、 、 分别表示在时间 时的观察、动作和奖励变量, 则表示学习到的状态空间,这些组件都使用神经网络进行参数化。作者选用了Epic-Kitchens数据集[2]作为人类交互数据的来源,Epic-Kitchens是一个大规模第一人称视角的视频行为数据集,捕获自真实的日常生活环境中。SWIM预训练的目标是初始优化世界模型和视觉模型,即从视频片段中捕获动作像素和动作执行后的像素,并将其转到世界模型的动作空间中来训练 ,具体来说,对于视频片段 ,令 表示时间 的图像帧, 和 分别表示抓取动作时和动作执行后的图像帧,然后我们可以得到如下动作序列来训练模型:


2.2 使用机器人数据进行微调

在对世界模型 预训练之后,此时的模型仍然无法执行具体的机器人任务,必须采集一些特定领域的实际操作数据对其进行微调。此时可以使用视觉模型 来收集一个机器人特定数据集 ,然后将其用于训练 。作者强调,这一过程不需要任何任务奖励或目标形式的监督。下图列出的算法流程展示了世界模型预训练和微调步骤之间的逻辑关系。

2.3 在特定任务上部署模型

在对模型进行微调之后,就可以将其部署在特定领域的机器人上,并且根据传感器捕获到的图像 来执行指定的任务。世界模型需要对当前的任务生成动作执行序列 ,为此,作者首先定义了一个高斯混合模型(GMM)根据输入图像对动作序列进行拟合和采样。随后使用标准的交叉熵方法来对动作序列进行优化,为了对中的子轨迹计算奖励排序,作者通过测量世界模型特征空间到目标空间的距离来实现:

其中 是世界模型输出的特征, 是模型学习到的特征空间,使用余弦距离作为距离度量。

encoder: � � = enc � ( � � ) posterior: � ( � � ∣ � � − 1 , � � − 1 , � � ) dynamics: � ( � � ∣ � � − 1 , � � − 1 ) decoders: � ( � � ∣ � � ) , � ( � � ∣ � � )

三、 实验效果

为了全面的评估本文提出的SWIM世界模型的性能 ,作者使用了两个机器人在6项现实任务上进行了实验。在室内场景,作者使用带有末端执行器控制的Franka Emika手臂进行实验 ,该机器人可以在厨房环境中运行来完成一些细粒度的控制任务,例如操作刀具。 对于室外场景,作者使用Hello-Robot的Stretch RE-1移动机械臂,这是一款协作机器人,设计有一组轴对齐的关节,并将吸盘作为操作头 ,其可以完成垃圾桶相关的任务,该任务极具挑战性,因为在垃圾桶内部,机器人抓握的区域非常小,下图中展示了一些具体的实验场景示例。

下表展示了对SWIM各个组件的消融实验结果,作者重点考察了以下几个方面:

(1)构建世界模型对于机器人操作代理是否必要

(2)使用人类视频数据训练世界模型是否有助于性能提升?

(3)基于人类视觉的结构化动作空间有多重要?

从表中我们可以看出,当在SWIM中使用世界模型后,机器人在各种任务中的平均成功率可以达到80%,当SWIM只针对单个任务进行训练时,其平均成功率也可以达到75%。

除此之外, SWIM框架的一大优势是它可以同时处理不同来源的数据 ,SWIM-single是仅使用单个任务训练得到的模型,从上表的最后两行我们可以看到, 使用多个任务共享训练得到的SWIM在整体性能方面有很大的提升,作者认为,这是由于SWIM可以捕获不同任务中的一些相似结构。

为了分析人类视频预训练步骤的效果,作者在上图中进行了可视化对比, 使用世界模型输出的图像特征进行图像重建,与未进行预训练的方法相比,SWIM可以使世界模型快速的了解机器人所处环境的显著特征 ,这对于精确执行任务至关重要。

四、总结

本文提出了一种新型的机器人世界模型SWIM,SWIM主要分为三个阶段:1)利用人类交互的互联网视频来预训练模型,2)使用无奖励数据对模型进行微调以适应机器人的任务设置,3)在特定任务上部署世界模型。 为了克服机器人与第一人称视角人类视频之间的形态差距,本文作者构建了一个基于以人类为中心功能可见性的结构化动作空间,这使得SWIM能够以无监督方式收集的机器人数据进行微调。 通过大量的实验证明,SWIM仅需要30分钟以内的视频数据就可以实现快速的任务泛化效果。

参考

[1] Danijar Hafner, Timothy Lillicrap, Jimmy Ba, and Mohammad Norouzi. Dream to control: Learning behaviors by latent imagination. arXiv preprint arXiv:1912.01603, 2019. 2, 3

[2] Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Sanja Fidler, Antonino Furnari, Evangelos Kazakos, Davide Moltisanti, Jonathan Munro, Toby Perrett, Will Price, and Michael Wray. Scaling egocentric vision: The epic-kitchens dataset. In ECCV, 2018. 4, 5, 6, 12, 13


作者:‍ seven_

Illustration by IconScout Store from IconScout

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
27岁准新郎,刚入了洞房,就见了阎王,凶手竟然是他的小娇妻

27岁准新郎,刚入了洞房,就见了阎王,凶手竟然是他的小娇妻

胖胖侃咖
2024-07-03 08:00:06
民警扫黄的5个特殊案例(纯科普)

民警扫黄的5个特殊案例(纯科普)

华人星光
2024-07-03 17:16:30
广东男子送外卖,妻子花一千多买裙子被骂,网友:这事我不同情她

广东男子送外卖,妻子花一千多买裙子被骂,网友:这事我不同情她

梅子的小情绪
2024-07-03 14:56:53
要求员工无偿加班20小时,不加班就淘汰,应届生一年走掉七成

要求员工无偿加班20小时,不加班就淘汰,应届生一年走掉七成

时尚的弄潮
2024-07-03 16:57:54
内娱唯一配享太庙的明星夫妻,拥有全网独一份塌房赦免权?

内娱唯一配享太庙的明星夫妻,拥有全网独一份塌房赦免权?

新氧
2024-07-01 11:31:52
2亿欧替补!菲利克斯被弃用,拉莫斯仅出场24分钟,全都怪C罗?

2亿欧替补!菲利克斯被弃用,拉莫斯仅出场24分钟,全都怪C罗?

夏侯看英超
2024-07-03 18:21:40
45岁汤唯:已分居,不离婚,独自带娃,种花种地

45岁汤唯:已分居,不离婚,独自带娃,种花种地

周冲的影像声色
2024-07-02 08:07:14
网传苏州工业园一家美资企业将搬迁越南,对员工赔偿N+3!

网传苏州工业园一家美资企业将搬迁越南,对员工赔偿N+3!

皖声微言
2024-07-03 12:53:38
徐江:老崔没战术人品差 在申花亲儿子必首发 我是领导让海滨带队

徐江:老崔没战术人品差 在申花亲儿子必首发 我是领导让海滨带队

刀锋体育
2024-07-03 12:05:46
极品身型!这上围和蛮腰,好凶!

极品身型!这上围和蛮腰,好凶!

记录平远
2024-07-04 00:56:18
宋祖儿彻底凉透了?工作室已经解散!网友可惜,直言她长得漂亮!

宋祖儿彻底凉透了?工作室已经解散!网友可惜,直言她长得漂亮!

西瓜爱娱娱
2024-06-27 10:31:06
抛弃女排?朱婷舍弃奥运备战,离开国家队,携手郎平,新身份曝光

抛弃女排?朱婷舍弃奥运备战,离开国家队,携手郎平,新身份曝光

九霄云者
2024-07-03 17:03:13
国家大基金:士兰微、长电科技、通富微电、中芯国际,含金量谁高

国家大基金:士兰微、长电科技、通富微电、中芯国际,含金量谁高

说故事的阿袭
2024-07-03 17:53:38
真的有穿越者吗?张志杰去世7天前,就有网友预言去世?

真的有穿越者吗?张志杰去世7天前,就有网友预言去世?

阿豪在成长
2024-07-03 10:02:38
不给也得给,中国的月土NASA似乎要定了,中国一分一厘都不要给

不给也得给,中国的月土NASA似乎要定了,中国一分一厘都不要给

三农老历
2024-07-03 23:35:32
“沪上皇”秦奋现身太古里,身后美女环绕 网友:快救救好兄弟吧

“沪上皇”秦奋现身太古里,身后美女环绕 网友:快救救好兄弟吧

鑫鑫说说
2024-07-03 11:22:02
米莱又对卢拉大放厥词

米莱又对卢拉大放厥词

参考消息
2024-07-02 22:00:29
江苏村民在荒郊发现一辆轿车,车内4人坐着不动,吓得他赶紧报警

江苏村民在荒郊发现一辆轿车,车内4人坐着不动,吓得他赶紧报警

华人星光
2024-07-03 17:39:01
95分钟丢绝杀,1-1!美洲杯8强诞生:巴西第2出线,PK15冠王

95分钟丢绝杀,1-1!美洲杯8强诞生:巴西第2出线,PK15冠王

足球慢镜头
2024-07-03 10:59:38
中金女员工去世年仅30岁 账号及照片被扒 颜值高保送浙大 评论区炸锅

中金女员工去世年仅30岁 账号及照片被扒 颜值高保送浙大 评论区炸锅

古装影视解说阿凶
2024-07-04 03:28:29
2024-07-04 08:22:44
将门创投
将门创投
加速及投资技术驱动型初创企业
1850文章数 585关注度
往期回顾 全部

科技要闻

三折卖“问界”撇清关系,华为这买卖值吗

头条要闻

媒体:美国智库用"柯南式推理"构陷中国刺探美情报

头条要闻

媒体:美国智库用"柯南式推理"构陷中国刺探美情报

体育要闻

欧洲杯最伟大的一次扑救,诞生了

娱乐要闻

刘亦菲唐嫣深夜晒照,美女贴贴好养眼

财经要闻

理想裁员闹笑话,蔚来裁员闹风波?

汽车要闻

巴黎4S店价格对比 同款车型中国售价打对折

态度原创

旅游
教育
亲子
家居
军事航空

旅游要闻

游客走进来 瓷、橙运出去 昌九高铁建设为江西发展注入新动力

教育要闻

一筐鸡蛋3个3个拿,5个5个拿,7个7个拿都正好拿完,最少有几个

亲子要闻

宝宝满眼都是妈妈,母子俩长得太像了!

家居要闻

温柔简约 浅色基调与明亮空间的协奏

军事要闻

美空军研发第六代战机陷入资金困境

无障碍浏览 进入关怀版