网易首页 > 网易号 > 正文 申请入驻

NeurIPS | 机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%

0
分享至



AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

对于人类而言,一旦掌握了 “打开瓶盖” 的动作,面对 “拧紧螺丝” 这样的任务通常也能游刃有余,因为这两者依赖于相似的手部动作。然而,对于机器人来说,即使是这样看似简单的任务转换依然充满挑战。例如,换成另一种类型的瓶盖,机器人可能无法成功打开。这表明,目前的机器人方法尚未充分让模型学习到任务的内在执行逻辑,而只是单纯的依赖于数据拟合。

针对该问题,来自中山大学和华为诺亚等单位的研究团队提出了一种全新的原语驱动的路径点感知世界模型,借助 VLMs 作为机器人的大脑,理解任务之间的动作关联性,并通过 “世界模型” 获取对未来动作的表征,从而更好地帮助机器人学习和决策。该方法显著提升了机器人的学习能力,并保持良好的泛化性。



  • 论文地址:https://arxiv.org/abs/2410.10394
  • 项目主页:https://abliao.github.io/PIVOT-R/

研究动机



当前,现有机器人操作任务有两个关键问题:

  1. 机器人模型在开放世界中表现差且不稳定:许多机器人操作模型虽然能够处理复杂任务,但往往直接将用户指令和视觉感知映射到低层次的可执行动作上,而忽略了操作任务中关键状态(路径点)的建模。这种方式容易使模型记住表面数据模式,导致模型在开放环境中表现脆弱。模型缺乏对关键路径点的预测,使得每个动作的随机性可能逐步放大,降低了任务的执行成功率。
  2. 计算效率低:随着模型的增大(例如 RT-2, RT-H),运行速率随之降低,无法满足机器人任务实时性的需求。

为了解决上述问题,研究团队提出了 PIVOT-R,一种原语驱动的路径点感知世界模型。如上图所示,对比左图现有的方法,右图展示了 PIVOT-R 通过关注与任务相关的路径点预测,提升机器人操作的准确性,并设计了一个异步分层执行器,降低计算冗余,提升模型的执行效率。

这样做有几个好处:

  1. 它使得模型可以更好的学习任务与动作之间的内在关联性,减少其他干扰因素的影响,并更好地捕捉不同任务之间的相似性(例如,拧瓶盖和拧螺丝的动作是相似的,拿杯子和搭积木都有一个抓住物体的过程),从而使得模型可以在多任务数据下学习到可迁移的知识。
  2. 通过世界模型建模的方式获得对未来关键动作的表征,避免了文本语言带来的模糊性、不确定性。
  3. 通过异步执行的方式,确保各模块独立运行、互不阻塞,从而有效避免了大模型导致的低速率问题。

研究方法



原语动作解析

PIVOT-R 的第一个核心步骤是原语动作解析,这一步通过预训练的视觉 - 语言模型(VLM)来解析用户的语言指令。VLM 可以将复杂的自然语言指令转换为一组简单的原语动作,例如 “靠近”、“抓取”、“移动” 等。这些原语动作为机器人提供了操作任务的粗略路径。

具体流程如下:

  1. 用户输入的语言指令(例如 “请给我那个杯子”)首先被输入到 VLM 中,VLM 会将其解析为与任务相关的原语动作(如 “靠近杯子”、“抓取杯子”)。
  2. 原语动作作为提示,指导机器人在接下来的步骤中专注于特定的操作轨迹点。这种方式确保机器人不会被复杂的环境因素干扰,而是明确知道每个动作的目的。

路径点预测

在原语动作解析后,PIVOT-R 的下一步是路径点预测。路径点代表了机器人操控过程中一些关键的中间状态,例如靠近物体、抓取物体、移动物体等。通过预测路径点,PIVOT-R 能够在机器人执行任务时提供明确的操作指导。具体来说,通过一个 Transformer 架构的模型,预测路径点对应的视觉特征,为后续的动作预测模块提供指引。

动作预测模块

动作预测模块负责根据预测的路径点生成具体的低层次机器人动作。它以路径点为提示,结合机器人历史状态(如位置、姿态等),计算下一步应该执行的动作。该模块使用轻量级的 Transformer 架构进行动作预测,确保计算效率和性能的平衡。这一模块的设计重点在于低延迟和高精度执行操控任务。

异步分层执行器

此外,PIVOT-R 还引入了一个关键的执行机制,即异步分层执行器。与以往的机器人模型不同,PIVOT-R 并不对所有模块在每一步都进行同步更新,而是为不同模块设置了不同的执行频率,以多线程的方式进行异步更新,从而提升执行速度。

实验

作者在具有复杂指令的 SeaWave 仿真环境和真实环境下进行实验。





如 Table 1 和 Table 2 所示,PIVOT-R 在仿真环境和真实环境都取得了最优的效果,同时,模型的速度和 RT-1 等方法速度相近,没有因为使用大模型而导致速度变慢。



作者也在 SeaWave 上做了泛化性测试,在三种泛化性测试场景下,PIVOT-R 仍保持远高于其他模型的成功率。

研究总结

PIVOT-R 通过引入原语动作驱动的路径点感知,显著提升了机器人在复杂操控任务中的性能。该模型不仅在执行效率上具备优势,还能够更好地应对复杂、多变的环境。该方法在仿真环境和真实环境操纵下表现优异,为机器人学习提供了一个新范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大妈一语惊人:传宗接代?普通家庭传什么!年轻人:贫穷焦虑压力

大妈一语惊人:传宗接代?普通家庭传什么!年轻人:贫穷焦虑压力

雪妈看世界
2024-10-31 13:15:33
杰伦-格林开赛三分破火箭纪录!末节再次力挽狂澜

杰伦-格林开赛三分破火箭纪录!末节再次力挽狂澜

OnFire
2024-11-01 12:35:03
年销2000万店铺倒在双十一,疑似淘宝店铺掀起关店潮

年销2000万店铺倒在双十一,疑似淘宝店铺掀起关店潮

司库财经
2024-10-30 23:45:16
美民调:哈里斯以1%微弱优势领先特朗普 特朗普净资产蒸发逾10亿美元 旗下公司股价由涨转跌 美国已有超6400万选民就总统大选进行提前投票

美民调:哈里斯以1%微弱优势领先特朗普 特朗普净资产蒸发逾10亿美元 旗下公司股价由涨转跌 美国已有超6400万选民就总统大选进行提前投票

每日经济新闻
2024-11-01 11:14:33
男保姆照顾52岁阿姨,4个月后阿姨身体不适,女儿发现真相后愣住

男保姆照顾52岁阿姨,4个月后阿姨身体不适,女儿发现真相后愣住

红豆讲堂
2024-10-21 15:16:52
“整张简历只有照片能看”,02年女生皮包简历火了,文字不能细看

“整张简历只有照片能看”,02年女生皮包简历火了,文字不能细看

熙熙说教
2024-10-30 18:17:59
谷歌把普京全族给灭了吗?俄政府对谷歌罚款远超全球GDP总和

谷歌把普京全族给灭了吗?俄政府对谷歌罚款远超全球GDP总和

橘色数码
2024-10-31 19:22:11
重磅!房贷加点幅度能变,不再统一调整!重定价周期调整刚刚开放...

重磅!房贷加点幅度能变,不再统一调整!重定价周期调整刚刚开放...

南京买房惠
2024-11-01 10:55:30
七个摇摆州全部翻红,特朗普亮出底牌,美国大选几乎“无悬念”了

七个摇摆州全部翻红,特朗普亮出底牌,美国大选几乎“无悬念”了

影孖看世界
2024-10-30 22:24:40
58岁温碧霞走秀强行装嫩,披头散发皱纹明显,网友:太吓人!

58岁温碧霞走秀强行装嫩,披头散发皱纹明显,网友:太吓人!

南城无双
2024-10-31 11:33:34
真敢说!知名媒体人直言姚明辞职原因 没放下姿态处关系

真敢说!知名媒体人直言姚明辞职原因 没放下姿态处关系

胖子喷球
2024-10-31 09:03:32
为什么我不欣赏极氪MIX:工程上的巨人,实用上的矮子

为什么我不欣赏极氪MIX:工程上的巨人,实用上的矮子

驾仕派
2024-10-30 12:49:16
特斯拉model Y Plaid实车照曝光 采用贯穿式尾灯组

特斯拉model Y Plaid实车照曝光 采用贯穿式尾灯组

PConline太平洋科技
2024-10-31 20:08:08
为什么有的央企设立党组而有的是党委?

为什么有的央企设立党组而有的是党委?

环球通信
2024-11-01 10:27:58
当不成总统了?美最新民调出来了,拜登:快把特朗普“关进大牢”

当不成总统了?美最新民调出来了,拜登:快把特朗普“关进大牢”

阿离家居
2024-10-31 10:51:14
皮相相似,但骨相差了一大截,这两位男星共用一张脸,却天差地别

皮相相似,但骨相差了一大截,这两位男星共用一张脸,却天差地别

八卦南风
2024-10-31 16:14:25
90后程序员炒股:7天亏48万,依然乐观相信A股

90后程序员炒股:7天亏48万,依然乐观相信A股

壹号股权
2024-10-30 11:22:59
汪小菲下狠手,2个举动让大S面临破产,试图1.2亿“卖掉”俩孩子

汪小菲下狠手,2个举动让大S面临破产,试图1.2亿“卖掉”俩孩子

娱乐的小灶
2024-10-31 13:07:33
又一个吴艳妮?郑钦文穿瑜伽裤被网友怒喷,指责穿衣不检点

又一个吴艳妮?郑钦文穿瑜伽裤被网友怒喷,指责穿衣不检点

老雷的体育频道
2024-10-30 23:19:46
台湾一位退役将军竟然宣称,解放军要是真的打进来,根本不用害怕

台湾一位退役将军竟然宣称,解放军要是真的打进来,根本不用害怕

星辰故事屋
2024-10-23 20:55:06
2024-11-01 13:24:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9637文章数 142051关注度
往期回顾 全部

科技要闻

苹果Q4营收949亿美元 中国成唯一下滑市场

头条要闻

几十名登山者擅闯别墅泳池洗鞋 屋主:经济损失近万元

头条要闻

几十名登山者擅闯别墅泳池洗鞋 屋主:经济损失近万元

体育要闻

中国篮球,告别姚明时代

娱乐要闻

郭敬明新剧这是在干什么?

财经要闻

房贷利率最快3个月就能调一次了

汽车要闻

腾势Z9 内饰官图首发 怀档设计/广州车展亮相

态度原创

艺术
亲子
健康
数码
手机

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

小朋友放学想吃糖妈妈没同意,最后没说话看了妈妈一路

花18万治疗阿尔茨海默病,值不值?

数码要闻

分析师认为下一代MacBook Pro还会有两大吸引人的变化

手机要闻

三星 Galaxy S23/S24 系列手机的 One UI 7 论坛页面曝光

无障碍浏览 进入关怀版