网易首页 > 网易号 > 正文 申请入驻

英伟达团队机器训练新方法!仅5次演示让机器生成1000个新demo

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

人类只需要演示五次,就能让机器人学会一项复杂技能。

英伟达实验室,提出了机器人训练数据缺乏问题的新解决方案——DexMimicGen

五次演示之后,DexMimicGen就可以直接模仿出1000个新的demo。



而且可用性强,用这些新demo训练出的机器人,在仿真环境中的任务成功率可以高达97%,比用真人数据效果还要好。



参与此项目的英伟达科学家范麟熙(Jim Fan)认为,这种用机器训练机器的方式,解决了机器人领域最大的痛点(指数据收集)。

同时,Jim Fan还预言:

机器人数据的未来是生成式的,整个机器人学习流程的未来也将是生成式的。



值得一提的是,DexMimicGen三名共同一作都是李飞飞的“徒孙”,具体说是德克萨斯大学奥斯汀分校(UT奥斯汀)助理教授朱玉可(Yuke Zhu)的学生。

而且三人均为华人,目前都在英伟达研究院实习。



5次演示,生成1000条数据

如前所述,DexMimicGen可以仅根据人类的5次演示,生成1000个新DEMO。

在整个实验中,作者设置了9个场景,涵盖了3种机器人形态,共进行了60次演示,获得了21000多个生成DEMO。

在仿真环境当中,用DexMimicGen生成数据训练出的策略执行整理抽屉这一任务,成功率可达76%,而单纯使用人工数据只有0.7%。



对于积木组装任务,成功率也从3.3%提升到了80.7%。



成功率最高的任务是罐子分类,更是高达97.3%,只用人工数据的成功率同样只有0.7%。



整体来看,在仿真环境中,生成数据让机器人在作者设计的九类任务上的成功率均明显增加。



相比于baseline方法,用DexMimicGen生成的数据也更为有效。



迁移到真实环境之后,作者测试了易拉罐分拣的任务,结果仅用了40个生成DEMO,成功率就达到了90%,而不使用生成数据时的成功率为零。



除此之外,DexMimicGen还展现了跨任务的泛化能力,使训练出的策略在各种不同任务上表现良好。

针对初始状态分布变化,DexMimicGen也体现出了较强的鲁棒性,在更广泛的初始状态分布D1和D2上测试时,仍然能够拥有一定的成功率。



将仿真方法迁移到现实

DexMimicGen是由MimicGen改造而成,MimicGen也出自英伟达和UT奥斯汀的联合团队。

朱玉可和范麟熙都参与过MimicGen的工作,该成果发表于CoRL 2023。

MimicGen的核心思想,是将人类示范数据分割成以目标物体为中心的片段,然后通过变换物体相对位置和姿态,在新环境中复现人类示范轨迹,从而实现自动化数据生成

DexMimicGen则在MimicGen系统的基础上,针对双臂机器人灵巧操作任务做了改进和扩展,具体包括几个方面:

  • 引入并行、协调、顺序三种子任务类型,以适应双臂灵巧操作任务的需求;
  • 对应三种子任务类型,设计了异步执行、同步执行和顺序约束等机制,以实现双臂的独立动作、精密协同和特定顺序操作;
  • 实现了“现实-模拟-现实”的框架,通过构建数字孪生,将DexMimicGen拓展到了实际机器人系统的应用。



工作流程上,DexMimicGen会首先对人类示范进行采集和分割。

研究人员通过佩戴XR头显,远程控制机器人完成目标任务,在这一过程中就会产生一小批示范数据,作者针对每个任务采集了5~10个人类示范样本。

这些人类示范样本会按照并行、协调、顺序三种子任务定义被切分成片段——

  • 并行子任务允许两臂独立执行;
  • 协调子任务要求两臂在关键时刻同步动作;
  • 顺序子任务则规定了某些子任务必须在另一些子任务完成后才能执行。

总之,在示范数据被切分后,机器人的每个手臂会得到自己对应的片段集合。



在数据生成开始时,DexMimicGen随机化模拟环境中物体的位置、姿态等数据,并随机选择一个人类示范作为参考。

对于当前子任务,DexMimicGen会计算示范片段与当前环境中关键物体位置和姿态的变换。

之后用该变换对参考片段中的机器人动作轨迹进行处理,以使执行这一变换后的轨迹能够与新环境中物体位置匹配。

生成变换后,DexMimicGen会维护每个手臂的动作队列,手指关节的运动则直接重放示范数据中的动作。

在整个过程中,系统不断检查任务是否成功完成,如果一次执行成功完成了任务,则将执行过程记录下来作为有效的演示数据,失败则将数据丢弃。

之后就是将生成过程不断迭代,直到获得足够量的演示数据。

收集好数据后,作者用DexMimicGen生成的演示数据训练模仿学习策略,策略的输入为RGB相机图像,输出为机器人动作。

最后是模拟到现实的迁移,同样地,作者使用DexMimicGen在数字孪生环境中生成的大规模演示数据,训练模仿学习策略。

之后作者对在数字孪生环境中评估训练得到的策略进行调优,以提高其泛化性能和鲁棒性,并迁移到实际机器人系统中。



作者简介

DexMimicGen的共同一作有三人,都是UT奥斯汀的华人学生。

并且三人均出自李飞飞的学生、浙大校友朱玉可(Yuke Zhu)助理教授门下,他们分别是:

  • 博士生Zhenyu Jiang,本科就读于清华,2020年进入UT奥斯汀,预计将于明年毕业;
  • 硕士生Yuqi Xie(谢雨齐),本科是上海交大和美国密歇根大学联培,预计毕业时间也是明年;
  • 博士生Kevin Lin,本科和硕士分别就读于UC伯克利和斯坦福,今年加入朱玉可课题组读博。

朱玉可的另一重身份是英伟达的研究科学家,团队的另外两名负责人也都在英伟达。

他们分别是Ajay Mandlekar和范麟熙(Jim Fan),也都是李飞飞的学生,Mandlekar是整个DexMimicGen项目组中唯一的非华人。

另外,Zhenjia Xu和Weikang Wan两名华人学者对此项目亦有贡献,整个团队的分工如下:


△中文为机翻,仅供参考

项目主页:
https://dexmimicgen.github.io/
论文地址:
https://arxiv.org/abs/2410.24185
参考链接:
[1]https://x.com/SteveTod1998/status/1852365700372832707
[2]https://x.com/DrJimFan/status/1852383627738239324

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
74岁谭咏麟大病初愈面颊凹陷,生病月余一脸倦容,婚姻有愧糟糠妻

74岁谭咏麟大病初愈面颊凹陷,生病月余一脸倦容,婚姻有愧糟糠妻

章鱼哥娱乐
2025-01-02 14:34:46
399元!雷军又对对讲机动手了?简直是小米SU7/YU7绝配,户外人狂喜!

399元!雷军又对对讲机动手了?简直是小米SU7/YU7绝配,户外人狂喜!

泡泡网
2025-01-03 12:56:31
如何让海参崴和平回归?向俄国租借99年,治权归我

如何让海参崴和平回归?向俄国租借99年,治权归我

米君文史
2025-01-04 23:05:33
美国萨德参战,以军多线开打,中方算了笔账,要求以色列做8件事

美国萨德参战,以军多线开打,中方算了笔账,要求以色列做8件事

风云启示录
2025-01-05 09:50:12
女孩被顺风车司机丢下高速边,平台回应司机封禁,评论区沦陷

女孩被顺风车司机丢下高速边,平台回应司机封禁,评论区沦陷

椰青美食分享
2025-01-04 22:36:07
曝男足球员与多位女性发生关系,女方怀孕后玩失踪,聊天记录曝光

曝男足球员与多位女性发生关系,女方怀孕后玩失踪,聊天记录曝光

南城无双
2025-01-03 15:12:21
湖南21岁女孩因长得漂亮,怀疑农村父母是人贩子,坚持要找富豪父母,结果出来后全家沉默了

湖南21岁女孩因长得漂亮,怀疑农村父母是人贩子,坚持要找富豪父母,结果出来后全家沉默了

财经三分钟pro
2024-12-18 17:32:25
正在热播的五部电视剧,《真心英雄》排在倒数,你在追哪一部?

正在热播的五部电视剧,《真心英雄》排在倒数,你在追哪一部?

圆头讲电影
2025-01-05 07:00:02
78年我提干后回家探亲,未及时告诉未婚妻,她第二天就提出退婚

78年我提干后回家探亲,未及时告诉未婚妻,她第二天就提出退婚

农村情感故事
2024-12-19 07:17:29
听不进中方的劝告,伊朗终于出手了,针对的却不是以色列?

听不进中方的劝告,伊朗终于出手了,针对的却不是以色列?

空天力量
2025-01-03 19:09:12
上海房价跌太狠了!朋友扛不住了、说想跳楼…

上海房价跌太狠了!朋友扛不住了、说想跳楼…

说故事的阿袭
2025-01-04 22:52:44
开塞露只能通便  你大错特错  六大妙用用起来

开塞露只能通便 你大错特错 六大妙用用起来

苏素的生活
2025-01-03 08:16:06
挤掉“水分”,中国汽车2024年度销量排名其实是这样的

挤掉“水分”,中国汽车2024年度销量排名其实是这样的

水滴汽车App
2025-01-02 20:09:27
30亿增持自家股票,这20个公司才是真正值得长期投资的良心股!

30亿增持自家股票,这20个公司才是真正值得长期投资的良心股!

小波股事历程
2024-12-30 00:58:02
美国为证实时间是否存在,将女子关地下210天,出来后她一开口…

美国为证实时间是否存在,将女子关地下210天,出来后她一开口…

华人星光
2025-01-02 11:00:45
战斗凌晨打响 高超音速导弹参战立大功 战略要地突遭打击不服不行

战斗凌晨打响 高超音速导弹参战立大功 战略要地突遭打击不服不行

聚峰军评
2025-01-04 09:52:32
老爸评测手撕霸王茶姬后续!霸王茶姬法务下场,测评视频被下架

老爸评测手撕霸王茶姬后续!霸王茶姬法务下场,测评视频被下架

肖兹探秘说
2024-12-31 21:42:53
博主:国安二少可能离队,梁少文去陕西联合&阮奇龙去重庆铜梁龙

博主:国安二少可能离队,梁少文去陕西联合&阮奇龙去重庆铜梁龙

直播吧
2025-01-05 11:06:23
中美2∶1!中国继续加码黄岩岛,看懵的菲律宾高层不敢开腔了

中美2∶1!中国继续加码黄岩岛,看懵的菲律宾高层不敢开腔了

老白观天下
2025-01-04 13:45:37
过午不食又有新证据!北京协和:晚饭早于这个时间,抗衰又抗炎

过午不食又有新证据!北京协和:晚饭早于这个时间,抗衰又抗炎

奇妙的本草
2025-01-04 18:00:02
2025-01-05 11:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
9871文章数 175830关注度
往期回顾 全部

科技要闻

中国政府拟限制磷酸铁锂技术出口

头条要闻

牛弹琴:美日吵起来 日方警告拜登"谁还敢来投资美国"

头条要闻

牛弹琴:美日吵起来 日方警告拜登"谁还敢来投资美国"

体育要闻

曼城4-1西汉姆迎英超2连胜 哈兰德双响

娱乐要闻

李明德马天宇的瓜超全整理全在这里了

财经要闻

商汤重组后海外收缩 正缩减新加坡办公室

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

手机
亲子
艺术
游戏
军事航空

手机要闻

科技昨夜今晨0105:iPhone 16 系列成苹果降价最快机型

亲子要闻

孩子远视储备不够怎么办?5P正视医学科技馆落户上海,近视前期防控有妙招

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

明日方舟终末地的新建模技术力拉满,但玩家关心的只有脚

军事要闻

以军袭击加沙地带已致至少66人死亡

无障碍浏览 进入关怀版