网易首页 > 网易号 > 正文 申请入驻

通过 NVIDIA Project GR00T 推进人形机器人视觉和功能开发

0
分享至



人形机器人是机电一体化、控制理论和 AI 交叉领域的一道综合性难题。人形机器人的动力学和控制十分复杂,它们需要先进的工具、技术和算法才能在移动和操作任务中保持平衡。由于人形机器人需要融合复杂的传感器和高分辨率摄像头,才能有效感知环境并推理如何与周围环境进行实时互动,因此另一大难题是机器人数据的采集和各种传感器的集成。此外,为了满足实时处理感知数据和决策所需要的算力,还需要有功能强大的机载计算机。

当前的研究重点仍是开发能够实现机器人自适应行为并促进人与机器人自然交互的技术、工具与机器人基础模型。我们正在积极开展NVIDIA Project GR00T研究计划,旨在帮助人形机器人生态系统构建者加快下一代先进机器人的开发工作。本文将讨论用于开发人形机器人的全新 GR00T 工作流,包括:

  • GR00T-Gen 多样化环境生成工作流
  • GR00T-Mimic 机器人运动和轨迹生成工作流
  • GR00T-Dexterity 精细灵巧操作工作流
  • GR00T-Mobility 移动和导航工作流
  • GR00T-Control 全身控制(WBC)工作流
  • GR00T-Perception 多模态感知工作流

GR00T-Gen 多样化环境

生成工作流

GR00T-Gen是一套在 OpenUSD 中生成机器人任务和仿真就绪环境的工作流,用于训练通用机器人执行操纵、移动和导航。

为了让机器人学习得更“扎实”,需要在具有各种物体和场景的多样化环境中进行训练。但通常情况下,在现实世界中生成大量不同环境既昂贵又耗时,而且大多数开发者还无法使用,因此仿真成为了一个极佳的替代方案。

GR00T-Gen 使用大语言模型(LLM)和 3D 生成式 AI 模型创建并提供以人为本的逼真、多样化环境。它拥有 2500 多个 3D 资产,涵盖了 150 多个物体类别。为了创建视觉多样化场景,在仿真中加入了多种纹理以实现域随机化。域随机化使训练而成的模型和策略在部署到现实世界中时能够有效地泛化。

GR00T-Gen 为移动机械臂和人形机器人提供了跨具身支持并且包含了 100 多种任务,例如开门、按键和导航。

GR00T-Mimic 机器人运动

和轨迹生成工作流

GR00T-Mimic是一个强大的工作流,它可从远程操作演示中生成用于模仿学习的运动数据。模仿学习是一种训练机器人的方法,机器人通过观察和复制教师演示的动作来掌握技能。该训练过程的一个关键要素是可用演示数据的数量和质量。

人形机器人要想有效、安全地在以人为中心的环境中移动,其“老师”必须是人类示范者,这样才能让机器人通过模仿人类行为来学习。但现有的高质量训练数据十分匮乏,这就带来了巨大的挑战。

为了解决这个问题,需要开发能够捕捉人类行为的大量数据集。生成这种数据的可行方法之一是远程操作,即人类操作员远程控制机器人演示特定任务。虽然远程操作可以生成高保真的演示数据,但在特定时间能够访问这些系统的人数有限。

GR00T-Mimic 旨在扩大数据采集流程的规模。该方法包括在物理世界中使用扩展现实(XR)和空间计算设备(如 Apple Vision Pro)采集数量有限的人类演示。然后利用这些初始演示生成合成运动数据,从而有效地扩大演示数据集。我们的目标是创建一个全面的人类动作库供机器人学习,从而提高它们在真实世界环境中执行任务的能力。

为了进一步支持 GR00T-Mimic,NVIDIA Research 还发布了 SkillMimicGen。这是利用最少的人类演示解决实机操纵任务的第一步。

GR00T-Dexterity 精细灵巧

操作工作流

GR00T-Dexterity是一套用于精细灵巧操作的模型和策略并包含开发这些模型和策略的参考工作流。

传统的机器人抓取需要集成从识别抓取点到规划运动和控制手指等多个复杂环节。对于有许多执行器的机器人来说,管理这些系统(尤其是使用状态机来处理抓取失败等故障)使端到端抓取成为了一大难题。

GR00T-Dexterity 引入了一个借鉴研究论文 DextrAH-G 的工作流。该工作流是一种基于强化学习(RL)的机器人灵巧性策略开发方法。借助它,可以创建出像素到动作的端到端抓取系统。该系统经过仿真训练后,可部署到物理机器人上。该工作流专为生成能够根据输入的深度数据流进行快速、反应性抓取的策略而设计,并且可以泛化到新物体。

该流程涉及创建一个几何织物定义机器人的运动空间和简化抓取动作,同时针对并行化训练进行优化。通过使用NVIDIA Isaac Lab,可在多颗 GPU 上使用强化学习训练织物引导的策略,从而泛化抓取行为。最后,通过模仿学习,可利用输入的深度将学习到的策略提炼为适用于现实世界的版本,从而在数小时内制定出稳健的策略。

视频 1. 使用 NVIDIA Isaac Lab 进行仿真训练

视频 2. 在没有几何织物的情况下

训练抓取任务时的机器人不稳定运动

视频 3. 使用 GR00T-Dexterity 工作流

在物理机械臂上进行垃圾箱包装演示:

在将策略转移到现实世界时避免硬件损坏

请注意,GR00T-Dexterity 工作流预览版基于研究论文 DextrAH-G:使用几何织物实现像素到动作的灵巧机械臂-手抓取,并已从NVIDIA Isaac Gym(已废弃)迁移到 Isaac Lab。如果您是 Isaac Gym 用户,请按照教程和迁移指南开始使用 Isaac Lab。

GR00T-Mobility 移动和

导航工作流

GR00T-Mobility是一套用于移动和导航的模型和策略并包含开发这些模型和策略的参考工作流。

传统的导航方法在杂乱环境中难以发挥作用并且需要进行大量的调整,而基于学习的方法难以泛化到新的环境。

GR00T-Mobility 引入了一套基于 Isaac Lab 支持的强化学习(RL)和模仿学习(IL)构建的新型工作流,专门用于创建适用于不同环境和具身的通用移动导航方法。

借助使用NVIDIA Isaac Sim构建的世界模型,该工作流可生成丰富的环境动态潜在表示,以此实现了更具适应性的训练。它将世界建模与行动策略学习和RL微调分离,从而提高了灵活性,并且由于支持多样化的数据源而具有更高的通用性。

仅在 Isaac Sim 提供的逼真合成数据集上(使用该工作流)训练而成的模型实现了零样本仿真到现实转换,并且可应用于一系列具身,包括差动驱动、Ackermann、四足动物和人形等。

该工作流以 NVIDIA 应用研究团队在 X-MOBILITY:通过世界建模实现端到端可泛化导航中展示的研究成果为基础。



图 1. 通过使用 Isaac Sim 通过的合成数据集,

GR00T-Mobility 工作流将世界建模和行动策略训练相结合,

实现了可泛化的导航与零样本仿真到现实转换。

视频 4. 在仿真机器人上测试 GR00T-Mobility 时,

机器人成功地通过杂乱的环境,同时避开了障碍物

视频 5. 在真实机器人上测试 GR00T-Mobility 时,

机器人成功地通过实验室环境,同时避开了箱子和障碍物

视频 6. 人形机器人、四足机器人和叉车机器人

成功地通过 Isaac Sim 的仿真仓库环境

GR00T-Control 全身控制工作流

GR00T-Control是一套用于开发 WBC 的先进运动规划和控制程序库、模型、策略与参考工作流。参考工作流可运用于各种平台、预训练模型和加速程序库。

WBC 对于实现精确、灵敏的人形机器人控制必不可少,尤其是在需要灵巧和移动的任务中。GR00T-Control 引入了一种基于学习的传统模型预测控制(MPC)替代方案,其工作流与 NVIDIA 应用研究团队开发的 Isaac Lab 相集成。这项工作基于 OmniH2O:通用和灵巧人类到人形机器人全身远程操作与学习中展示的原创研究成果以及最新发布的 HOVER:人形机器人多功能中性全身控制器。

该参考工作流可帮助开发用于远程操作和自主控制的人形机器人全身控制策略(WBC 策略)。OmniH2O 的远程操作通过 VR 头显、RGB 摄像头、口头命令等输入方法实现了高精度的人类控制。同时,HOVER 的多模态策略提炼框架促进了自主任务模式之间的无缝转换,使其能够适应复杂的任务。

WBC 策略工作流采用仿真到真实学习流程。该流程首先使用 Isaac Lab 作为 能够访问详细运动数据的“教师”模型,通过强化学习在仿真中训练特权控制策略。之后将该模型提炼成可部署的现实世界版本,该版本能够在感官输入有限的情况下运行,解决远程操作延迟、VR 或视觉追踪输入受限(针对 OmniH2O)以及多种自主任务模式的适应性(针对 HOVER)等难题。

(使用 OmniH2O 工作流开发的)全身控制策略提供了 19 个自由度,实现了精确的人形机器人控制。

视频 7. 在 NVIDIA Isaac Lab 中训练的

基于 GR00T 控制工作流的策略。

红框为数据集中的参考机器人身体位置,

该机器人正在追踪参考运动

视频 8. 在 Isaac Lab 中同时训练数千个人形机器人

GR00T-Control 提供的工具帮助机器人专家进一步探索基于学习的人形机器人 WBC。

GR00T-Perception 多模态

感知工作流

GR00T-Perception是一套先进的感知程序库(例如 nvblox 和 cuVSLAM)、基础模型(例如 FoundationPose 和 RT-DETR)以及基于 Isaac Sim 和 NVIDIA Isaac ROS 构建的参考工作流。这些参考工作流展示了如何在机器人解决方案中结合使用这些平台、预训练模型和加速程序库。

ReMEmbR 是 GR00T-Perception 新增的一项重要功能,是一项应用研究参考工作流。该工作流通过让机器人“记住”长期事件历史增强人机交互,大大改善了个性化和情境感知响应,同时通过集成视觉语言模型、LLM和检索增强记忆大幅提升人形机器人的感知、认知和适应能力。

借助 ReMEmbR,机器人能够长期保留上下文信息,通过整合图像、声音等感官数据提高空间感知、导航和交互效率。该工作流遵循结构化的记忆构建和查询流程,可部署在真实机器人上的NVIDIA Jetson AGX Orin上。

想要了解有关 ReMEmbR 的更多信息,请参阅使用生成式 AI 使机器人借助 ReMEmbR 进行推理和行动:

https://developer.nvidia.com/blog/using-generative-ai-to-enable-robots-to-reason-and-act-with-remembr/


图 2. ReMEmbR 高级工作流包含两个阶段, 分别是记忆构建阶段和信息查询阶段。

视频 9. 了解如何使用生成式 AI 使机器人

借助 ReMEmbR 进行推理和行动

结论

通过 NVIDIA Project GR00T,我们正在构建能够根据人形机器人开发者需求单独或组合使用的先进技术、工具与 GR00T 工作流。这些改进有助于开发智能化水平更高、适应性和能力更强的人形机器人,推动人形机器人在现实世界应用中的发展。

进一步了解领先机器人公司如何使用 NVIDIA 平台,包括 1X、Agility Robotics、The AI Institute、Berkeley Humanoid、波士顿动力、Field AI、傅利叶、银河通用、Mentee Robotics、Skild AI、Swiss-Mile、宇树科技和小鹏机器人。

了解更多 NVIDIA 在 CoRL 2024 上的信息,包括与机器人学习相关的 21 篇论文和 9 个研讨会以及为开发者发布的训练和工作流指南:

https://www.nvidia.cn/events/corl/#papers

开始使用

开始使用 Isaac Lab:

https://isaac-sim.github.io/IsaacLab/main/index.html

  • 根据新的开发者入门指南和教程从 Isaac Gym 迁移至 Isaac Lab:
  • https://isaac-sim.github.io/IsaacLab/main/source/migration/migrating_from_isaacgymenvs.html

  • 查看 Isaac Lab 参考架构,了解使用 Isaac Lab 和 Isaac Sim 的端到端机器人学习过程:
  • https://isaac-sim.github.io/IsaacLab/main/source/refs/reference_architecture/index.html

如果您是一家正在为人形机器人生态系统构建软件或硬件的人形机器人公司,可申请加入 NVIDIA 人形机器人开发者计划:

https://developer.nvidia.com/humanoid-robot-program

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
传“江西年度最恐怖彩礼返还”,女方泡夜店搂人跳舞,判决19万彩礼退6万5

传“江西年度最恐怖彩礼返还”,女方泡夜店搂人跳舞,判决19万彩礼退6万5

小星球探索
2024-11-29 13:35:25
上海一女子在中医诊所治疗遭医生侵犯?“没注意到医生脱裤子行为,来不及防备”

上海一女子在中医诊所治疗遭医生侵犯?“没注意到医生脱裤子行为,来不及防备”

鲁中晨报
2024-11-29 08:12:12
2025春晚进入倒计时,主题已官宣,赵本山、宋丹丹回归呼声高

2025春晚进入倒计时,主题已官宣,赵本山、宋丹丹回归呼声高

追风小狗
2024-11-29 16:20:24
吴柳芳被指擦边后续,体育总局介入!管晨辰:她是惯犯,被封多次

吴柳芳被指擦边后续,体育总局介入!管晨辰:她是惯犯,被封多次

娱官儿
2024-11-29 13:14:03
继卫生巾之后,粑粑柑也塌房了!网友:难道今年我就非死不可吗?

继卫生巾之后,粑粑柑也塌房了!网友:难道今年我就非死不可吗?

王大健美食日常
2024-11-29 18:17:24
英特尔、HPE与博世携手引领“未来工厂”之路

英特尔、HPE与博世携手引领“未来工厂”之路

至顶头条
2024-11-29 16:00:18
卢布崩了,大俄疯了!俄央行紧急声明:暂停俄罗斯国内的外汇购买

卢布崩了,大俄疯了!俄央行紧急声明:暂停俄罗斯国内的外汇购买

派大星纪录片
2024-11-29 17:00:33
美媒打趣长相:现在真是谁都能打NBA了 这人TM谁啊?

美媒打趣长相:现在真是谁都能打NBA了 这人TM谁啊?

直播吧
2024-11-29 14:06:19
哈马斯绑架中国人?央视驻联合国记者摆实证辟谣,遭水军疯狂攻击

哈马斯绑架中国人?央视驻联合国记者摆实证辟谣,遭水军疯狂攻击

老郭在学习
2024-11-29 12:31:52
警告:不要使用手机拍摄重要文件和证件

警告:不要使用手机拍摄重要文件和证件

张栋伟实战大学生创业
2024-11-28 15:30:27
疫苗研发需要8到10年,新冠疫苗98天上市,杨晓明落马能不发抖吗

疫苗研发需要8到10年,新冠疫苗98天上市,杨晓明落马能不发抖吗

苏南流
2024-11-29 14:08:19
欧洲人口坍塌2100年1.17亿人口将消失,政府激励措施已是徒劳

欧洲人口坍塌2100年1.17亿人口将消失,政府激励措施已是徒劳

风向观察
2024-11-29 16:50:44
上海不少司机困惑:右转信号灯为何不亮绿灯?有人在路口傻等…官方解释→

上海不少司机困惑:右转信号灯为何不亮绿灯?有人在路口傻等…官方解释→

上观新闻
2024-11-29 17:52:32
23.59万元起?小米SUV起售价曝光,明年3月上市,外观神似法拉利

23.59万元起?小米SUV起售价曝光,明年3月上市,外观神似法拉利

泡泡网
2024-11-29 14:59:20
女子将两斤泥鳅倒进下水道疏通管道 有点效果 泥鳅们还在努力

女子将两斤泥鳅倒进下水道疏通管道 有点效果 泥鳅们还在努力

闪电新闻
2024-11-21 11:59:18
优衣库事件。

优衣库事件。

贴小君
2024-11-29 10:51:45
娃哈哈进军矿泉水

娃哈哈进军矿泉水

界面新闻
2024-11-29 16:58:37
柳叶刀子刊:高福院士团队发布中国最大规模“新冠后遗症”调查报告

柳叶刀子刊:高福院士团队发布中国最大规模“新冠后遗症”调查报告

生物世界
2024-11-29 11:59:18
叙利亚也开始崩盘俄罗斯全球战局被彻底终结

叙利亚也开始崩盘俄罗斯全球战局被彻底终结

海子侃生活
2024-11-29 17:00:37
广东省民政厅原党组副书记、厅长卓志强被开除党籍

广东省民政厅原党组副书记、厅长卓志强被开除党籍

环球网资讯
2024-11-29 17:30:22
2024-11-29 20:55:00
NVIDIA英伟达中国
NVIDIA英伟达中国
英伟达(中国)官方账号
2749文章数 1324关注度
往期回顾 全部

科技要闻

"AGI不是大杀器,是普通人每天在用的产品"

头条要闻

想要免死越南女首富"卖惨喊冤":只想尽快把财富交国家

头条要闻

想要免死越南女首富"卖惨喊冤":只想尽快把财富交国家

体育要闻

穆雷与德约科维奇能凑成王炸组合吗?

娱乐要闻

叶珂被曝独自去产检,他俩真分了吗

财经要闻

专家建议将农民养老金提升至每月500元

汽车要闻

问界M7今年累计交付量已突破18万辆

态度原创

手机
房产
数码
健康
公开课

手机要闻

iQOO Neo 10 Pro上手:性能强劲外中规中矩,典型“帐篷机”

房产要闻

大量甩地!114亿,4790亩!海南土地市场全面爆发!

数码要闻

一键降低9ns延迟!技嘉小雕X870 AORUS ELITE WIFI7主板评测:合理堆料 售价仅2K

花18万治疗阿尔茨海默病,值不值?

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版