早前,Meta为了训练具身AI模型,开发了一个开源的仿真训练平台AI Habitat,其特点是允许AI算法在虚拟的3D场景中进行训练,模拟与物理环境之间的交互,以及提升空间感知能力。利用AI Habitat训练的模型,可帮助机器人在真实空间中导航,并执行一些智能任务,比如打扫厨房、整理桌面等等。
不过,与市面上的虚拟仿真平台相似,AI Habitat的训练效果也存在局限,比如AI的动作不够自然,难以模仿真人在环境中导航的过程等等。于是,Meta为Habitat开发了一个网页版,目的是降低该平台的使用门槛,允许更多人在众包平台上协助训练AI,积累更多训练数据。
据青亭网了解,Meta在亚马逊劳务外包平台MTurk上发布任务,允许大规模参与者在线上远程操纵Habitat平台的虚拟机器人。
Habitat网页版
通过MTurk平台,Meta收集了8万次目标导航演示,以及1.2万次拾取/放置任务演示,这比现有的真人演示机器人数据集(3000到1微纳)要大一个数量级。这个数据集中包含2930万个动作,相当于现实世界中远程操作机器人2.26万小时。这些数据中,包含了丰富、多样化的任务解决方案。
这项实验的目的是,通过对比数据来分析,大规模模仿学习(IL)与强化学习(RL)相比有哪些优势。
从人类实验探索具身AI导航
通常,人在寻找特定物品时,会首先粗略的查看几个房间,以确定物品不在这些房间,然后再彻底搜索可能性更高的房间。这一系列动作对于A机器人来讲相当复杂,机器人不仅需要记录搜索过的位置以避免重复搜索,还需要和空间中的对象交互(比如检查客厅的抽屉和橱柜)。而这将需要复杂的AI技术,比如语义理解、详细的视觉搜索、高效导航和交互等等。
通常,科研人员/开发者会采用强化学习的方式来训练AI导航,不过利用选优的强化学习来诱导AI进行一些特定的行为,将需要繁琐、低效、昂贵的奖励系统。相比之下,通过人类演示数据来训练AI效率更高,相比于强化学习方式,人类演示数据的误差要小得多。另外,人工训练AI的速度也足够快,Habitat-Web每50毫秒可执行一次用户输入的动作(每秒渲染 20 帧),然后在模拟器中前进50毫秒。
于是,为了进一步提升机器人仿真的效果,Meta Reality Labs决定根据人类行为研究,来帮助AI模拟真人在新环境中搜索目标的过程。
在这项实验中,Meta科研人员为参与者设定了两种任务:1)目标导航(例如找到椅子并走过去);2)拾取和放置(例如找到杯子,拾取杯子,找到吧台,将杯子放在吧台上)。
在拾取/摆放任务中,人类演示的优势更加明显,利用9500次人类演示训练的AI,可以在新环境摆放新对象的任务中获得18%成功率。而利用强化学习的AI却只有不到0%的成功率。
而在目标导航任务中,人类演示的任务效率/轨迹就优于AI代理生成的数据,如果量化来看,一次人类演示的效果大约值AI代理四次演示数据。值得注意的是,通过模仿人类来训练的AI可学到更有效的对象搜索行为,比如窥视房间、检查角落、全方位转身查看房间等等,尽管这并不是理想的最短路径,但更符合真实的人类行为。相比之下,强化学习训练的AI模型并未明显展示出这些行为。
科研人员表示:在这两项任务中,我们发现人类的示范是必不可少的。利用最短路径数据来训练AI,准确性不够高、行为模拟也不够自然。因为最短路径通常不包含探索过程,无法为AI导航提供足够细节的数据。换句话说,用最短路径数据培训的AI,却很难直接推断/模仿最短路径。
网页端Habitat
在实验中,Meta基于WebGL协议开发了Habitat的网页版,其特点是在浏览器上就能运行Habitat-Sim的3D模型。人可以通过网页版Habitat查看AI机器人的第一人称RGB视图,并通过键盘来操控机器人移动、抓取和释放物体。
利用实时视图,机器人可以根据指令去完成任务,任务完成后可以在网页端直接点击提交。
一个对象被成功抓取时,它会从第一人称视图中消失,并立即出现在任务界面的“库存”区域中。当一个抓取的物体被释放时,它会落在用户屏幕的中心,十字准线将指向的地方。
Habitat-WebGL 应用程序是用 Javascript 开发的,可绑定访问所有 C++ 模拟器 API,因此可使用Habitat提供的完整模拟功能。参考:fb
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.