网易首页 > 网易号 > 正文 申请入驻

图灵奖得主LeCun团队新作:在世界模型中导航

0
分享至


来源:机器之心

机器之心编辑部

现实世界版的 Genie-2?

最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。

继 、 接连发布自己的世界模型研究之后,Meta FAIR 的 Yann LeCun 团队也加入了战场,也在同一周之内发布了导航世界模型(Navigation World Models/NWM)。

我们知道,Yann LeCun 一边在不断唱衰当前主导 LLM 领域的自回归范式,同时也一直是世界模型的「鼓吹者」。上月中旬,该团队就已经发布了一篇世界模型相关研究成果,但那篇研究涉及的模型规模不大,环境也较为简单,参阅机器之心报道《 》。

而这一次,LeCun 团队发布的 NWM 看起来能适应更复杂的环境了,并且与 World Labs 和 DeepMind 的世界模型一样,也能基于单张图像生成连续一致的视频。只是 LeCun 团队的这个世界模型更加强调世界模型的导航能力,其能够在已知环境中按照轨迹行进,也能在未知环境中自己寻找前进道路,还能执行路径规划。不过整体而言,与能单图生世界的 DeepMind Genie 2 相比,NWM 的单图生视频还是要稍逊一些。


  • 论文标题:Navigation World Models

  • 论文地址:https://arxiv.org/pdf/2412.03572v1

  • 项目地址:https://www.amirbar.net/nwm/

从其项目网站的演示视频看,NWM 的效果很不错,能够基于单张真实照片执行相当好的导航操作。只能说,世界模型,也开始卷起来了。

NWM 效果演示

在深入了解 NWM 的技术细节之前,我们先来看看它的实际表现如何。

首先是在已知环境中按照轨迹行进的能力。NWM 能够基于单张输入帧和给定的输入动作合成视频,这个过程是自回归式的。另需说明,在这里,模型已经已经训练阶段看过了这个环境,但轨迹是全新的。可以看到,不管是室内环境还是室外环境,NWM 都具有相当不错的场景理解表现。



NWM 也能在未知环境中导航:它不仅适用于已知环境,对于训练中从未见过的单张输入图像,模型也可以根据给定的输入动作自回归式地预测后续帧。



下面是与其它模型的对比情况,可以看到,NWM 在保证合成视频的一致性和稳定性方面以及动作的执行效果方面都更加出色。


另外,该团队也研究了使用 NWM 和外部导航策略 NoMaD 来执行规划。具体来说,就是让 NoMaD 给出轨迹,再让 NWM 来进行排名 —— 后者会生成轨迹视频并选出其中得分最高的轨迹。



整体而言,LeCun 团队的这项 NWM 研究做出了以下贡献:

  • 提出了导航世界模型和一种全新的条件扩散 Transformer(CDiT);相比于标准 DiT,其能高效地扩展到 1B 参数,同时计算需求还小得多。

  • 使用来自不同机器人智能体的视频和导航动作对 CDiT 进行了训练,通过独立地或与外部导航策略一起模拟导航规划而实现规划,从而取得了当前最先进的视觉导航性能。

  • 通过在 Ego4D 等无动作和无奖励的视频数据上训练 NWM,使其能在未曾见过的环境中取得更好的视频预测和生成性能。

导航世界模型

NWM 的数学描述

下面先来看看 NWM 的公式描述。直观地说,NWM 是一个接收当前世界状态(例如,对图像的观察)和导航操作(描述物体移动到哪里以及如何旋转)的模型。然后,该模型根据智能体的视角生成下一个世界状态。

本文给出了一个第一人称的视频数据集,其包含智能体导航动作 ,其中 是图像,a_i = (u, ϕ) 是由平移参数 给出的导航命令,控制向前 / 向后和左右运动,以及导航旋转角 。a_i 的导航动作可以被完全观察到。

目标是学习一个世界模型 F,即从先前的潜在观察 s_τ 和动作 a_τ 随机映射到未来的潜在状态表示 s_(t+1 ):

由于此公式简单易懂,因此它可以自然地跨环境共享,并轻松扩展到更复杂的动作空间,例如控制机械臂。

公式 1 模拟了动作,但无法控制时间动态(temporal dynamics)。因此,作者用时移输入 k ∈ [T_min, T_max] 扩展此公式,设置 ,因此现在 a_τ 指定时间变化 k,用于确定模型应向未来(或过去)移动多少步。因此,给定当前状态 s_τ ,可以随机选择 k, token 化相应的视频帧。然后可以将导航动作近似为从时间 τ 到 τ + k 的总和:

上述公式既可以学习导航动作,也可以学习时间动态。实际上,本文允许时间偏移最多 ±16 秒。

扩散 Transformer 作为世界模型

条件扩散 Transformer 架构。本文使用的架构是一个时间自回归 transformer 模型,该模型利用高效的 CDiT 块(见图 2)。


CDiT 通过将第一个注意力块中的注意力限制在正在去噪的目标帧中的 token 上,实现了在时间上高效的自回归建模。为了对过去帧中的 token 进行条件处理,本文还整合了一个交叉注意力层,然后,交叉注意力通过跳跃连接层将表示情境化。

使用世界模型进行导航规划

接下来,文章描述了如何使用经过训练的 NWM 来规划导航轨迹。直观地说,如果世界模型熟悉某个环境,可以用它来模拟导航轨迹,并选择那些能够达到目标的轨迹。在未知的、分布外的环境中,长期规划可能依赖于想象力。

形式上,给定潜在编码 s_0 和导航目标 s^∗,目标是寻找动作序列 (a_0, ..., a_T),以最大化到达 s^∗ 的可能性。

定义能量函数,使得最小化能量与最大化未归一化的感知相似度得分相对应, 并遵循关于状态和动作的潜在约束。


相似度的计算方法是,使用预训练的 VAE 解码器将 s^∗ 和 s_T 解码为像素,然后测量感知相似度。

那么问题就简化为寻找最小化该能量函数的动作:

该目标可被重新表述成一个模型预测控制(MPC)问题,并且可使用交叉熵方法(Cross-Entropy Method)来优化它。

导航轨迹排名方法。假设已有一个导航策略 Π(a|s_0, s^∗),可使用 NWM 来对采样得到的轨迹进行排名。这里,该团队的使用了一种 SOTA 的导航策略 NoMaD 来执行机器人导航。在排名时,会从 Π 给出的多个样本中选出能量最低的那个。

实验结果

下面来看看 NWM 在实验中实际表现。

首先,数据集方面,该团队使用了 TartanDrive、RECON 和 HuRoN。NWM 可以获取机器人的位置和角度数据,然后推断在当前位置的相关动作。

评估指标包括绝对轨迹误差 (ATE)和相对姿态误差 (RPE)。对比基线包括 DIAMOND、GNM 和 NoMaD。

消融实验

模型在已知环境 RECON 上对验证集轨迹对单步 4 秒未来预测进行评估。研究人员通过测量 LPIPS、DreamSim 和 PSNR 来评估相对于地面真实框架的性能。图 3 中提供了定性示例:


模型大小和 CDiT。研究人员将 CDiT 与标准 DiT(其中所有上下文标记都作为输入)进行比较。其中假设,对于导航已知环境,模型的容量是最重要的,图 5 中的结果表明,CDiT 确实在具有多达 1B 个参数的模型中表现更好,同时消耗的 FLOP 不到 ×2。令人惊讶的是,即使参数数量相同(例如,CDiT-L 与 DiT-XL 相比),CDiT 也可以快 4 倍,并且表现更好。


目标数量。在给定固定上下文的情况下训练具有可变目标状态数量的模型,将目标数量从 1 更改为 4。每个目标都是在当前状态的 ±16 秒窗口内随机选择的。表 1 中报告的结果表明,使用 4 个目标可显著提高所有指标的预测性能。

上下文大小。研究人员在训练模型的同时将条件帧的数量从 1 变为 4(见表 1)。不出所料,更多的上下文带来了帮助,而对于较短的上下文,模型通常会「迷失方向」,导致预测不佳。

时间和动作条件。研究人员同时使用时间和动作条件训练模型,并测试每个输入对预测性能的贡献程度。结果包含在表 1 中。研究人员发现,使用时间运行模型只会导致性能不佳,而不使用时间条件也会导致性能略有下降。这证实了两种输入对模型都有好处。


视频预测与合成

这里评估的是模型遵从真实动作和预测未来状态的能力。

以第一张图像和上下文帧为条件,该模型需要根据 ground truth 动作,以自回归方式预测下一个状态,并给每个预测提供反馈。

通过比较在 1、2、4、8 和 16 秒的 ground truth 图像,再得出在 RECON 数据集上的 FID 和 LPIPS 值,可以对这些预测结果进行比较。

图 4 展示了在 4 FPS 和 1 FPS 帧率下,NWM 与 DIAMOND 的性能情况。可以明显看到,NWM 的预测准确度比 DIAMOND 好得多。


一开始的时候,NWM 1 FPS 的表现更好,但 8 秒之后,它就会因为累积误差和上下文损失而被 4 FPS 版本超过。

生成质量。为了评估视频质量,该团队以 4 FPS 的速度自回归预测生成了一些 16 秒长的视频,同时这是基于 ground truth 动作的。然后,再使用 FVD 评估生成视频的质量,并与 DIAMOND 进行比较。图 6 中的结果表明 NWM 输出的视频质量更高。


使用 NWM 执行规划

接下来的实验衡量了 NWM 执行导航的能力。

独立规划。实验表明,这个世界模型可以有效地独立执行目标导向的导航。

基于过去的观察和目标图像,NWM 可以使用交叉熵方法找到一条轨迹,同时尽可能降低预测图像和目标图像之间的 LPIPS 相似度,实验结果见下表 2,可以看到 NWM 的规划能力足以比肩 SOTA 策略。


带约束条件的规划。在使用 NWM 进行规划时,还可以指定约束条件,比如要求智能体走直线或只转弯一次。

表 3 的结果表明,NWM 可以在满足约束的同时进行有效规划,并且规划性能变化不大。


下图 9 中包含了左右优先约束下的规划轨迹案例。


使用导航世界模型进行排序。NWM 可以增强目标条件导航中已有的导航策略。研究者根据过去观察结果和目标图像对 NoMaD 进行条件化,采样了 n ∈ {16,32} 条轨迹,其中每条轨迹长度为 8,并通过使用 NWM 来自回归地遵循动作以对这些轨迹进行评估。

最后,研究者通过测量与目标图像的 LPIPS 相似性来对每条轨迹的最终预测结果进行排序,结果如下图 7 所示。他们还在上表 2 中报告了 ATE 和 RPE,发现对轨迹进行排序可以产生 SOTA 导航性能,并且采样的轨迹越多结果越好。


泛化到未知环境的能力

研究者尝试添加未标注的数据,并询问 NWM 是否可以使用想象力在新环境中做出预测。他们在所有域内数据集以及来自 Ego4D 的未标注视频子数据集上训练了一个模型,并且只能访问时移操作。

研究者训练了一个 CDiT-XL 模型,并在 Go Stanford 数据集以及其他随机图像上对该模型进行了测试。结果如下表 4 所示,可以发现,在未标注数据上进行训练可以显著提升各项视频预测结果,包括提高生成质量。


研究者在下图 8 中提供了一些定性案例。相较于域内(上图 3),模型崩溃得更快并且在生成想象环境的遍历时还会产生幻觉路径。


更多实验细节请参阅原论文。

阅读报告全文,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乌克兰单方面挨打的局面已经终结,俄乌正式进入互攻时代!

乌克兰单方面挨打的局面已经终结,俄乌正式进入互攻时代!

风华讲史
2024-12-24 09:54:34
悲催!网传南京一对夫妻自述买房经历,一夜返贫,血亏300多万…

悲催!网传南京一对夫妻自述买房经历,一夜返贫,血亏300多万…

火山诗话
2024-12-25 19:30:28
无锡楼市全军覆没,无锡房价从14080元跌至14025元

无锡楼市全军覆没,无锡房价从14080元跌至14025元

有事问彭叔
2024-12-25 19:07:48
身体的语音:疼痛对照表!准的吓人!

身体的语音:疼痛对照表!准的吓人!

华人星光
2024-12-23 15:48:39
金正恩非常愤怒,因为朝鲜士兵在库尔斯克战斗中伤亡超过200人!

金正恩非常愤怒,因为朝鲜士兵在库尔斯克战斗中伤亡超过200人!

星辰故事屋
2024-12-24 18:35:23
社保基金原理事长戴相龙:截止到2023年,企业年金和职业年金合计5.75万亿,年均增长25%!占全国GDP的4.5%

社保基金原理事长戴相龙:截止到2023年,企业年金和职业年金合计5.75万亿,年均增长25%!占全国GDP的4.5%

和讯网
2024-12-26 11:58:46
美国国防部:解除对中方制裁!

美国国防部:解除对中方制裁!

星辰故事屋
2024-12-22 22:57:16
重庆失联10天研究生已找到!现场太凄惨,姐姐曝更多揪心细节

重庆失联10天研究生已找到!现场太凄惨,姐姐曝更多揪心细节

哄动一时啊
2024-12-24 06:45:03
外逃乱港分子收通缉令,不到24小时,中方钓出大鱼,加拿大被狙击

外逃乱港分子收通缉令,不到24小时,中方钓出大鱼,加拿大被狙击

大白话瞰世界
2024-12-26 09:52:56
脸都不要了!韩女星用中式寿衣当团服,声称是大韩文化,网友怒了

脸都不要了!韩女星用中式寿衣当团服,声称是大韩文化,网友怒了

素衣读史
2024-12-26 15:05:50
12月25日俄乌:特朗普有新目标,泽连斯基圣诞送祝福

12月25日俄乌:特朗普有新目标,泽连斯基圣诞送祝福

山河路口
2024-12-25 22:28:50
官方:萨尔瓦多出任重庆铜梁龙主教练,前主帅于远伟等6人离任

官方:萨尔瓦多出任重庆铜梁龙主教练,前主帅于远伟等6人离任

懂球帝
2024-12-26 17:20:23
出价1.1亿欧,曼联梭哈劳塔罗,3点原因,促使国米接受

出价1.1亿欧,曼联梭哈劳塔罗,3点原因,促使国米接受

体育全天候
2024-12-26 17:07:06
亮相保利尼奥退役赛,阿兰摊牌,官宣决定,足协批准,武磊祝福

亮相保利尼奥退役赛,阿兰摊牌,官宣决定,足协批准,武磊祝福

东球弟
2024-12-26 12:36:24
终场前1秒,勇士竟被他绝杀....

终场前1秒,勇士竟被他绝杀....

五星体育
2024-12-26 18:25:46
抖音副总裁回应吴柳芳账号再次被禁:处理分歧很大

抖音副总裁回应吴柳芳账号再次被禁:处理分歧很大

DoNews
2024-12-25 15:43:11
官方提醒:第三代社保卡换卡不用急,注意防范金融风险

官方提醒:第三代社保卡换卡不用急,注意防范金融风险

新京报
2024-12-26 14:43:15
里夫斯谈绝杀:我不是一个情绪化的人,但有一瞬间我感觉我要哭了

里夫斯谈绝杀:我不是一个情绪化的人,但有一瞬间我感觉我要哭了

懂球帝
2024-12-26 13:28:36
长荣集团硬刚,宁愿撤销所有国旗也不挂中国国旗:不靠你们吃饭!

长荣集团硬刚,宁愿撤销所有国旗也不挂中国国旗:不靠你们吃饭!

星辰故事屋
2024-08-17 20:11:26
市长马宁宇、厅长周文、厅长邹联克等51名“一把手”任上被查!贵州反腐数据公布

市长马宁宇、厅长周文、厅长邹联克等51名“一把手”任上被查!贵州反腐数据公布

新京报政事儿
2024-12-26 12:08:05
2024-12-26 18:47:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
3431文章数 37055关注度
往期回顾 全部

科技要闻

小米正搭建GPU万卡集群,大力投入AI大模型

头条要闻

媒体:柯文哲被起诉没有贪污罪 对赖当局而言是"硬伤"

头条要闻

媒体:柯文哲被起诉没有贪污罪 对赖当局而言是"硬伤"

体育要闻

再见,中超最后的超级巨星

娱乐要闻

刀郎演唱会再次爆火,背后的原因耐人寻味

财经要闻

69亿订单"消失",卓然股份隐藏了什么?

汽车要闻

新物种iCAR V23的“尤里卡时刻”

态度原创

教育
时尚
手机
房产
军事航空

教育要闻

在大学里,看背影就知道谁是“富养女”,一张照片令人看清现实

冬天毛衣内搭有门道,这些套路学起来,让你冬日穿搭不再单调

手机要闻

迄今最强性能手机!一加Ace 5 Pro图赏

房产要闻

富力地产子公司欠薪风波:年关将至!员工深陷困境,呼吁尽快解决

军事要闻

中方批菲防长涉华言论出格荒唐

无障碍浏览 进入关怀版