网易首页 > 网易号 > 正文 申请入驻

首个融合重建-预测-规划的生成式世界模型AETHER开源

0
分享至

近日,上海人工智能实验室(上海 AI 实验室)开源了生成式世界模型 AETHER。该模型全部由合成数据训练而成,不仅在传统重建与生成任务中表现领先,更首次赋予大模型在真实世界中的 3D 空间决策与规划能力,可助力机器人完成目标导向的视觉规划、4D 动态重建、动作条件的视频预测等复杂任务。

研究团队将几何重建与生成式建模深度融合,首创「重建 — 预测 — 规划」 一体化框架,通过 AETHER 使大模型能够感知周围环境,理解物体之间的位置、运动和因果关系,从而做出更智能的行动决策。

实验表明,传统世界模型通常聚焦于 RGB 图像的预测而忽略了背后隐含的几何信息,引入空间建模后,各项指标均显著提升,其中视频一致性指标提升约 4%。更重要的是,即使只使用合成数据进行训练,模型在真实环境中依然展现出强大的零样本泛化能力。

论文与模型已经同步开源。

  • 论文标题:AETHER: Geometric-Aware Unified World Modeling
  • 论文链接:https://arxiv.org/abs/2503.18945
  • 项目主页:https://aether-world.github.io

三大核心技术

攻克动态环境中的智能决策困境

传统世界模型主要应用于自动驾驶与游戏开发等领域,通过其丰富的动作标签来预测接下来的视觉画面。

但由于缺乏对真实三维空间的建模能力,这容易导致模型预测结果出现不符合物理规律的现象。同时,由于依赖且缺乏真实数据,面对更复杂多变的场景时,其泛化能力也明显不足。

针对以上问题,研究团队提出了生成式世界模型 AETHER,基于三维时空建模,通过引入并构建几何空间,大幅提升了模型空间推理的准确性与一致性。

具体而言,研究团队利用海量仿真 RGBD 数据,开发了一套完整的数据清洗与动态重建流程,并标注了丰富的动作序列。同时,他们提出一种多模态数据的动态融合机制,首次将动态重建、视频预测和动作规划这三项任务融合在一个统一的框架中进行优化,从而实现了真正的一体化多任务协同,大幅提高了模型的稳定性与鲁棒性。

面对复杂多变的现实世界,如何让具身智能系统实现可靠、高效的决策是人工智能领域的一项重大挑战。研究团队在AETHER 框架中通过三项关键技术突破,显著提升了具身系统在动态环境中的感知、建模与决策能力。

  • 目标导向视觉规划:可根据起始与目标场景,自动生成一条实现视觉目标的合理路径,并以视频形式呈现全过程。通过联合优化重建与预测目标,AETHER 内嵌空间几何先验知识,使生成结果兼具物理合理性。这使得具身智能系统能像人类一样「看路规划」—— 通过摄像头观察环境后,自动生成既安全又符合物理规律的行动路线。
  • 4D 动态重建:通过自动标注流水线,构建合成 4D 数据集,无需真实世界数据即可实现零样本迁移,精准捕捉并重建时空环境的动态变化。例如,输入一段街景视频,系统即可重建包含时间维度的三维场景模型,精确呈现行人行走、车辆运动等动态过程,建模精度可达毫米级。

自动相机标注 pipeline。

  • 动作条件视频预测:创新性地采用相机轨迹作为全局动作表征,可直接基于初始视觉观察和潜在动作,预测未来场景的变化趋势。相当于给具身智能系统装上了预测未来的「镜头」。

可零样本泛化至真实场景

不同于传统仅预测图像变化的世界模型,AETHER 不仅能同时完成四维时空的重建与预测,还支持由动作控制驱动的场景推演与路径规划。值得强调的是,该方法完全在虚拟数据上训练,即可实现对真实世界的零样本泛化,展现出强大的跨域迁移能力。

具体流程如下图所示,图中黄色、蓝色和红色分别表示图像、动作与深度的潜在变量,灰色表示噪声项,白色框为零填充区域。模型通过组合不同的条件输入(如观察帧、目标帧和动作轨迹),结合扩散过程,实现对多种任务的统一建模与生成。

就像在拼一副完整的动态拼图,观察帧提供了「现在的样子」,目标帧给出了「未来的样子」,动作轨迹则是「怎么从这里走到那里」,而扩散过程则像是拼图的拼接逻辑,把这些零散信息有序组合起来,最终还原出一个连续、合理且可预测的时空过程。

为了支持同时完成重建、预测和规划这三类不同任务,AETHER 设计了一种统一的多任务框架,首次实现在同一个系统中整合动态重建、视频预测和动作规划。

其核心在于:能够融合图像、动作、深度等多模态信息,建立一个跨模态共享的时空一致性建模空间,实现不同任务在同一认知基础上的协同优化。

实验结果

在多个实验任务中,AETHER 在动态场景重建方面已达到甚至超过现有 SOTA 水平。同时发现在多任务框架下,各个任务有很好的促进,尤其在动作跟随的准确度上面有较大的提升。

该方法有望为具身智能大模型在数据增强、路径规划以及基于模型的强化学习等方向研究提供技术支撑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一年闭店近22000家!又一行业巨头生意跌落神坛,卖不动了?

一年闭店近22000家!又一行业巨头生意跌落神坛,卖不动了?

财经八卦
2026-05-27 15:49:51
赵丽颖妹妹首曝光!颜值竟碾压姐姐?这基因我服了!不愧是亲姐妹

赵丽颖妹妹首曝光!颜值竟碾压姐姐?这基因我服了!不愧是亲姐妹

八卦王者
2026-05-26 15:35:10
因不满蒋介石作为,入黄埔2个月惨遭开除,后成蒋介石一生之敌

因不满蒋介石作为,入黄埔2个月惨遭开除,后成蒋介石一生之敌

大运河时空
2026-05-27 18:40:03
右路告急!大巴黎欧冠决赛战前连遭伤病打击,两大主力出战成疑

右路告急!大巴黎欧冠决赛战前连遭伤病打击,两大主力出战成疑

夜白侃球
2026-05-27 08:53:44
盒马“粉木耳”标签惹众怒!连夜道歉全部下架,网友:太恶心了!

盒马“粉木耳”标签惹众怒!连夜道歉全部下架,网友:太恶心了!

今朝牛马
2026-05-26 20:26:53
我40岁才明白:但凡长相有点姿色的女人,基本上都被男人撩过

我40岁才明白:但凡长相有点姿色的女人,基本上都被男人撩过

心理观察局
2026-05-25 07:31:32
研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

黯泉
2026-05-03 20:25:37
彭忠山接受纪律审查和监察调查

彭忠山接受纪律审查和监察调查

贵阳网
2026-05-27 17:18:28
一天中“很”养生的两个小时,你在干嘛?很多人都做错了

一天中“很”养生的两个小时,你在干嘛?很多人都做错了

芹姐说生活
2026-05-26 22:48:09
反向换车的人越来越多了,不是没钱了,而是终于想通了

反向换车的人越来越多了,不是没钱了,而是终于想通了

世界圈
2026-04-18 08:48:42
美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

青烟小先生
2026-01-31 19:10:22
6胜3负,国羽混双仅剩遮羞布,新加坡公开赛28日赛程

6胜3负,国羽混双仅剩遮羞布,新加坡公开赛28日赛程

佑铭羽球
2026-05-28 04:29:13
不用3nm照样封神!麒麟9050性能超越A18:3D堆叠绕开制程封锁

不用3nm照样封神!麒麟9050性能超越A18:3D堆叠绕开制程封锁

快科技
2026-05-26 11:37:30
世界杯48队大本营确定:39队驻扎美国,7队在墨西哥,2队在加拿大

世界杯48队大本营确定:39队驻扎美国,7队在墨西哥,2队在加拿大

懂球帝
2026-05-27 02:06:10
2026法网第五日:吴易昺17点挑战科博利,能否打破7号球场魔咒?

2026法网第五日:吴易昺17点挑战科博利,能否打破7号球场魔咒?

全网球APP
2026-05-27 23:59:30
世界杯豪门三叉戟:法国天价,英格兰进球多,谁最强?

世界杯豪门三叉戟:法国天价,英格兰进球多,谁最强?

二爷台球解说
2026-05-27 13:04:16
中国半导体破局:技术突破撕碎霸权神话

中国半导体破局:技术突破撕碎霸权神话

烽火瞭望者
2026-05-27 06:24:15
他从兵团司令员降为军长,55年授衔毛主席怒斥道:他不可不授上将

他从兵团司令员降为军长,55年授衔毛主席怒斥道:他不可不授上将

鹤羽说个事
2026-05-26 22:53:56
算盘落空!知名演员直播哭穷,本以为能博得同情,没想到骂声一片

算盘落空!知名演员直播哭穷,本以为能博得同情,没想到骂声一片

晓徙娱乐
2026-05-26 16:20:23
深圳男子买彩票中2亿,6天后去兑奖,却被工作人员赶了出去

深圳男子买彩票中2亿,6天后去兑奖,却被工作人员赶了出去

今天说故事
2025-05-28 14:49:59
2026-05-28 06:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13097文章数 142653关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

特朗普警告盟友阿曼:不守规矩会被“炸飞”

头条要闻

特朗普警告盟友阿曼:不守规矩会被“炸飞”

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

游戏
旅游
房产
手机
健康

IGN年度第三款满分神作!丰富度不输老头环、塞尔达

旅游要闻

5月27日最佳情报|晨韵如诗超治愈,蜀葵绽放花枝温婉雅致

房产要闻

合生创展前总裁被查!直指房企违规放贷、利益输送等问题

手机要闻

鸿蒙系统大推送:6.1.0.125已来袭,API 24也转正了!

打外泌体会比干细胞更安全吗

无障碍浏览 进入关怀版