网易首页 > 网易号 > 正文 申请入驻

为机器人赋予空间智能,UIUC团队构建多模态具身智能的3D推理系统

0
分享至

能够在三维场景中进行空间感知和推理决策是机器人和具身 AI 区别于二维图像智能的重要能力,也是现有人工智能模型的严重局限之一。

基于这个观察,美国伊利诺伊大学厄巴纳-香槟分校(UIUC,University of Illinois Urbana-Champaign)团队研究并证明了空间感知在三维多模态推理中的重要性,并结合大视觉语言模型提出了强化空间智能的新方法。

相关论文发表在 2024 年 IEEE 国际计算机视觉与模式识别会议(CVPR,Conference on Computer Vision and Pattern Recognition)上。

论文的第一作者满运泽,本硕博先后就读于浙江大学、美国卡内基梅隆大学和 UIUC。他曾在 Adobe 实习过,如今又在 NVIDIA 从事科研实习工作,目前主要研究多模态大模型和具身智能。

图丨满运泽(来源:满运泽)

他表示,本次工作在很大程度上基于对人类智能的观察。

具体来说:

他和团队发现相比于机器学习模型,人类在回答三维空间中的复杂感知、规划任务和推理任务的时候,会自然而然地从自身所处的情景出发,来做第一人称的理解和判断。

这种智能使得人们可以很轻易地理解“左右”“远近”“上下”等空间相对概念,并能在复杂的多物体多模态环境中工作。

他和同事把这种智能叫做情景感知。它是空间智能的其中一种,代表着一个具身智能体能够理解自身所处环境,并能依此进行空间推理的能力。

这也和美国斯坦福大学李飞飞教授所强调的 Spatial Intelligence 有着密切相关性。

研究中,该团队通过初步实验证明:现有的人工智能模型并不具备情景感知能力。

首先,在情景估计任务中,现有模型的表现仅仅比随机猜测高出一点点而已。

其次,他们还发现有无情景输入,对于情境相关的问答效果完全没有任何区别,这一点其实与人类直觉是完全相悖的。

而在本次研究伊始,他们注意到了 SQA3D 这个数据集,这是一个鲜少有人注意但却非常独特和重要的数据集。

此前通过使用这个数据集,人们一般用来研究 3D 问答效果。但是,很少有人将这个数据集用于研究情景估计和基于情景的问答效果。

而通过分析领域内的已有工作,并通过与人类智能对比,他们将研究方向定为情景感知。

随后,课题组开始针对现有模型的步骤进行分析和可视化,借此找出导致效果变差的成因。

随后发现问题主要出现在两方面:

其一,当采用端到端直接估计的架构时,会导致模型无法利用估计出来的情景,来辅助问答任务和推理任务。

其二,采用回归估计(Regression Estimation)的方法,会导致模型无法在巨大的三维空间中准确定位到某一位置和某一方向向量。

为此,该团队设计出一款名为 SIG3D 的模型,针对上述两方面问题进行优化,这不仅能让三维搜索空间变小,也能显著提升准确度。

同时,课题组尽可能多地寻找合适的数据集来验证猜想,并再次通过最终结果和中间结果的可视化,来验证所优化模块的效果。

最终,相关论文以《情境意识在三维视觉语言推理中的重要性》(Situational Awareness Matters in 3D Vision Language Reasoning)为题发在 CVPR 2024 上 [1]。

图丨相关论文(来源:CVPR)

对于相关论文审稿人一致认为:

首先,本次论文研究动机十分明确,并解决了帮助智能体理解三维环境这一问题,在方法上具有一定创新性。

其次,研究人员进行了充分的实验和广泛的消融研究,在两个问答任务和一个情景估计任务进行了评估。

并在所有三个任务上均展示出最优越的性能,尤其在情境估计任务上取得了显著提升。

最后,研究中对于鸟眼(BEV,Bird's-Eye Vie)俯视角和情境理解的探讨,为 3D 推理和具身 AI 等应用做出了一定贡献。

对于游戏、居家机器人、自动驾驶车辆、以及增强现实/虚拟现实等混合现实产品的智能体系统,本次成果将能带来一定的潜在帮助。

而拥有一个更好的情景感知能力,意味着模型将能拥有更好的 3D 空间理解能力。

它将能明白自己在空间中的位置和方向,因此会天然地拥有更强的避障能力、导航能力、推理能力、交流能力以及多模态问答,从而催生更安全、更智能的 AI。

(来源:CVPR)

另据满运泽介绍,这是他的第一篇正式向视觉语言多模态方向转型的论文。

“论文定题的初期曾经历一些阵痛。由于脱离了自己之前熟悉的领域,所以交流方式也要进行更新,还有无数的相关文献要等着阅读,因此精神压力一直比较大。”他说。

但是,研究途中满运泽逐渐体会到豁然开朗的感觉,也让他产生了很多关于视觉语言模型的其他想法。

他说:“从对这个方向产生兴趣、追随兴趣、摸黑探索、以及豁然开朗,很像《桃花源记》中的一句话‘山有小口,仿佛若有光(新的方向)。便舍船,从口入。初极狭,才通人(转型的阵痛)。复行数十步,豁然开朗’。”

而基于本次成果:

首先,他希望可以继续拓展模型的研究情景感知能力在 7B 模型、13B 模型、乃至 40B 模型中,是否仍会带来推理效果的提升。

其次,他打算研究场景从室内拓展到室外,在更空旷和更复杂的交互中验证模型。

最后,他还会研究视觉模型对于 3D 多模态推理的重要性,尤其是探究图像和视频中的 2D 基础模型的泛化能力,能否被拓展到 3D 模型中。而这个工作的相关论文,已经在 arXiv 预印本平台上发表。

图丨相关论文(来源:arXiv )

满运泽的长期研究目标是:希望开发一个视觉感知优先的多模态信息系统,从而为具身 AI 和机器人构建一个能够准确表示周围世界的动态三维世界模型,并能在进行复杂推理和决策的同时,与人类和环境产生交互。

参考资料:

1.https://arxiv.org/pdf/2406.07544

排版:刘雅坤

01/

02/

03/

04/

05/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我去相亲说月薪1万,却被女人直接贬低,5天后她面试推开门时懵了

我去相亲说月薪1万,却被女人直接贬低,5天后她面试推开门时懵了

白云故事
2025-04-18 05:30:04
马刺西决1-1雷霆!文班空砍21+17+6+4帽改写历史 末节7中2吞败仗

马刺西决1-1雷霆!文班空砍21+17+6+4帽改写历史 末节7中2吞败仗

追球者
2026-05-21 11:10:03
德比斯疯狂点赞:820这车确实太猛了 我每次夺冠都是靠直线超车

德比斯疯狂点赞:820这车确实太猛了 我每次夺冠都是靠直线超车

风过乡
2026-05-21 07:28:50
太恶心!女顾客以尺码申请内裤退货退款,居然有使用痕迹和分泌物

太恶心!女顾客以尺码申请内裤退货退款,居然有使用痕迹和分泌物

火山詩话
2026-05-20 10:33:21
他是任期最长的总政主任,深受老上司许世友器重,如今快100岁了

他是任期最长的总政主任,深受老上司许世友器重,如今快100岁了

鹤羽说个事
2026-05-18 22:52:10
波多野结衣公开择偶标准,想嫁给中国男人,她远比你想象的更优秀

波多野结衣公开择偶标准,想嫁给中国男人,她远比你想象的更优秀

花哥扒娱乐
2026-05-14 20:10:50
《主角》苟存忠去世,易秦娥才知,自己和封潇潇不是一路人

《主角》苟存忠去世,易秦娥才知,自己和封潇潇不是一路人

可乐谈情感
2026-05-21 07:22:55
2007年,一台湾商人来到沈阳大帅府,对售票员说:我就不买票了吧

2007年,一台湾商人来到沈阳大帅府,对售票员说:我就不买票了吧

浩渺青史
2026-05-15 02:58:03
520官宣离婚,牛!

520官宣离婚,牛!

阿讯说天下
2026-05-20 12:21:29
看到卖棺材的主播也开始“擦边”时,我有点懵

看到卖棺材的主播也开始“擦边”时,我有点懵

走读新生
2026-05-20 17:36:54
《美国派》女星开OnlyFans首周入账近100万美元,内容竟是敷面膜睡觉

《美国派》女星开OnlyFans首周入账近100万美元,内容竟是敷面膜睡觉

追星雷达站
2026-05-20 01:42:00
女篮世界杯出炉,宫鲁鸣提拔3巨头,李梦李月汝有望共同联合

女篮世界杯出炉,宫鲁鸣提拔3巨头,李梦李月汝有望共同联合

阿信点评
2026-05-20 13:26:15
文班21+17+4封盖历史第1人,太子两战20失误超哈登,马刺不敌雷霆

文班21+17+4封盖历史第1人,太子两战20失误超哈登,马刺不敌雷霆

钉钉陌上花开
2026-05-21 11:06:05
法比安:此前在欧冠半决赛中双杀阿森纳?决赛是完全不一样的

法比安:此前在欧冠半决赛中双杀阿森纳?决赛是完全不一样的

懂球帝
2026-05-21 02:45:21
老夫少妻扁鹊难医!44岁的张怡宁,终为自己的“贪婪”付出了代价

老夫少妻扁鹊难医!44岁的张怡宁,终为自己的“贪婪”付出了代价

科学发掘
2026-05-20 03:53:01
河南一景区现“爬不动了吧哈哈哈哈”标语,游客感觉不被尊重,景区:已撤除,本意是缓解爬山压力

河南一景区现“爬不动了吧哈哈哈哈”标语,游客感觉不被尊重,景区:已撤除,本意是缓解爬山压力

极目新闻
2026-05-19 14:48:26
联赛亚军打假球!终身禁赛!央视都报道了!

联赛亚军打假球!终身禁赛!央视都报道了!

刺猬篮球
2026-05-20 11:00:47
上海浦东餐厅2名日本人被刺伤,其中一人是企业高管,外交部回应

上海浦东餐厅2名日本人被刺伤,其中一人是企业高管,外交部回应

南城无双
2026-05-21 00:00:20
这是真的吗?15年0次全明星,生涯薪资3亿,今夏有望再拿亿元合同

这是真的吗?15年0次全明星,生涯薪资3亿,今夏有望再拿亿元合同

球毛鬼胎
2026-05-20 19:40:50
俄罗斯主动退让归还北方四岛,仅提一个要求,日本却始终不同意!

俄罗斯主动退让归还北方四岛,仅提一个要求,日本却始终不同意!

阿芒娱乐说
2026-05-21 10:46:23
2026-05-21 12:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16726文章数 514972关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

中国人家中常备的川贝枇杷膏 被维基百科创建专属词条

头条要闻

中国人家中常备的川贝枇杷膏 被维基百科创建专属词条

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

同行吐槽汪涵野心重 爆雷37万人受损

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

旅游
家居
本地
时尚
手机

旅游要闻

【“中国游记”第二季㊶】江西:美到真假难分 辣到怀疑人生

家居要闻

风格碰撞 个性与艺术

本地新闻

用云锦的方式,打开江苏南京

全网首档挑战Al设备拍摄短剧现场直播!

手机要闻

小米17T系列有国行版 海外版5月28日率先推出

无障碍浏览 进入关怀版