网易首页 > 网易号 > 正文 申请入驻

被谷歌点名感谢!杭州六小龙开源黑科技,让机器人瞬间「悟透」3D世界

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】前脚被谷歌点名感谢空间训练平台,后脚又开源了空间模型!杭州六小龙群核科技发了一个空间理解开源模型SpatialLM,让机器人刷一段视频,就能理解物理世界的几何关系。结合之前发布的空间智能训练平台SpatialVerse,群核科技要为机器人提供从空间认知到行动交互的训练闭环。机器人也被「卷」到要上学了。

最近,一篇谷歌训练模型的论文里,竟然感谢了一家中国公司!

2025年,谷歌与斯坦福联合发表的FirePlace论文中,这项研究首次让AI学会像人类一样「布置房间」:沙发不悬空、台灯必放桌面、书架与墙保持合理间距。而实现这一切的背后,也有来自一家中国公司的技术贡献。

「我们感谢群核科技SpatialVerse团队提供的物理级真实3D场景数据。」论文中提到。

谷歌提及的群核科技正是前段时间因杭州六小龙出圈的科技企业之一,其业务聚焦空间智能探索,而论文中提到的SpatialVerse是群核面向具身智能等行业开放的虚拟数字道场,通过合成可交互三维数据实现机器人训练。

短短两周后,这家企业又在GTC 2025大会上开源了他们的最新模型SpatialLM。

SpatialLM是一个空间理解模型,仅凭一部手机拍摄的视频,即可生成带物理规则的的3D场景布局。

想象一下,通过一部手机录下家庭的布局画面,给到SpatialLM后,便能输出完整的3D空间信息:房间布局、家具摆放、通道宽度悉数标注。

紧接着,虚拟数字道场SpatialVerse基于这一3D场景的数据生成更多的物理真实场景,这些虚拟的场景中,机器人可训练避障、抓取、紧急制动,在训练成本和效率各方面都得到显著提升。

目前,SpatialLM已在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。

群核科技SpatialLM模型开源页面

听起来很复杂,但简单地说,SpatialLM的本质就像是一台「空间翻译机」,通过视频理解物理世界的几何关系,再将其转化为机器能读懂的指令。

这相当于教会机器用人类直觉感知世界。传统机器人的训练方法如同「盲人摸象」,仅靠2D图像猜测三维空间;而SpatialLM赋予机器人「3D视觉」和「物理常识」——床头柜不能挨着柜门放、餐桌常规高度80厘米,来还原真实的训练场景。

但群核科技的目的不止于此,它真正想做的是推动具身智能训练完成从认知到行动的链路闭环。当SpatialLM帮助机器人跨过「空间理解」门槛后,群核科SpatialVerse这个「数字道场」,让机器人在仿真环境中完成了技能学习。

给机器人刷一段视频,它会看见什么?

SpatialLM模型能让机器像人类一样理解三维空间,这一突破性技术改变了机器人「看」世界的方式。

假设我们需要训练机器人整理房间,传统的训练方法有两种:一是对2D视频进行数据标注,把视频截图成照片,告诉机器人「这是沙发、这是桌子」。

但机器人只知道这些物体的名字,不知道它们的位置、大小,也不知道怎么移动它们;二是用专业激光雷达扫描房间(类似测绘仪)形成3D点云,但成本高且步骤复杂时间周期长。

SpatialLM采用了一种创新型的方式:用一部普通手机拍摄视频,通过模型变成结构化3D场景的机器语言,输入给机器人,既能降低采集成本,又能更好地还原3D场景。

这种做法模拟了人类的感知行为体系:看视频后,直接在脑子里生成客厅的3D地图,并标注其中物体所有细节。

它的技术原理也并不复杂。

首先,给定一个RGB视频,使用MASt3R-SLAM来重建3D点云:通过把视频拆解成无数帧画面,从中标记出沙发扶手、茶几边缘、地板纹路等细节的「空间点」,再计算这些小点的深度和位置 ,拼接成完整的3D点云模型。

从视频中提取点云数据并重建场景

接着,SpatialLM将这些密集的点云转换为结构化表示。点云编码器将点云编码为紧凑的特征,而大语言模型(LLM)生成描述场景的场景代码。

输出文本信息

最终,这些代码可以转换为结构化3D结构布局。即将空间点云像乐高积木一样拼接成完整的3D模型,比如沙发离墙1.2米、茶几高45厘米等数据一清二楚。

转化为结构化3D布局

SpatialLM是基于大语言模型训练的。同时,它突破了大语言模型对物理世界几何与空间关系的理解局限,赋予机器类人的空间认知和解析能力。

SpatialLM处理完视频后,不只是简单地「看懂」空间,而是生成一套完整的结构化数据。这套数据清晰记录了环境中每个物体的关键信息,比如三维坐标、尺寸参数、类别信息等。供机器人理解空间结构关系。

SpatialLM运行原理

配合3D可视化软件可将结构化数据转换为直观的虚拟空间模型。这一过程类似于将文字描述的建筑图纸变成三维建模效果图,让开发者和用户能直观查看、验证空间布局的准确性。

虽然业界已有对图像、视频进行参数化描述模型,但SpatialLM的独特性在于它有更通用的数据输入模式,无须借助智能穿戴设备作为传感器输入数据,手机、相机所拍摄的视频均可以成为数据来源。

未来,SpatialLM还将支持自然语言交互模式,例如作为智能助手与人类互动,并赋予具身代理在复杂环境中执行复杂任务的能力。

总结而言,SpatialLM为机器人提供了一份详尽而精准的「世界地图」,让它们能够像人类一样,既了解环境的静态布局,也掌握物体的动态交互规则,从而在复杂现实世界中灵活应对各种任务挑战。

对于具身智能企业和研究机构而言,他们无需从零开发,基于SpatialLM模型进行微调即可,从而降低具身智能训练门槛。

从认知到行动,构建具身智能的训练闭环

目前具身智能行业呈现出高热度但落地困难的矛盾局面。一方面,投资不断涌入,技术论文层出不穷;另一方面,能在真实环境中稳定工作的机器人系统却寥寥无几。

核心问题在于面对一个高度集成软件(AI)和硬件(制造)的新兴行业,一切的标准都没有统一,包括机器人的硬件操作系统。通用训练平台甚至小到训练数据集,都是分散在海量低质数据环境中。

除了上述提到2D数据无法满足训练条件但3D数据采集成本高昂外,最致命的问题是机器人对环境变化的适应能力极差。在传统训练模式下,环境中哪怕最微小的变化(如垃圾桶位置挪动)对机器人而言都是全新场景,需要重新学习。这导致在实验室表现完美的机器人,进入真实家庭后常常「束手无策」。

这些问题的根源在于从感知到行动的智能闭环缺失——机器人能「看到」世界,却无法基于所见做出合理决策和行动,从而无法适应真实多变的环境。而群核科技通过将模型和数据集进行了有机结合,构建了从空间认知理解到空间行动交互闭环的具身智能训练完整闭环系统。

比如,SpatialLM模型能从普通视频中识别出「沙发」、「冰箱」等物体及其基本属性。紧接着,语言理解层将语义标签与物体关联,赋予它们功能和用途,如「沙发是用来坐的」、「冰箱门需要拉开」,让机器人理解「物体怎么用」,避免违反基本操作逻辑的行为。

此前的虚拟训练平台面临严重的「数据饥渴」问题,平台技术只能提供训练工具,却苦于没有足够的高质量数据喂养。而传统数据采集成本高昂,导致训练数据稀缺,形成恶性循环。

事实上,考虑到室内场景的多样性和复杂度,场景三维可交互数据来源困难,这也是造成空间智能场景训练「数据饥渴」的核心原因。

群核在过去十余年沉淀的室内三维交互数据成为了具身智能训练的「稀缺石油」,因此备受关注,开篇提到的谷歌论文致谢部分也正源自于此。

大量物理正确的3D仿真数据

追溯具身AI的发展,2018年是一个重要节点。

这一年,OpenAI推出了GPT-1模型,他们的研究人员也证明了:智能体在虚拟世界中学到的技能可以迁移到现实世界。硅谷科技企业随即开始寻找可用的数据资源,而群核科技发布的InteriorNet数据集(一个可交互的三维数据集)恰在此时被学术界和产业界广泛关注。

如果以2018年为起点,拉出一条时间线,具身智能行业开始了一场大规模的「基础设施建设」。这些基础设施主要由两大核心元件构成:高质量的结构化数据和高逼真度的模拟器。群核科技和其他行业先行者正是围绕这两大元件展开布局。

此后几年,国内外又诞生不少优秀数据集:

  • 2019年,群核科技开源结构化数据集Structured3D,帮助机器理解三维结构;

  • 同年,ImageNet发起者李飞飞也发布了面向具身AI的模拟数据集BEHAVIOR;

  • 而近一年来,具身智能领域的开源数据集更是百花齐放,智元开源的AgiBot World就是个典型例子;

但仅有数据还无法实现具身智能训练的范式改变。因此,模拟器作为第二大元件也取得了显著进展。

2021年,NVIDIA基于Omniverse专为机器人和AI模拟推出Isaac Sim;而且SpatialVerse也正与Isaac Sim深度整合,支持基于OpenUSD标准的仿真环境部署,为决策算法提供实时反馈,大大加速了空间智能训练效率;此外,群核科技与英特尔等合作伙伴一起参与高逼真度模拟器SpearSim的建设。

为了提供更接近真实生活状态的训练环境,群核科技自研了一套合成数据训练解决方案。通过模拟室内真实特性、自动分割标注、场景增强及多平台对接等核心能力,确保机器人在虚拟环境中的学习体验与真实世界高度一致,实现从虚拟到现实的无缝迁移。

另一层面,SpatialLM+SpatialVerse又形成了一条「Real2Sim2Real」的路径。SpatialLM源源不断地将现实场景转化为可用于训练的结构化数据,SpatialVerse则进一步扩增这些数据,产生海量训练样本。相当于来自现实世界的一段视频数据,能泛化出亿万个虚拟场景。这不仅让SpatialVerse的数据更多样,同时还能缩小仿真与现实之间的「差距」。

机器人可在这些仿真场景中,学习人类操作,如开关冰箱门、叠被子等。这种基于大量数据的物理认知,让机器人不再是简单地指令执行者,而是具备「常识推理」能力的智能助手,能在复杂现实环境中安全、灵活地完成任务。

机器人在SpatialVerse的仿真场景中训练

如果把机器人通往物理世界的过程看作是「上学」,群核科技做的事其实是在帮机器人「搭建学校」,通过在虚拟空间设计不同的「教案课程」,机器人一路进化,从小学到大学的不断进阶。确保机器人进入真实世界之前,都从这个「学校」毕业了。

而且群核科技现在把这件事情变成更简单,用手机随手拍个视频,就能帮助机器人理解这个世界。当环境发生变化时,只需重新拍摄一段视频,即可更新整个空间模型,机器人无需从零学习。这种动态适应能力让机器人终于能像人类一样,迅速调整自己的行为以应对环境变化。

结语

传统空间智能训练需要顶尖实验室、顶级设备和专业团队,这使其成为少数精英机构的「特权」。群核的方案将这一领域彻底平民化,只要有手机和电脑,任何开发者都能接入这套系统,为机器人创建物理正确的训练环境。

空间智能训练成本从原本的「指数级曲线」(数据量越大,成本越高)变成了「平面结构」(边际成本接近于零)。一旦初始投入完成,生成千万级训练场景的成本与生成百个场景几乎相同。

SpatialLM和SpatialVerse双平台方案不仅解决了这一核心问题,更重要的问题是:要把训练数据的成本降下来,才能实现机器人通用模型的能力涌现。

参考通用大模型能力涌现的路径,第一个阶段就是堆参数训练通用能力,而机器人之所以没有参考这条路径,一个根本原因就在于训练数据太少、训练成本太高,只能训练专有模型。

在这场技术变革中,群核科技不只是在开发新工具,更是在重新定义机器与现实的关系。

未来我们或许迎来一个机器人物种的大爆发时刻,届时会有一个「数字地球」承载它们,这个数字地球将是一个巨大的训练场,机器人会在这里先「生活」一遍,再进入真实地球成为人类的助手和管家。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一月八万不够花,李双江“赖”学校不退休,儿子改名出国后再作妖

一月八万不够花,李双江“赖”学校不退休,儿子改名出国后再作妖

一盅情怀
2026-05-16 20:12:47
摆拍盲道被撞的盲人女网红被拘!账号被封过往更多视频被扒为流量毫无底线

摆拍盲道被撞的盲人女网红被拘!账号被封过往更多视频被扒为流量毫无底线

不二表姐
2026-05-16 22:11:33
45岁郭晶晶威尼斯惊艳亮相!这状态,豪门阔太里真找不出第二个

45岁郭晶晶威尼斯惊艳亮相!这状态,豪门阔太里真找不出第二个

今古深日报
2026-05-17 11:39:52
郭昊文明确愿意回家,陶汉林E类,山东高速砸冠军的机会意外来了

郭昊文明确愿意回家,陶汉林E类,山东高速砸冠军的机会意外来了

林子说事
2026-05-17 21:47:02
当嫖资跌到两碗牛肉面的价格,有人为了50元出卖身体,铤而走险

当嫖资跌到两碗牛肉面的价格,有人为了50元出卖身体,铤而走险

智慧生活笔记
2026-05-17 21:43:02
农村“轮婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

农村“轮婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

舒山有鹿
2026-05-17 11:37:46
新娘换装46分钟宾客散场:当场给老公甩脸,店长曝更多,拒绝调解

新娘换装46分钟宾客散场:当场给老公甩脸,店长曝更多,拒绝调解

阿纂看事
2026-05-16 16:32:57
长鑫科技一季度净利超247亿元,预计上半年净利至少500亿元增超22倍

长鑫科技一季度净利超247亿元,预计上半年净利至少500亿元增超22倍

澎湃新闻
2026-05-17 20:12:28
27人,全部拿下!

27人,全部拿下!

中国禁毒
2026-05-17 17:40:42
这三样,特朗普一个没给!中美关系没有逆转,更狠的较量才刚开始

这三样,特朗普一个没给!中美关系没有逆转,更狠的较量才刚开始

潋滟晴方DAY
2026-05-17 09:37:12
为何全国网友都在激烈抵制举报一部国外获得大奖的国产电影?

为何全国网友都在激烈抵制举报一部国外获得大奖的国产电影?

魔都囡
2026-05-17 04:11:58
旺铺是演的,流水是假的,这些加盟骗局专坑普通人?

旺铺是演的,流水是假的,这些加盟骗局专坑普通人?

世界圈
2026-05-10 08:45:37
我花1万5租假男友回家,却被公安局长爸认出:你不是在省厅吗?

我花1万5租假男友回家,却被公安局长爸认出:你不是在省厅吗?

墨染尘香
2026-05-17 11:05:54
永远不要低估人性的阴暗面,牢记这19条,没人再敢算计你

永远不要低估人性的阴暗面,牢记这19条,没人再敢算计你

作家文正
2026-05-09 10:25:05
G2上海88-99不敌北京 球员评价:古德温满分,3人及格,7人低迷

G2上海88-99不敌北京 球员评价:古德温满分,3人及格,7人低迷

篮球资讯达人
2026-05-17 21:29:41
人民大会堂服务员颜值好高,选拔标准严格,堪比选空姐

人民大会堂服务员颜值好高,选拔标准严格,堪比选空姐

童叔不飙车
2026-05-16 22:25:07
第5冠,张雪机车夺捷克站第二回合冠军,夺冠过程令对手绝望

第5冠,张雪机车夺捷克站第二回合冠军,夺冠过程令对手绝望

真理是我亲戚
2026-05-17 20:56:52
我一直纠结刘涛的长相很久了,昨天拿去让老人家帮忙看看面相。

我一直纠结刘涛的长相很久了,昨天拿去让老人家帮忙看看面相。

小光侃娱乐
2026-05-13 11:59:03
价格战又起,携号转网39元包1000M宽带+90G流量!你们就卷吧

价格战又起,携号转网39元包1000M宽带+90G流量!你们就卷吧

通信老柳
2026-05-17 09:02:01
再过半个月,全国医院的看病规矩就要彻底变了

再过半个月,全国医院的看病规矩就要彻底变了

荷兰豆爱健康
2026-05-17 21:55:24
2026-05-18 06:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15235文章数 66875关注度
往期回顾 全部

科技要闻

三大运营商即将免月租?多方回应

头条要闻

广西柳州凌晨发生5.2级地震 已致3人失联

头条要闻

广西柳州凌晨发生5.2级地震 已致3人失联

体育要闻

生死战只拿3分的核心,还有留的必要吗?

娱乐要闻

卢昱晓道歉:认识到问题严重性!

财经要闻

长鑫科技 预计上半年净利至少500亿元

汽车要闻

车长超5米/双动力可选 昊铂S600预售权益价18.89万起

态度原创

房产
健康
艺术
时尚
本地

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

专家揭秘干细胞回输的安全风险

艺术要闻

老寿星写兰,沉厚老辣

“这条裙子”是今年夏天的顶流!谁穿谁好看

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版