网易首页 > 网易号 > 正文 申请入驻

剑指专业领域零部件级3D生成!Meta联手牛津推出全新多视图扩散模型

0
分享至

新智元报道

编辑:alan

【新智元导读】对于专业应用和创意工作流来说,除了高质量的形状和纹理,更需要可以独立操作的「零部件级3D模型」。为此,Meta与牛津大学的研究人员推出了全新的多视图扩散模型。

当前AI生成的3D模型,已经拥有相当高的质量。

但这些生成结果通常只是单个物体的某种表示(比如隐式神经场、高斯混合或网格),而不包含结构信息。

对于专业应用和创意工作流来说,除了高质量的形状和纹理,更需要可以独立操作的「零部件级3D模型」。

比如上图中的几个例子,3D模型应该由多个有意义的部分组成,可以分离、组合与编辑。

而上图中的效果,正是出自Meta与牛津大学的研究人员推出的全新多视图扩散模型——PartGen。

论文地址:https://arxiv.org/pdf/2412.18608

项目地址:https://silent-chen.github.io/PartGen

PartGen可以使用文本、图像或非结构化3D对象作为输入,生成上面说的「子结构可分离」的3D模型。

同一些SOTA生成工作流类似,PartGen也采用两阶段方案,以消除零部件分割和重建的歧义:

首先,多视图生成器根据给定条件,生成3D对象的多个视图,由第一个多视图扩散模型提取一组合理且视图一致的部分分割,将对象划分为多个部分。

然后,第二个多视图扩散模型将每个部分分开,填充遮挡并馈送到3D重建网络,对这些补充完整的视图进行3D重建。

PartGen在生成过程中考虑了整个对象的上下文,以确保各部分紧密集成。这种生成式补全模型可以弥补由于遮挡而丢失的信息,还原出完全不可见的部分。

作者在合成以及真实的3D资产上评估了PartGen,如图所示,其性能大大优于之前的类似方法。

作者还将PartGen部署到真实的下游应用程序,例如3D零件编辑,以证明模型的实力。

零部件级3D生成

零件很重要,因为零件可以支持重用、编辑或者动画。

人类艺术家在制作3D模型时,会自然地以这种角度考虑。

比如一个人的模型可以分解成衣服和配饰,以及各种解剖特征(头发、眼睛、牙齿、四肢等)。

零件承载的信息和功能也很重要,比如不同的部分可能具有不同的动画或不同的材质。

零件还可以单独替换、删除或编辑。比如在视频游戏中,角色更换武器或衣服。

另外,由于其语义意义,零部件对于机器人、具身人工智能和空间智能等3D理解和应用也很重要。

PartGen将现有3D生成方法从非结构化,升级为零部件组合的方法,从而解决了两个关键问题:

1)如何自动将3D对象分割成多个部分; 2)如何提取高质量、完整的3D零部件,即使是在外观部分遮挡、或者根本看不到的情况下。

多视图零部件分割

3D对象分割并没有所谓的「黄金标准」。因此,分割方法应该对合理的部分分割的分布进行建模,而不是对单个分割进行建模。

可以使用概率扩散模型来学习这项任务,从而有效地捕捉和建模这种模糊性。

作为整个生成流程的第一阶段,研究人员将零件分割转换为随机多视图一致性着色问题(stochastic multi-view-consistent colouring problem),利用经过微调的多视图图像生成器,在3D对象的多个视图中生成颜色编码的分割图。

作者不假设任何确定性的零件分类法——分割模型从艺术家创建的大量数据中学习,如何将对象分解为多个部分。

考虑将多数图图像作为输入,模型的任务就是预测多个部分的mask。给定一个映射,将分割图渲染为多视图RGB图像,然后对预训练模型进行微调。

作者使用VAE将多视图图像编码到潜在空间中,并将其与噪声潜在空间堆叠起来,作为扩散网络的输入。

这种方法有两个优势:首先是利用了预训练的图像生成器,保证了天生具有视图一致性;其次,生成方法允许简单地从模型中重新采样来进行多个合理的分割。

上下文部分补全

对于第二个问题,即在3D中重建分割的零件,普遍的方法是在现有的对象视图中屏蔽零件,然后使用3D重建网络进行恢复。

然而,当零件被严重遮挡时,这项任务相当于非模态重建,是高度模糊的,确定性重构网络无法很好地解决。

本文建议微调另一个多视图生成器来补全部分的视图,同时考虑整个对象的上下文。

类似于上一个阶段,研究人员将预训练的VAE分别应用于蒙版图像和上下文图像,产生2 × 8个通道,并将它们与8D噪声图像和未编码的部分掩码堆叠在一起,获得扩散模型的25通道输入。

通过这种方式,即使零件在原始输入视图中仅部分可见,甚至不可见,也可以可靠地重建这些零件。此外,生成的部分可以很好地组合在一起,形成一个连贯的3D对象。

最后一步是在3D中重建零件。因为零件视图已经是完整且一致的,所以可以简单地使用重建网络来生成预测,此阶段的模型不需要特殊的微调。

训练数据

为了训练模型,研究人员从140k 3D艺术家生成的资产集合中构建了数据集(商业来源获得AI训练许可)。数据集中的示例对象如图3所示。

对于方法中涉及微调的三个模型,每个模型的数据预处理方式都不同。

为了训练多视图生成器模型,首先必须将目标多视图图像(4个视图组成)渲染到完整对象。

作者从正交方位角和20度仰角对4个视图进行着色,并将它们排列在2 × 2网格中。

在文本条件下,训练数据由多视图图像对及其文本标题组成,选择10k最高质量的资产,并使用类似CAP3D的工作流生成它们的文本标题。

在图像条件下,使用所有140k模型数据,设置随机采样以单个渲染的形式出现。

为了训练零件分割和补全网络,还需要渲染多视图零件图像及其深度图。

由于不同的创作者对部分分解有不同的想法,因此作者过滤掉数据集中可能缺乏语义的过于精细的部分(首先剔除占用对象体积小于5%的部分,然后删除具有10个以上部分或由单个整体组成的资产)。

最终的数据集包含45k个对象(210k个零部件)。

下游应用

下图给出了几个应用示例:部件感知文本到3D生成、部件感知图像到3D生成,以及真实世界的3D对象分解。

如图所示,PartGen可以有效地生成具有不同部件的3D对象,即使在严重重叠的情况下,例如小熊软糖。

给定一个来自GSO(Google Scanned Objects)的3D对象,渲染不同的视图以获得图像网格,图6的最后一行显示,PartGen可以有效地分解现实世界的3D对象。

当3D对象被分解之后,它们就可以通过文本输入进一步修改。如图7所示,PartGen可以根据文本提示有效地编辑零件的形状和纹理。

参考资料:

https://x.com/MinghaoChen23/status/1871809184620323279

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普京访华成果来了!中俄长谈近3小时,达成3大共识,同意条约延期

普京访华成果来了!中俄长谈近3小时,达成3大共识,同意条约延期

锅锅爱历史
2026-05-21 05:04:49
606:16!美国对中国耍阴招借刀杀人,普京的表态至关重要

606:16!美国对中国耍阴招借刀杀人,普京的表态至关重要

兵鉴史
2026-05-21 09:58:18
网友称被台球助教仙人跳,转账两千摸了之后对方就报警索赔

网友称被台球助教仙人跳,转账两千摸了之后对方就报警索赔

映射生活的身影
2026-04-25 16:25:10
荷兰光刻机巨头:中国人太聪明了,封锁中国活不下去的是西方企业

荷兰光刻机巨头:中国人太聪明了,封锁中国活不下去的是西方企业

近史阁
2026-05-21 08:48:35
战争不再按照俄罗斯剧本发展,局势发生巨大变化

战争不再按照俄罗斯剧本发展,局势发生巨大变化

山河路口
2026-05-18 21:33:51
国民党资深媒体人竟称郑丽文很危险?孙玉良:国民党该先统一思想

国民党资深媒体人竟称郑丽文很危险?孙玉良:国民党该先统一思想

孙玉良
2026-05-21 09:45:16
苏联是使世界战争危险增长的罪魁祸首 1976年3月26日《人民日报》

苏联是使世界战争危险增长的罪魁祸首 1976年3月26日《人民日报》

那些看得见的老照片
2026-05-18 17:22:13
700 年前的冷门古画突然爆火

700 年前的冷门古画突然爆火

中国艺术家
2026-05-21 05:24:57
葡超游出一条阿根廷大鱼,良心价3200万欧元,两大英超豪门疯抢

葡超游出一条阿根廷大鱼,良心价3200万欧元,两大英超豪门疯抢

零度眼看球
2026-05-21 09:04:45
人到老年才知道,增加骨密度最好的运动,竟然不是跑步和走路

人到老年才知道,增加骨密度最好的运动,竟然不是跑步和走路

周哥一影视
2026-05-20 20:48:12
世卫组织称新冠致死人数达2210万人,是官方数据三倍!瞒报是主因

世卫组织称新冠致死人数达2210万人,是官方数据三倍!瞒报是主因

科普大世界
2026-05-20 09:46:50
A股:刚刚,中央一部门发布,要重拳打击!周四将迎来新的变化

A股:刚刚,中央一部门发布,要重拳打击!周四将迎来新的变化

云鹏叙事
2026-05-21 00:00:10
极不寻常!中国国防部连夜警告后,特朗普称:我要跟赖清德谈一谈

极不寻常!中国国防部连夜警告后,特朗普称:我要跟赖清德谈一谈

元宝课堂
2026-05-21 09:48:16
五大联赛冠军全出炉!阿森纳终圆梦,金球奖最新排行:姆巴佩第10

五大联赛冠军全出炉!阿森纳终圆梦,金球奖最新排行:姆巴佩第10

小火箭爱体育
2026-05-20 16:13:30
太罕见了!中国国防部连夜表态后,特朗普称:我要跟赖清德谈一谈

太罕见了!中国国防部连夜表态后,特朗普称:我要跟赖清德谈一谈

老黯谈娱
2026-05-21 09:04:04
蔡卓妍含泪控诉新婚丈夫出轨多人:大量私密细节曝出,知情者发声

蔡卓妍含泪控诉新婚丈夫出轨多人:大量私密细节曝出,知情者发声

老猫观点
2026-05-19 10:48:03
英格兰9亿欧豪华中场群!谁能获得首发机会?与西班牙相比如何?

英格兰9亿欧豪华中场群!谁能获得首发机会?与西班牙相比如何?

刘哥谈体育
2026-05-20 21:31:53
于娜节目公开胖到230斤的原因,和妈妈同住,不吃主食一顿吃5个菜

于娜节目公开胖到230斤的原因,和妈妈同住,不吃主食一顿吃5个菜

一盅情怀
2026-05-21 09:28:42
41岁C罗又被冠军拦住了,5次射门0射正,决赛后直接离场

41岁C罗又被冠军拦住了,5次射门0射正,决赛后直接离场

林子说事
2026-05-20 20:28:03
上海交大私吞奖金后续:女生大有来头,更多恶行被曝,拉老师下水

上海交大私吞奖金后续:女生大有来头,更多恶行被曝,拉老师下水

奇思妙想草叶君
2026-05-19 23:30:48
2026-05-21 11:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15263文章数 66877关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

湖南一山村洪灾突破历史极值 洪水暴涨8.76米满目疮痍

头条要闻

湖南一山村洪灾突破历史极值 洪水暴涨8.76米满目疮痍

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

同行吐槽汪涵野心重 爆雷37万人受损

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

数码
本地
时尚
公开课
军事航空

数码要闻

绿联推出NAS新品DXP4800 GT:双万兆网口,起价2681.1元

本地新闻

用云锦的方式,打开江苏南京

全网首档挑战Al设备拍摄短剧现场直播!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄媒盛赞中国军人:身姿挺拔 站如松柏

无障碍浏览 进入关怀版