网易首页 > 网易号 > 正文 申请入驻

CVPR 2025满分论文:开源三维生成框架Craftsman3D

0
分享至

机器之心发布

机器之心编辑部

香港科技大学谭平教授团队在 CVPR 2025 发表两项三维生成技术框架,核心代码全部开源,助力三维生成技术的开放与进步。其中Craftman3D 获得三个评委一致满分,并被全球多家知名企业如全球最大的多人在线游戏创作平台 Roblox, 腾讯混元 Hunyuan3D-2,XR 实验室的 XR-3DGen 和海外初创公司 CSM 的 3D 创作平台等重量级项目的引用与认可。

相关技术已融入光影焕像的三维生成平台及产品,用户只需简单操作,就能开启专属三维创作之旅。

  • 光影焕像 3D 生成平台(主站):https://triverse.ai/zh-cn/
  • 光影焕像 3D 生成平台(国内备用):https://triverse.lightillusions.com/zh-cn/

本文中 Craftman3D 的共同一作李威宇、刘嘉瑞和阎鸿禹均为香港科技大学博士研究生。Dora 的第一作者为香港科技大学博士陈锐。均为香港科技大学谭平教授组的在读博士生。

三维内容的创建对于游戏、影视、AR/VR 乃至具身智能的环境仿真中具备关键作用。不过,传统三维建模方式要求建模者掌握大量专业知识,且需投入大量人工操作,这使得建模过程极为耗时,极具挑战性,对于非专业用户而言更是如此。过高的时间与人力成本,已然成为限制这些领域发展的主要瓶颈。近年来,基于 AI 的三维内容生成技术逐步改变了这一局面。借助自动化生成技术,三维内容创建的门槛大幅降低,让更广泛的用户群体能够高效地构建三维数字内容。

当前原生三维生成模型主要由两部分构成:一是 3D-VAE(3D Variational Auto Encoder)变分自编码器,它通过 Encoder 网络将三维模型压缩编码至潜在空间(latent space),并通过 Decoder 网络解码重构出三维模型;二是基于 3D-VAE 构建的潜在扩散模型(latent diffusion model)用于处理文本或图像输入的三维模型生成。三维生成大模型所呈现的细节上限,在很大程度上取决于 3D-VAE 对三维几何的编码与重建能力。为提升三维模型编解码过程中的几何细节丰富度,香港科技大学谭平团队联合字节跳动豆包大模型团队与光影焕像团队,共同提出了 Dora 模型来改进三维原生 VAE。

在 3D-VAE 模型的基础上,香港科技大学与光影焕像团队进一步提出了 Craftsman3D 算法方案,该方案借鉴了传统建模流程,能够快速生成高质量的 3D 模型,以进一步生成满足设计师对高质量三维模型的生成要求。此方法在 CVPR 中获得审稿人一致满分评价,它融合了原生 3D 大模型以及实时几何细节优化两大部分:首先由原生三维大模型生成初始模型,随后通过实时可交互几何细化操作,短短几十秒内即可生成具备高质量几何细节的三维模型。

  • Dora 开源代码:https://github.com/Seed3D/Dora/
  • Dora 项目主页:https://aruichen.github.io/Dora/

本文提出的 Dora-VAE,创新性地将显著边缘采样算法与双交叉注意力机制相结合,极大地提升了三维变分自编码器(3D-VAE)的重建质量与压缩性能。在训练阶段,该方法能够精准识别出具有较高几何复杂性的区域,并对其优先处理,从而有效改善了对精细几何特征的保留情况,让变分自编码器能够着重关注那些传统均匀采样方式容易忽视的关键几何细节。在实现高质量重建的同时,相较于当前 SOTA 方法(Xcube),Dora-VAE 在 3D 形状压缩率方面实现了超过 8 倍的提升 。

当前,三维变分自编码器的运行机制是:通过在三维网格表面进行点采样来完成形状编码,而后利用解码器对原始三维网格进行重建。经过深入且细致的研究,研究人员察觉现有方法普遍采用均匀采样(uniform sampling)策略,从而导致重建性能受限。为了验证这一发现,研究人员选取了具有复杂几何细节的键盘(如下图 (a) 所示)作为实验对象,对其进行点云采样,并将不同采样策略在多种采样密度下的点云分布情况进行了可视化呈现(如下图 (b)(c) 所示)。实验结果清晰地显示:即便提升了采样率,采用均匀采样方式(如下图 (b) 所示)依旧无法有效地保留键盘按键等锐利特征(sharp feature)。这一简洁直观的实验有力地证实了,均匀采样在本质上对几何细节的捕捉能力形成了制约,而这种制约进一步对变分自编码器的重建精度以及所训练扩散模型的生成质量产生了不良影响。

研究人员通过三个指标评估重建质量:使用 1M 采样点对比输入网格与不同 3D VAEs 解码结果的差异,包括:1) F-score;2) 倒角距离 (CD);3) 尖锐法线误差 (SNE)。为公平比较,研究人员同时给出潜在编码长度 (LCL)。结果表明,Dora-VAE 在 Dora-bench 中所有的指标都达到了最佳。

  • Craftman3d开源代码:https://github.com/wyysf-98/CraftsMan3D/
  • Craftman3d项目主页:https://craftsman3d.github.io/

在训练 3D-VAE 的基础上,CraftsMan3D 通过汲取传统建模流程的经验,精心设计了两阶段的技术方案:第一阶段使用原生三维大模型进行初始模型生成。算法先使用 multi-view image diffusion 进行多视图生成,然后将多视图输入到 3D-DiT 扩散模型中来生成拓扑规则的几何和纹理。第二阶段为几何细化阶段,团队使用法向图超分的方案实现高质量法向估计,然后通过可微渲染实现法线图引导的几何细节优化。

阶段一:基于 DiT 的原生三维大模型

团队提出了将三维扩散模型与多视图扩散模型相结合的原生三维生成方案。具体来说,算法使用 3D-VAE 将几何压缩到潜在空间,然后使用 3D-DiT 扩散模型在潜在空间进行生成。对于单个参考图像或文本提示输入,首先将其输入到多视图扩散模型中以获得多视图图像作为三维扩散模型的输入,然后使用三维扩散模型从中学习生成三维几何图形。

团队设计了完善的数据筛选 - 几何水密化 - 渲染等数据处理流程,形成了强大的数据处理平台以支撑原生三维大模型的训练数据。

阶段二:高质量几何细节优化

受限于 3D 大模型常用的隐式表达方案和 VAE 的压缩特性,原生三维生成的物体往往难以具备很高频的几何细节。因此,论文提出了第二阶段交互式几何细节优化,通过法相贴图生成和反向 “烘焙” 优化的方式捕捉高频的几何细节,从而产生高质量的三维资产。

具体来说,该部分通过基于表面法线贴图的扩散模型来实现法线图细节增强,并通过显式三角网格优化增加三维几何细节。团队在原版 stable diffusion 的基础上使用法线数据集微调,并借助 tile 插件实现法相贴图的超分辨率生成。通过这种方式模型既拥有几何细节生成能力,还保留了原有的泛化能力。进一步基于法线贴图优化直接优化三维网格顶点,只需 10 秒,即可在用户绘制的区域添加几何细节,并完全保持其他区域的几何形状。

该技术还支持趣味扩展功能:以人物照片为输入,可生成与输入图像面部特征匹配的 3D 模型,实现 3D 资产快速换脸。

使用Craftman3D三维生成技术方案,普通用户无需复杂操作即可快速搭建出精美的三维模型和场景。无论是游戏开发、影视制作还是建筑室内设计、具身感知虚拟场景,各类创意都能轻松实现。如下图所示,场景中的所有物体均由 Craftman3D 自动生成。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
方媛与郭富城结婚那年,协议写了厚厚一沓,银行存款由经纪人管着

方媛与郭富城结婚那年,协议写了厚厚一沓,银行存款由经纪人管着

手工制作阿歼
2026-05-20 21:28:00
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
林良锋:王牌哈兰德威力打折,瓜帅已带不动曼城

林良锋:王牌哈兰德威力打折,瓜帅已带不动曼城

体坛周报
2026-05-20 18:59:12
广东一犯罪团伙为境外网赌平台提供结算服务,190余人被抓

广东一犯罪团伙为境外网赌平台提供结算服务,190余人被抓

南方都市报
2026-05-20 12:29:05
泰晤士报:沙特愿出售纽卡25%股份以筹集3亿英镑资金

泰晤士报:沙特愿出售纽卡25%股份以筹集3亿英镑资金

懂球帝
2026-05-21 08:00:55
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
莫莱罗:费尔明受伤真的可惜;没人想因为别人受伤而入选名单

莫莱罗:费尔明受伤真的可惜;没人想因为别人受伤而入选名单

懂球帝
2026-05-20 15:59:45
早报(05.21)| 美芯片股又爆了!英伟达财报炸裂,绩后股价反跌;特朗普发声:“我不急” ;SpaceX正式申请IPO;三星暂缓罢工!

早报(05.21)| 美芯片股又爆了!英伟达财报炸裂,绩后股价反跌;特朗普发声:“我不急” ;SpaceX正式申请IPO;三星暂缓罢工!

格隆汇
2026-05-21 08:18:09
200架波音订单背后,中国要的根本不是飞机

200架波音订单背后,中国要的根本不是飞机

Thurman在昆明
2026-05-20 19:50:41
开了28年的北京“排队王”关店,都是内斗惹的祸?

开了28年的北京“排队王”关店,都是内斗惹的祸?

蓝鲸新闻
2026-05-19 11:37:38
凯帕因出场数不够无缘自动获得英超奖牌,但枪手能自行分配

凯帕因出场数不够无缘自动获得英超奖牌,但枪手能自行分配

懂球帝
2026-05-20 17:13:31
56票:50票,赖清德弹劾案结果公布,中国大陆对赖清德的称呼变了

56票:50票,赖清德弹劾案结果公布,中国大陆对赖清德的称呼变了

墨兰史书
2026-05-21 01:35:03
两个人吃面花1200!杭州天价面馆:老板戴金牌,明星都不敢敞开吃

两个人吃面花1200!杭州天价面馆:老板戴金牌,明星都不敢敞开吃

房产衫哥
2026-05-20 14:30:32
中方已收到报价,俄罗斯无奈,只能放下身段,求中国接盘这笔生意

中方已收到报价,俄罗斯无奈,只能放下身段,求中国接盘这笔生意

瑛派儿老黄
2026-05-20 19:16:42
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
恩里克:在巴黎谁不跑就会被我“收拾”,所有人都为集体而战

恩里克:在巴黎谁不跑就会被我“收拾”,所有人都为集体而战

懂球帝
2026-05-21 08:15:08
上海交大的樊同学事件细思极恐:她应该不是第一次干这事

上海交大的樊同学事件细思极恐:她应该不是第一次干这事

迷世书童
2026-05-20 12:40:35
3-0横扫!欧联杯冠军诞生:维拉终结30年冠军荒,埃梅里缔造神迹

3-0横扫!欧联杯冠军诞生:维拉终结30年冠军荒,埃梅里缔造神迹

足球狗说
2026-05-21 04:59:04
特朗普访华成果落地,中国购买200架波音,换C919发动机供应保障

特朗普访华成果落地,中国购买200架波音,换C919发动机供应保障

麓谷隐士
2026-05-21 00:09:43
后续来了!老师以德报怨请吃汉堡,恩怨一笔勾销

后续来了!老师以德报怨请吃汉堡,恩怨一笔勾销

映射生活的身影
2026-05-21 02:36:27
2026-05-21 08:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13045文章数 142651关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

牛弹琴:中俄罕见发表了两份联合声明 特朗普也在关注

头条要闻

牛弹琴:中俄罕见发表了两份联合声明 特朗普也在关注

体育要闻

尼克斯赢下最窒息的一场翻盘,场场都是逆天局

娱乐要闻

王菲“没事儿”,成年人学不来的松弛

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

家居
艺术
房产
教育
时尚

家居要闻

日常印记 静谧温馨

艺术要闻

毛主席《祭母文》手稿曝光!临摹书法是否必须与原帖分毫不差

房产要闻

别被中介带了节奏,你的房子可能比你想的值钱

教育要闻

考前15天,每天一个必备高考笔记——副高

全网首档挑战Al设备拍摄短剧现场直播!

无障碍浏览 进入关怀版