始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在。wisemodel社区上线,H800/H20等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及模型和,并。
上海人工智能实验室(Shanghai AI Lab)与南洋理工大学(NTU)共同推出了新一代的三维生成大模型3DTopia-XL,能够从图片或文字单阶段直出具有PBR(物理渲染)材质的高质量三维数字资产。3DTopia-XL已将代码、预训练模型和技术报告开源,模型已经发布在始智AI wisemodel开源社区,欢迎大家前去社区体验。
通过采用全新的三维表征PrimX以及基于DiT的生成架构,具有10亿规模参数的3DTopia-XL能够在5秒内完成从图像或文本生成具有物理材质属性的超写实三维模型,生成结果作为GLB格式的三维资产可以无缝导入到主流游戏引擎和工业设计软件的管线中服务于下游应用。
代码链接:
https://github.com/3DTopia/3DTopia-XL
模型地址:
https://wisemodel.cn/models/ZhaoxiChen/3DTopia-XL
技术报告:https://arxiv.org/abs/2409.12957
在项目开源的这几天,广大网友也是第一时间涌入官方提供的在线Demo,上传自己的图片进行试玩。
其中Huggingface的产品设计总监Victor更是第一时间就进行了尝试,他随意上传了一张图片给3DTopia-XL,模型经过处理返回给他了一个高质量的三维模型,同时还是带材质的那种!
他也将试玩录屏上传到X上分享给广大网友:
输入一张橘子做的小象的创意图片,生成的三维物体几何质量很高,同时右下角的交互视窗能够支持更换不同环境HDR光照图来渲染输出的GLB格式资产:
01
3DTopia-XL核心技术与模型结构
通过技术报告,3DTopia-XL的核心技术是一种被称为PrimX的全新三维表征,弥补了三维数据没有高效张量化表征的空白,从而实现对最具可扩展性的扩散模型框架DiT的支持。
具体而言,3DTopia-XL采用的是一种创新的三维扩散大模型直出技术,可实现超写实工业级三维资产的秒级生成。3DTopia-XL采用PrimX作为一种符号距离场的高效几何表征方式,将三维物体表征为若干个Primitive的集合。每个Primitive仅在形状边界邻域内对局部几何、纹理和材质进行联合建模,从而将一个三维资产的所有信息(几何、纹理、材质)表示为若干个固定长度的token,完成了三维数据的高质量结构化。
这样的方法不仅大幅减少了表示三维物体所需的参数量,提高了参数利用效率,而且还便于DiT基模型的规模扩展。
在基模型层面,为了实现高质量的三维生成能力,3DTopia-XL提出了一个包含10亿参数且计算高效的三维扩散模型。其中PrimX作为将三维物体高效地转化为基于符号距离场的表达,会进一步通过变分自编码器(Prim Patch VAE)对每个体积基元进行压缩编码。
通过DiT架构的引入,使得模型能够在隐空间中进行大规模可扩展的训练(Latent Primitive Diffusion),从而实现通过单张图像输入生成三维物体的通用能力。得益于符号距离场的良好性质,3DTopia-XL生成的三维内容具备光滑的表面,精细的结构以及良好的拓扑,接近手工建模质量。通过DDIM采样策略,3DTopia-XL在推理阶段可以实现5s内完成去噪过程。
02
实验结果
定量对比上,3DTopia-XL在三维生成标准评测指标超越现有的开源模型,CLIP score上取得24.33,超越ShapE(21.98),也高于3DTopia第一版的22.54,展现出了三维内容创作方面的巨大潜力。
同时,作者从四个维度(整体质量,几何平滑度,输入相关度和渲染正确性)对于图生三维模型输出的数字资产在工业管线中进行了用户评测(如下图所示),3D-Topia-XL在各维度上均超越了InstantMesh, LGM, CRM等基于重建的主流方法。
定性对比上,作者们对比了主流的基于重建的方法(标红)以及原生三维扩散模型(标黄),并在对比策略上采用直接将mesh导入渲染引擎进行对应环境下的渲染,来验证三维生成模型的实际可用性。
如下图所示,得益于3DTopia-XL的高质量几何以及材质建模,其展示出的渲染效果和生成质量都超过一系列基线方法。
同时作者们还验证了三维生成模型上的尺度定律(Scaling Law),增加训练计算量和增大模型尺寸都会带来生成性能的进一步提升(以FID下降为趋势特征)。
得益于PrimX表征的通用性,使得模型能够同时编码几何、纹理及材质,完成一站式三维生成引擎可用的数字资产,摆脱了多阶段独立建模的繁琐步骤。
我们发现,3DTopia-XL生成的数字资产可以直接导入Blender,UE等图形引擎在任意环境下进行渲染。其高质量PBR建模使得生成的数字资产展示出高质量反光效果,实现了与环境的无缝融合。
除了图生三维模型以外,3DTopia-XL还会在不久的未来提供多模态输入支持,包括文生三维模型和多视角重建模型,为三维内容创作提供了全面的解决方案套装。
wisemodel上提供了算力资源和开发环境,欢迎感兴趣的朋友在wisemodel上创建开发环境进行模型的部署和使用,模型文件在平台上可以直接使用,如果有志愿者来wisemodel上制作模型部署的镜像,wisemodel也可以提供一些算力券支持。
----- END -----
wisemodel相关
系统升级
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态,
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.