网易首页 > 网易号 > 正文 申请入驻

让多视角图像生成更轻松!北航和VAST推出MV-Adapter

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的主要作者来自北京航空航天大学、VAST 和上海交通大学。本文的第一作者为北京航空航天大学硕士生黄泽桓,主要研究方向为生成式人工智能和三维视觉。本文的通讯作者为 VAST 首席科学家曹炎培和北京航空航天大学副教授盛律。

最近,2D/3D 内容创作、世界模型(World Models)似乎成为 AI 领域的热门关键词。作为计算机视觉的基础任务之一,多视角图像生成是上述热点方向的技术基础,在 3D 场景生成、虚拟现实、具身感知与仿真、自动驾驶等领域展现了广泛的应用潜力。

近期多视角图像生成工作大多在 3D 数据集上微调文生图模型或视频生成模型,但这些方法在兼容大规模基础模型和生成高分辨率图像方面面临诸多挑战,表现在难以支持更大基础模型(如 SDXL),难以生成超过 512 分辨率的多视角图像,以及高质量 3D 训练数据稀缺而导致的出图质量下降。总的来说,这些方法的局限性主要源自对基础模型的侵入性修改和全模型微调的复杂性。

因此,北航、VAST、上海交通大学团队推出面向通用多视图生成任务的第一个基于 Adapter 的解决方案(MV-Adapter)。通过高效的新型注意力架构和统一的条件编码器,MV-Adapter 在避免训练图像基础模型的前提下,实现了对多视图一致性和参考图像主体相关性的高效建模,并同时支持对视角条件和几何条件的编码。

总结来说,MV-Adapter 的功能如下:

  • 支持生成 768 分辨率的多视角图像(目前最高)
  • 完美适配定制的文生图模型、潜在一致性模型(LCM)、ControlNet 插件等,实现多视图可控生成
  • 支持文生和图生多视图(而后重建 3D 模型),或以已知几何引导来生成高质量 3D 贴图
  • 实现任意视角生成



  • 论文题目:MV-Adapter: Multi-view Consistent Image Generation Made Easy
  • 论文链接:https://arxiv.org/abs/2412.03632
  • 项目主页:https://huanngzh.github.io/MV-Adapter-Page/
  • 代码仓库:https://github.com/huanngzh/MV-Adapter
  • 在线 Demo:
  • 单图生成多视图:https://huggingface.co/spaces/VAST-AI/MV-Adapter-I2MV-SDXL
  • 文字生成二次元风格的多视图:https://huggingface.co/spaces/huanngzh/MV-Adapter-T2MV-Anime
  • 贴图 Demo 敬请期待

MV-Adapter 效果演示

在了解 MV-Adapter 技术细节前,先来看看它的实际表现。

首先是文字生成多视角图像的能力。MV-Adapter 不仅支持训练时所采用的 SDXL 基础模型,还能适配经过定制训练后的文生图模型(例如二次元等风格模型)、潜在一致性模型(LCM)、ControlNet 插件等,大大提升了多视图生成的可控性和定制化程度,这是以往多视图生成模型难以做到的。



MV-Adapter 还能支持单张图像到多视角图像的生成,其生成的结果与输入图像具有高度的 ID 一致性。



下面是使用 MV-Adapter 从文字生成的多视角图像重建 3D 物体的结果,可以看到,因为 MV-Adapter 生成图像的多视角一致性高,其重建的几何结果也都较为出色。



下面是使用 MV-Adapter 从单张图像生成多视角图像后,重建 3D 物体的结果。



此外,MV-Adapter 还支持给已知 mesh 几何生成对应贴图,下面是从文字条件和单张图像条件生成的 3D 贴图结果,可以看到,其生成的贴图结果质量很高,且和输入的条件匹配程度高。



MV-Adapter 还能轻易扩展至任意视角生成,下面是生成 40 个俯仰角从低到高的结果,可以看到,尽管视角数量提升,MV-Adapter 仍能生成多视角一致的图像。



整体而言,MV-Adapter 做出了以下贡献:

  • 提出了面向通用多视图生成的第一个适配器解决方案,大大提高效率,且支持更大尺度的基础模型以获得更高的性能。
  • 引入了一个创新的注意力架构和通用的条件编码器,可以有效地对 3D 几何知识进行建模,并支持 3D 生成和纹理生成等多种应用。
  • MV-Adapter 可以扩展至从任意视点生成图像,从而促进更广泛的下游任务。
  • MV-Adapter 提供了一个解耦学习框架,为建模新类型的知识(例如物理或时序知识)提供了见解。

多视图适配器 MV-Adapter

MV-Adapter 是一种即插即用的适配器,它可学习多视图先验,无需进行特定调整即可将其迁移到文生图模型及其衍生模型中,使其在各种条件下生成多视图一致的图像。在推理时,我们的 MV-Adapter 包含条件引导器和解耦的注意层,可以直接插入定制化的基础模型中,以构成多视图生成器。



通用的条件引导器

为了支持多视角图像生成任务,我们设计了一个通用的条件引导器,能够同时编码相机和几何信息,从而为文生图模型提供不同类型的引导。相机条件化采用 “光线图”(raymap)表示,相机的位置和方向信息被精确编码,以便与预训练模型的潜在表示相匹配。几何条件化则通过全局的几何表示来引导生成,结合三维位置图和法线图的细节信息,捕捉物体的几何特征,有助于提高图像的纹理细节与真实感。条件引导器采用轻量级的卷积网络设计,有效整合不同尺度的多视角信息,确保模型能够在多个层级上无缝结合条件输入,进一步提升生成效果和适应性。

解耦的注意力层

我们提出了一种解耦的注意力机制,通过复制现有的空间自注意力层来引入新的多视角注意力层和图像交叉注意力层。这一设计保留了原始网络结构和特征空间,避免了传统方法对基础模型进行侵入式修改。在过去的研究中,为了建模多视角一致性,通常会直接修改自注意力层,这会干扰到模型的学习先验并需要进行全模型微调。而我们通过复制原有自注意力层的结构与权重,并将新层的输出投影初始化为零,从而确保新层可以独立学习几何信息,而不会影响原有模型的特征空间。这样一来,模型能够在不破坏原有预训练特征的前提下,充分利用几何信息,提升多视角生成的效果。



为了更高效地整合不同类型的注意力层,我们设计了一种并行的注意力架构。在传统的 T2I 模型中,空间自注意力层与文本交叉注意力层通过残差连接串联在一起,而我们的设计则将多视角注意力层与图像交叉注意力层并行添加。这种并行架构确保了新引入的注意力层能够与预训练的自注意力层共享输入特征,从而充分继承原始模型的图像先验信息。具体来说,输入特征在经过自注意力层后,还会同时传递给多视角注意力和图像交叉注意力层,允许这些新层与原始自注意力层并行工作,并在学习多视角一致性和图像条件生成时,无需从零开始学习。通过这种方式,我们能够在不破坏基础模型特征空间的前提下,高效地扩展模型的能力,提升生成质量和多视角一致性。

多视角注意力机制的具体实现。为了满足不同应用需求,我们设计了多种多视角注意力策略。针对 3D 物体生成,我们使模型能够生成位于 0° 仰角的多视角图像,并采用行级自注意力。对于 3D 纹理生成,考虑到视角覆盖要求,除了在 0° 仰角生成四个均匀分布的视角外,我们还加入了来自上下方向的两个视角。通过行级和列级自注意力相结合,实现了视角之间信息的高效交换。而在任意视角生成任务中,我们则采用全自注意力,进一步提升了多视角注意力层的灵活性和表现力。这样的设计使得生成效果更加精细、丰富,适应了各种复杂的多视角生成需求。

图像交叉注意力机制的具体实现。为了在生成过程中更精确地引导参考图像信息,我们提出了一种创新的图像交叉注意力机制,在不改变原始 T2I 模型特征空间的情况下,充分利用参考图像的细节信息。具体而言,我们采用预训练且被冻结的文生图 U-Net 模型作为图像编码器,将清晰的参考图像输入该 U-Net,并设置时间步 t=0,提取来自空间自注意力层的多尺度特征。这些细粒度的特征包含了丰富的主题信息,通过解耦的图像交叉注意力层注入到去噪 U-Net 中,从而利用预训练模型学到的深层表示,实现对生成内容的精准控制。这一方法有效提升了生成质量,并使得模型在细节控制上更加灵活和精确。

实验结果

文章首先评估了多视图生成的性能,与现有方法进行对比。具体来说,文章评估了由文字生成多视图、由单张图像生成的多视图的质量和一致性,可以看到,MV-Adapter 的结果都优于现存方法。



文章还评估了使用 MV-Adapter 生成 3D 贴图的表现。从下面的结果可以看出,MV-Adapter 不管是生成的质量,还是推理的速度,都达到 SOTA 水平。



文章还对所提出的方法进行了消融实验,如下表所示,其验证了 MV-Adapter 训练的高效,以及其提出的并行注意力架构的有效性。



此外,文章还在附录部分探讨了以下内容:

  • MV-Adapter 与 LoRA 的讨论和分析
  • MV-Adapter 原生的图像修复能力
  • MV-Adapter 的应用价值
  • 将 MV-Adapter 扩展至任意视角图像生成的实现细节

更多实验细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拉链门过去16年后,莱温斯基撰文揭穿了真相:最后是我当了替罪羊

拉链门过去16年后,莱温斯基撰文揭穿了真相:最后是我当了替罪羊

葡萄说史
2024-12-19 16:31:24
颜宁微博称:明年只参加已接受邀请的学术会议,不接受国内任何个人或单位邀请做学术报告!

颜宁微博称:明年只参加已接受邀请的学术会议,不接受国内任何个人或单位邀请做学术报告!

高分子科学前沿
2024-12-19 19:45:14
“我不会结婚”北京理工女大学生语出惊人:穷人生孩子不负责任

“我不会结婚”北京理工女大学生语出惊人:穷人生孩子不负责任

八斗小先生
2024-12-18 16:07:23
江同志时期,被判死刑的3名高官,其中一位还自称是“总统”

江同志时期,被判死刑的3名高官,其中一位还自称是“总统”

历史龙元阁
2024-12-18 22:40:54
王楚钦被这一推,娱乐圈的世态炎凉,在杨洋身上体现得淋漓尽致

王楚钦被这一推,娱乐圈的世态炎凉,在杨洋身上体现得淋漓尽致

八卦南风
2024-12-19 10:40:39
仅差817分!NBA历史最难第一纪录即将诞生,前无古人后无来者

仅差817分!NBA历史最难第一纪录即将诞生,前无古人后无来者

康泳哥看体育
2024-12-18 23:41:31
豪华四巨头阵容腑冲至西部倒数第一

豪华四巨头阵容腑冲至西部倒数第一

大眼瞄世界
2024-12-19 10:38:56
南京又一过江通道即将开通,拟定收费标准曝光

南京又一过江通道即将开通,拟定收费标准曝光

鲁中晨报
2024-12-19 17:07:04
死后八年,艾跃进口碑一路下滑,如今几乎全网喊打

死后八年,艾跃进口碑一路下滑,如今几乎全网喊打

笑熬浆糊111
2024-12-19 00:05:25
吴奇隆刘诗诗离婚后续:业内人曝他俩不官宣原因,路人晒新图真相

吴奇隆刘诗诗离婚后续:业内人曝他俩不官宣原因,路人晒新图真相

花花lo先森
2024-12-19 09:16:36
中美关系全面解冻!12月19日,今日凌晨的四大消息冲击来袭!

中美关系全面解冻!12月19日,今日凌晨的四大消息冲击来袭!

农村阿祖
2024-12-19 18:53:21
故事:聂磊称霸青岛十几年,最后因惹上一个女人,踢到铁板就此灭亡

故事:聂磊称霸青岛十几年,最后因惹上一个女人,踢到铁板就此灭亡

红豆讲堂
2024-12-17 10:54:23
这种店,上海突然大量出现!多地生意火爆,不少人贪便宜“吃药”

这种店,上海突然大量出现!多地生意火爆,不少人贪便宜“吃药”

新民晚报
2024-12-19 15:54:28
院长人妻通奸后续:床上情话不堪!人妻要求绿帽丈夫赔偿880万!

院长人妻通奸后续:床上情话不堪!人妻要求绿帽丈夫赔偿880万!

逍遥史记
2024-12-19 16:28:08
晒70岁姥姥的极简生活,被嘲笑寒酸,网友:这不是穷,这是境界!

晒70岁姥姥的极简生活,被嘲笑寒酸,网友:这不是穷,这是境界!

游古史
2024-12-19 17:45:43
歼20也是这个时间点!网上惊现中国6代机试飞,成飞公园暂时闭园

歼20也是这个时间点!网上惊现中国6代机试飞,成飞公园暂时闭园

青辉
2024-12-19 17:08:15
NBA球队最新市值排名:勇士91.4亿领跑湖人第3 篮网57亿飙升至第4

NBA球队最新市值排名:勇士91.4亿领跑湖人第3 篮网57亿飙升至第4

罗说NBA
2024-12-19 04:41:33
山东妈妈晒1m9儿子去儿科,彪形大汉不满13岁,网友误认为医闹

山东妈妈晒1m9儿子去儿科,彪形大汉不满13岁,网友误认为医闹

熙熙说教
2024-12-19 17:34:31
胡塞迎生死大考!16艘军舰240架战机发起攻击,以军:这就是决战

胡塞迎生死大考!16艘军舰240架战机发起攻击,以军:这就是决战

大风文字
2024-12-19 18:41:00
今晨突发!上海内环5车追尾,3车受损严重,2人送医

今晨突发!上海内环5车追尾,3车受损严重,2人送医

鲁中晨报
2024-12-19 16:47:04
2024-12-19 21:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
9844文章数 142109关注度
往期回顾 全部

科技要闻

奇瑞老总:高管不理解与华为合作就开除

头条要闻

小米SU7滚坠山崖1家4口安然无恙 当事人:刚提车1个月

头条要闻

小米SU7滚坠山崖1家4口安然无恙 当事人:刚提车1个月

体育要闻

曾被全世界嘲笑的男孩,成了非洲最好的球员

娱乐要闻

著名电影表演艺术家谢芳去世 享年89岁

财经要闻

“吹哨人”曝相宜本草违规添加有毒原料

汽车要闻

比亚迪韩国与6家经销商签约 明年进军韩国市场

态度原创

时尚
游戏
旅游
教育
公开课

12件适合犒劳自己的好物,太好用了

《巫师4》希里成为猎魔人引争议 与原作设定相悖

旅游要闻

三亚明确春节旅游饭店价格 将实行政府指导

教育要闻

刚刚,西城教改抛出“王炸”!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版