传统的肖像视频编辑方法在3D效果和时间一致性方面常常存在问题,而且在渲染质量和效率上也表现不佳。为了解决这些问题,PortraitGen将肖像视频的每一帧提升为一个统一的动态3D高斯场,这样可以确保每一帧之间的结构和时间一致性。PortraitGen 是一种功能强大的肖像视频编辑方法,可通过多模式提示实现一致且富有表现力的风格化。
此外,PortraitGen设计了一种新的神经高斯纹理机制,不仅可以进行复杂的风格编辑,还能实现超过100帧每秒的渲染速度。PortraitGen结合了多种输入,通过从大规模2D生成模型中提炼的知识来增强效果。同时,它还引入了表情相似性指导和面部识别肖像编辑模块,有效减少了迭代更新数据集时可能出现的问题。(链接在文章底部)
01 标题内容2
PortraitGen 将二维肖像视频提升到四维高斯场中,只需30分钟即可完成多模态肖像编辑。编辑后的3D肖像可以以每秒100帧的速度渲染。首先跟踪单目视频中的SMPL-X系数,然后使用神经高斯纹理机制生成3D高斯特征场。
这些神经高斯数据会被进一步处理,以渲染肖像图像。PortraitGen还采用了迭代数据集更新策略来进行肖像编辑,并提出了一个面部识别编辑模块,以提升表情质量并保留个性化的面部结构。
02 实际使用
PortraitGen方案是一个统一的肖像视频编辑框架。任何保留结构的图像编辑模型都可以用来合成 3D 一致且时间连贯的肖像视频。
文本驱动编辑:使用InstructPix2Pix作为 2D 编辑模型。其 UNet 需要三个输入:输入 RGB 图像、文本指令和噪声潜伏。向渲染图像添加部分噪声,并根据输入源图像和指令对其进行编辑。图像驱动编辑:重点关注两种基于图像提示的编辑工作。一种是提取参考图的全局风格,另一种是通过将对象放置在特定位置来定制图像。这些方法在实验中用于风格迁移和虚拟试穿。使用神经风格迁移算法将参考图的风格迁移到数据集帧,并使用AnyDoor更改主体的衣服。重新点亮:利用IC-Light来操控视频帧的光照。给定一个文本描述作为光照条件,PortraitGen方法可以和谐地调整肖像视频的光照
03 对比与消融实验
PortraitGen方法与最先进的视频编辑方法进行了比较,包括 TokenFlow 、 Rerender A Video 、 CoDeF 和 AnyV2V 。PortraitGen方法在及时保存、身份保存和时间一致性方面明显优于其他方法。
受到“延迟神经渲染”中提出的神经纹理的启发,PortraitGen提出了神经高斯纹理。这种方法为每个高斯存储可学习的特征,而不是存储球面谐波系数。接下来,使用一个2D神经渲染器将处理过的特征图转换成RGB信号。这种方法比球面谐波系数提供了更丰富的信息,能够更好地融合处理后的特征,从而更方便地编辑复杂的风格,比如乐高和像素艺术。
在编辑上半身图像时,如果面部占比较小,模型的编辑可能无法很好地适应头部姿势和面部结构。面部识别肖像编辑(FA)可以通过进行两次编辑来增强对面部结构的关注,从而提高效果。
通过将渲染的图像和输入源图像映射到EMOCA的潜在表情空间,并优化表情的相似性,我们可以确保表情保持自然,并与原始视频帧一致。
https://github.com/USTC3DV/PortraitGen-code
欢迎交流~,带你学AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.