特约文章丨基于单张图片的人脸卡通化三维重建方法研究|算法|参数化

分享至

文 / 詹鹏鑫，顾伟，杨昌源，杨智渊

摘要：

本文提出了一种基于单张图片的人脸卡通化三维重建方法，通过结合 AIGC 技术和深度学习技术，进行人脸几何与纹理重建，实现了更加真实、高清，且风格多样的卡通化三维人脸模型的生成。

关键词：

三维人脸重建；深度学习；风格迁移

0 引言

近年来，随着人工智能技术的快速发展，推动了人脸三维重建方法及其技术的不断成熟，成为学术研究和商业应用的热点。从娱乐到医疗，人脸三维重建技术的潜在应用前景非常广泛，在娱乐和游戏领域，人脸三维重建技术可以用于电影制作、游戏虚拟角色构建等；在医疗领域，三维人脸重建可以用于整形外科的预先规划、脸部重建、健康监测和远程医疗服务；在社交和互动领域，人脸三维重建技术可以增强在线社交互动，提供新的自我表现方式，产生更加丰富的互动体验；在电商与零售领域，三维人脸模型可以用于创建个性化的虚拟试衣间，允许用户在没有实体衣物的情况下试穿服装。

随着元宇宙概念的蓬勃发展，虚拟现实（VR）和增强现实（AR）技术的快速成长同样对人脸三维重建技术提出了新的要求。三维人脸重建可以创建逼真的虚拟角色和社交互动场景，为用户提供更具真实感和互动性的虚拟体验。这些因素和需求相互作用，推动了人脸三维重建方法及其技术的发展和应用。其中卡通化人脸三维重建作为一种特殊的人脸三维建模技术，结合了技术能力和艺术表达，开辟了新的交互方式和商业模式，为数字娱乐、社交、电商等领域带来了新的机会。当下流行文化和社交媒体中，卡通化的虚拟形象越来越受欢迎。随着个性化趋势的增长，用户希望拥有独特的数字身份，卡通化形象不但可以提供这样的个性化体验，并且可以用于各种在线互动和娱乐场景。

人脸卡通化重建技术可以根据每个用户的不同特征创建独特的三维头像，提供个性化体验，增强用户对产品或服务的认同感。一方面，卡通化的人脸模型往往更具趣味性和亲和力，用户乐于在社交媒体上分享卡通化的个人形象，且能够吸引其他用户的注意并提高其参与互动的欲望，尤其是在社交媒体、游戏和娱乐领域。另一方面，卡通化的人脸模型可以通过夸张的表情和动作更加有效地传达用户的情绪和感受，尤其是在数字化交流中。

为了提升消费级产品应用在人脸重建过程中的用户体验，受限于手机等移动设备的性能和拍摄环境的多变性，人脸三维重建技术不仅需要能够处理单一图片的输入，并需要对各种不同拍摄环境表现出强大的适应能力。计算能力的提升，以及计算机视觉和图像处理领域的技术进步，尤其是深度学习技术的发展，使得三维重建的准确性和速度都有了显著提升，也为从单张或多张二维图像中生成准确的、高质量的三维模型提供了可能。这也促使了基于深度学习的单张图片的人脸卡通化三维重建，成为了该领域研究的一个突破点。

人脸重建主要包括几何重建和纹理重建两个方面，其主要挑战，一是如何利用在不同环境下拍摄的图片，重建出一个准确且易于识别的三维人脸模型；二是如何从单一图像中恢复出高度真实感的面部纹理。本文针对基于单张图片的人脸卡通化三维重建，利用人工智能技术来自动生产内容（AI-Generated Content，AIGC），以及利用深度学习技术进行人脸几何重建和纹理拼接，生成更加真实、高清，且风格多变的卡通化人脸三维模型。

1 研究背景

1.1 人脸三维重建的发展

人脸三维重建是一个多学科交叉的领域，集合了计算机视觉、图形学、机器学习等多种技术，能够通过各种方法和从二维图像或视频帧中提取出人脸的三维形状和结构信息。这个过程涉及到将人脸的几何细节以数学模型的形式表示出来，从而将平面的人脸图像转换成可以在三维空间中操作、分析和渲染的三维面部模型。其关键在于能够捕捉到人脸的深度信息和细节特征，从而在虚拟环境中重现一个真实的、立体的人脸模型。

早期的人脸三维重建常采用基于几何形态学的方法，通过理解人脸的基本形状和结构，从图像中提取关键特征点，然后使用这些特征点来构建三维模型。这一方法依赖于预定义的人脸几何模型和形态学特征，如三角网格和控制点，强调精确的边缘对齐和特征提取，通过调整这些特征来拟合输入的二维图像，通常需要良好的初始对齐和精细调整。基于几何形态学的人脸三维重建在医疗、安全等领域都有很多应用。例如，帮助进行面部重建手术的规划，通过重建患者的三维面部模型，医生可以更好地规划手术步骤，预测手术效果，并进行术前教育和沟通；创建一个快速而准确的面部识别系统应用在机场或其他高安全场所。

为了提高人脸重建的精度，研究人员利用多个角度拍摄的图像，通过立体匹配和三角测量技术重建三维结构，即基于多视图立体视觉的人脸三维重建方法。通过比对多个视角的图像，找出同一特征点在不同图像中的对应位置，然后运用三角测量原理计算出征点在三维空间中的具体位置，生成非常精确的三维模型，特别是在特征点周围区域。但这种方法需要多个摄像头和精确的同步拍摄，适用于精确重建和高质量的三维扫描，如电影和游戏制作。例如，电影《阿凡达》通过多视图立体视觉重建技术捕捉演员的面部动作，再将捕捉到的数据转换为逼真的三维动画，这些电影中的角色往往具有非常自然的人脸表情和肢体动作。在视频游戏开发中，开发者会使用多视图立体视觉重建技术来创建游戏角色的三维模型，尤其是游戏中的主要人物角色。通过捕捉真实演员的面部表情和动作，可以在游戏中生成更为逼真的动画效果，从而提升玩家的游戏体验。

三维可形变模型（3D morphable model， 3DMM）等参数化人脸模型的引入，提高了人脸重建的有效性、灵活性和真实感。参数化模型利用大量的三维人脸数据捕捉不同的人脸特征，提供了更多的控制力，使得可以通过调整一组参数来生成各种不同的人脸形状和表情。3DMM是一个典型的通用参数化三维人脸模型，它的核心思想就是人脸可以在三维空间中进行一一匹配，并且可以由其他许多幅人脸正交基加权线性相加而来。人脸的基本属性包括形状和纹理，每一张人脸可以表示为形状向量和纹理向量的线性叠加。3DMM的一个关键优势是对数据丰富性和多样性的利用，通常是从大量真实人脸扫描数据中学习得到，使得通过这种模型重建的人脸不仅在视觉上真实、自然，而且能够保留个体唯一的特征。

深度学习的兴起，特别是卷积神经网络（CNN）的发展，使研究者能够直接从单张图像中学习和重建三维人脸。这类方法涉及到利用深度学习算法，从二维图像中提取和推断三维人脸形状和结构信息。与传统的三维重建方法相比，基于深度学习的方法可以更好地处理复杂的、真实世界中的图像，如一定程度的遮挡、照明变化和表情变化等，并且能够从大量数据中自动学习到人脸的高层特征。随着技术的进步，这些方法之间也存在融合和交叉，例如，深度学习可以与几何形态学或3DMM模型方法结合，进一步提高重建质量和应用的灵活性；在基于深度学习的3DMM模型可以更容易地从大数据中学习到更加复杂的面部变化模式，从而实现更高质量的人脸三维重建。

1.2 人脸卡通化三维重建

人脸卡通化三维重建是一种将真实人脸，转化为卡通或漫画风格的三维人脸模型的方法与技术。这一过程通常涉及到对人脸特征的夸张化、简化及风格化，同时保留足够的个性特征，目的是创造一个具有特定风格的三维头像或角色，使重建出的卡通化模型既容易识别，又具有艺术性和趣味性。这种技术的应用非常广泛，从社交媒体的虚拟头像、视频游戏中的角色创建，到动画电影中的角色设计，可以用于娱乐、游戏、动画制作、虚拟现实和社交媒体等多个领域（见图 1）。

图1 人脸卡通化三维建模应用案例

人脸卡通化三维重建的研究需要克服一系列的挑战。卡通头像的制作不仅需要捕捉用户的面部特征，还要将其转化为风格化的表达形式。这涉及到计算机视觉、图形学和人工智能等多个领域的前沿问题，包括但不限于图像识别、特征提取、风格迁移和三维建模。目前，人脸卡通化三维重建主要采用基于模板和局部特征的方法，以及基于模型生成的方法。基于模板和局部特征的方法使用一组预定义的局部特征或模板组合卡通形象，大部分三维为卡通Q版的风格为主，放大头身比例突出四肢，从而使人物更可爱亲和，也能突出脸部为主的细节及动画特征。这种方法需要大量的前置训练，且生成结果相对同质化。基于模型生成的方法则更为多样化，如基于参数化模型的方法，通过几何重建和纹理重建，进行人脸面部纹理的补全。但是，目前基于三维形变模型的参数模型很难直接生成高质量且富有多样性的纹理。纹理的参数基空间数据是有限的，而人的面部往往具有非常丰富的高级语义特征，所以直接基于纹理参数很难表达出一个真实人物的人脸皮肤纹理。特别是现有的人脸参数化模型主要都是基于非亚洲人数据集构建，对于亚洲人的皮肤纹理生成的支持度更加低下。

因此，本文提出了一种基于单张图片的人脸卡通化三维重建方法。在AIGC风格化生成的基础上，通过结合深度学习技术和非参数化模型，进行人脸几何和纹理重建，从而使生成的卡通化人脸风格多样，且更加真实和高清。

2 基于单张图片的人脸卡通化三维重建方法

2.1 方法流程

本文提出的人脸卡通化三维重建方法流程，如图2所示。该方法的核心重点在三个方面。首先，为了使真人卡通形象更加多样化，能够满足不同人群的风格需求，引入了AIGC技术进行人脸风格化模型训练，对二维人脸进行卡通化生成。其次，采用了非参数化模型进行人脸重建。相比较常用的参数化模型方法，非参数化模型可以使生成的三维模型纹理更加真实、有质感。最后，为了解决非参数模型对二维图像被遮挡的部分难以处理等问题，引入了深度学习技术。基于深度学习算法进行人脸语义编辑，通过使图片中的人脸在三维空间中旋转来恢复图片中人脸看不见的部分。通过结合深度学习和非参数模型，不仅降低了对人脸输入图片清晰度和完整度的要求限制，并提升了生成三维模型的质量。本文所述方法主要包括五个流程。

（1）风格化人脸生成。通过采集高质量卡通风格人脸数据，基于Stable Diffusion框架训练该风格的模型。训练完成后，拍摄或输入一张人脸正面照片，会先对图片进行风格化生成，获得一张二维的卡通化人脸照片。

（2）多角度人脸生成。基于StyleFlow对输入的图片进行人脸语义编辑，生成不同角度的人脸照片。

（3）几何重建。基于Flame人脸模型和Deca模型进行人脸的几何重建，获得多张不同角度的残缺人脸纹理贴图。

（4）纹理拼接。基于泊松融合进行图像拼接和纹理补全，从而获得一张完整的人脸纹理贴图。

（5）参数化编辑与调整。可以基于Flame人脸模型对生成的人脸形象进行参数化的编辑，包括修改发型、配饰，调整姿势、表情等。

其中，几何和纹理重建是三维人脸重建方法中的重点。针对上述的几何和纹理重建方法，本文将详细展开描述。

2.2 基于Deca 模型的人脸几何重建

本文基于Flame 人脸模型和Deca模型进行人脸的几何重建。Flame 模型是一个结合了线性人脸形状，基于linear blend skinning（LBS）的表情空间。blend skinning（LBS）的表情空间。

图3 多角度人脸重建

将通过StyleFlow进行语义编辑并生成的多种不同角度的人脸照片分别送入训练好的Deca人脸重建模型，就可以得到对应的三维人脸模型参数。然后，将重建的三维人脸再投影回输入的人脸图片上，将投影之后的三维人脸对应的二维人脸图片像素的值填回对应的纹理贴图的UV展开图上。结果如图3所示，图中每个不同角度的人脸图片都重建出了不完整的高清人脸纹理，其中黑色的像素表示被遮挡的部分，原始的输入图像上没有与之对应的像素值。

2.3 基于泊松融合的纹理拼接

在获得多张不同角度的残缺人脸纹理贴图后，基于泊松融合来进行图像纹理拼接，从而获得一张完整的人脸纹理贴图。在将多个残缺的人脸纹理贴图拼接融合成一张完整的纹理贴图时，为了正确的选取每个贴图上的像素，我们定义每个像素的可见度得分。可见度得分可以定义为人脸几何模型每个三角形面片的法线和指向相机的向量之间的角度。

如下所示：

实际计算结果如图4 所示，mask 中图像越白的地方表示对应像素可见度得分越高；反之则越低。通过计算纹理像素可见度得分得到用来拼接的纹理区域，然后基于泊松融合的方法生成最后完整的人脸纹理贴图（见图5）。

图4 像素可见度得分

图5 人脸三维重建结果

2.4 结果对比

从图6可见，相比其他方法，基于本文方法生成的三维人脸模型更为完整和真实。

图6 生成结果对比

3 结束语

三维人脸重建的相关工作历史悠久，随着计算机视觉和图形学技术的飞速发展已取得了显著进展，并在工业和消费级市场中展现出了巨大的应用潜力。

通过精准的几何建模和逼真的纹理映射，三维人脸重建不仅能够在电影制作和游戏开发中创造出高质量的虚拟角色，还能在个性化的虚拟现实和人脸编辑软件中提供丰富的用户体验。尽管当前的技术已经能够在多种条件下从单张图片重建出高度逼真的人脸模型，但仍存在着诸多挑战。例如，算法对于极端光照条件和遮挡情况下的鲁棒性有待提升，高细节特征的捕获与表达亟需优化，以及真实时间动态人脸重建的精度和速度都需要进一步提高。

未来的研究可以从以下四个方向进行深入，一是利用更加先进的深度学习架构和训练策略，提升模型的泛化能力和处理复杂环境的能力；二是集成多模态数据（如视频序列、深度信息等），以增强重建的精度和稳定性；三是开发更为高效的算法，以实现实时或接近实时的三维人脸重建，满足即时通讯和互动娱乐的需求；四是注重隐私保护和伦理问题，确保技术的发展能够符合社会和法律的规范。总之，三维人脸重建技术的未来发展前景广阔，预计会在人机交互、个性化服务、安全验证等领域发挥更加重要的作用。在不久的将来，这项技术能够带来更为安全、便捷和有趣的新体验。

（参考文献略）

詹鹏鑫

阿里巴巴高级算法工程师。主要研究方向为计算机视觉、人脸三维重建和多模态大模型。

顾伟

阿里巴巴国际数字商业集团Aigc 业务总经理，AliExpress设计部负责人，工信部国际经济技术合作中心特聘工业设计专家。主要研究方向为消费市场研究、AI 设计产业应用。

选自《中国人工智能学会通讯》

2024年第14卷第4期

智能创意与数字艺术专题

扫描加入我们
获取更多学会资源

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.