网易首页 > 网易号 > 正文 申请入驻

南洋理工大学、港中大Talk-to-Edit,对话实现高细粒度人脸编辑

0
分享至

机器之心专栏

南洋理工大学、香港中文大学

来自南洋理工大学、香港中文大学的研究者提出了一个交互式人脸编辑框架 Talk-to-Edit,可以通过用户和系统之间的对话进行细粒度的属性操作。此外,该研究还创建了一个视觉语言人脸编辑数据集 CelebA-Dialog,用来促进大规模研究。

想换个发型?想知道自己 20 年后的样子?还在为 P 图却 P 不出想要的效果而发愁吗?来试试这个「Talk-to-Edit」吧,告诉它你想怎么编辑,分分钟帮你搞定。

话不多说,先看图:

用户通过和系统的对话完成人脸编辑:

对人脸的各个特征进行编辑:

编辑各位帅哥美女(用到了 GAN inversion):

这项研究来自南洋理工大学、香港中文大学提出的一个交互式人脸编辑框架 Talk-to-Edit,可以通过用户和系统之间的对话进行细粒度的属性操作。此外,该研究还创建了一个视觉语言人脸编辑数据集 CelebA-Dialog,用来促进大规模研究。

  • 论文地址: https://arxiv.org/abs/2109.04425
  • Code: https://github.com/yumingj/Talk-to-Edit
  • Project Page: https://www.mmlab-ntu.com/project/talkedit/index.html
  • 实验室主页:https://www.mmlab-ntu.com

方法及结果

该研究提出的Talk-to-Edit 的 pipeline 如下图所示:

该研究用 Semantic Field 来实现对人脸特征连续且高细粒度可控的编辑。对话功能则由 Language Encoder 和 Talk 模块来实现。接下来解释各个模块的工作原理和效果。

(1)Semantic Field

背景:GAN[1, 2]可以基于隐空间中不同的隐向量生成不同的图片。基于隐空间的图片编辑方法 [3, 4, 5, 6, 7] 利用预训练的 GAN 及其隐空间,有控制地改变一张图片对应的隐向量,从而间接实现对图片的编辑。然而这些方法假设在隐空间中沿着某个方向 「走直线」 就可以实现对一张人脸的某一特征的编辑 (如下图 (b) 中棕色路径(1))。

该研究所用方法抛开了 「走直线」 这一假设,在「走动」过程中不断根据此刻的隐向量寻找当前最优的前进方向 (如上图 (b) 中黑色路径 (2))。于是,研究者在隐空间中构建一个向量场来表示每个隐向量的最佳「前进方向」,沿着当前隐向量的最佳「前进方向」 移动隐向量,从而改变图片的某一个语义特征。称这个向量场为语义场,即 Semantic Field。该研究的编辑方式等价于沿着向量场的场线 (field line),向势(potential) 增加得最快的方向移动。这里的势指的就是某一特征的程度,比如在编辑「刘海」这一特征时,隐向量沿着场线,向刘海变长最快的方向移动 (如上图(b) 中黑色路径(2))。

Semantic Field 具有两个特性:1) 对同一个人来说,不断改变某一个属性,需要的 “最佳前进方向” 是不断变化的。2)在编辑同一个属性时,对于不同人,对应的 「最佳前进方向」 也是不同的。该研究用一个神经网络来模拟 Semantic Field,用如上图 (a) 所示的方法训练 Semantic Field。更多实现细节请参考论文和代码。

如下表,实验结果表明,相对于用 「走直线」 假设的 baselines,该研究方法可以在人脸编辑的过程中更好的保留这个人的身份特征,并且在编辑某一个语义特征时减少对其他无关语义特征的改变。

如下图所示,对比很明显:

(2) Language Encoder 和 Talk Module

为了给用户提供更便捷直观的交互方式,该研究使用对话的方式让用户实现编辑。Talk-to-Edit 用一个基于 LSTM 的 Language Encoder 来理解用户的编辑要求,并将编码后的编辑要求传递给 Semantic Field 从而指导编辑。Talk 模块可以在每轮编辑后向用户确认细粒度的编辑程度,比如向用户确认现在的笑容是否刚好合适,是否需要再多一档。Talk 模块也可以为用户提供其他编辑建议,比如系统发现用户从未尝试过编辑眼镜这个特征,于是询问用户是否想试一试给照片加个眼镜。

CelebA-Dialog 数据集

基于 CelebA [8] 数据集,该研究为研究社区提供了 CelebA-Dialog 数据集

(1)研究提供了每张图片的高细粒度特征标注。如上图所示,根据笑容的灿烂程度,「笑容」这个语义特征被分为 6 档。CelebA-Dialog 精确地标注了每张图片中的「笑」 属于 6 个等级中的哪一个。

(2)该研究提供了丰富的的自然语言描述,包括每张图片各个语义特征的高细粒度自然语言说明 (image captions),以及一句图片编辑的用户要求(user request)。

CelebA-Dialog 可以为多种任务提供监督,例如高细粒度人脸特征识别,基于自然语言的人脸生成和编辑等。

在 Talk-to-Edit 这个工作中,该研究利用 CelebA-Dialog 的高细粒度特征标注训练了一个高细粒度的人脸特征预测器,从而为 Semantic Field 的训练提供高细粒度的监督。

总结

(1)该研究提出了一个基于对话的、高细粒度的人脸编辑系统: Talk-to-Edit。

(2)该研究提出了 Semantic Field,即在 GAN 隐空间中学习一个语义场,通过在隐空间中沿着场线「行走」,从而实现连续且细粒的人脸特征编辑。

(3)该研究为研究社区贡献了一个大规模的数据集 CelebA-Dialog。并相信它可以很好地帮助到未来高细粒度人脸编辑的任务以及自然语言驱动的视觉任务。

Talk-to-Edit 更多优秀表现:

参考文献:

[1] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In CVPR, pages 4401–4410, 2019. 1, 2

[2] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In CVPR, pages 8110–8119, 2020. 1, 2

[3] Yujun Shen, Ceyuan Yang, Xiaoou Tang, and Bolei Zhou. Interfacegan: Interpreting the disentangled face representation learned by gans. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. 2, 4, 6

[4] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Interpreting the latent space of gans for semantic face editing. In CVPR, pages 9243–9252, 2020. 2, 4, 15

[5] Yujun Shen and Bolei Zhou. Closed-form factorization of latent semantics in gans. arXiv preprint arXiv:2007.06600, 2020. 2

[6] Erik Ha ̈rko ̈nen, Aaron Hertzmann, Jaakko Lehtinen, and Sylvain Paris. Ganspace: Discovering interpretable gan ctrols. arXiv preprint arXiv:2004.02546, 2020. 2

[7] Andrey Voynov and Artem Babenko. Unsupervised discovery of interpretable directions in the gan latent space. In ICML, pages 9786–9796. PMLR, 2020. 2

[8] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In ICCV, pages 3730–3738, 2015. 3, 6, 14, 15, 16

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
历史重演了!19年前乔布斯颠覆了手机,昨天黄仁勋颠覆了电脑软件

历史重演了!19年前乔布斯颠覆了手机,昨天黄仁勋颠覆了电脑软件

哄动一时啊
2026-06-03 12:00:25
1929年,他扛两挺重机枪加入红军,1955年授衔时罗荣桓却左右为难

1929年,他扛两挺重机枪加入红军,1955年授衔时罗荣桓却左右为难

磊子讲史
2026-06-02 17:46:53
印度被高温逼出一个疯狂想法,可是这事连中国都望尘莫及!

印度被高温逼出一个疯狂想法,可是这事连中国都望尘莫及!

华庭讲美食
2026-05-31 00:20:42
北京再发雷电蓝色预警!雷阵雨已开始,未来1至2小时影响多区

北京再发雷电蓝色预警!雷阵雨已开始,未来1至2小时影响多区

远洋生活家
2026-06-04 11:09:30
荷兰军舰真的“夹着尾巴逃了”吗?还原西沙电子战的真实与水分

荷兰军舰真的“夹着尾巴逃了”吗?还原西沙电子战的真实与水分

马蹄烫嘴说美食
2026-06-03 19:18:34
人民日报:茅盾文学奖最值得看的10本书,读懂受益终生

人民日报:茅盾文学奖最值得看的10本书,读懂受益终生

洞见
2026-06-02 22:18:28
倒霉的演员甘婷婷:演了个潘金莲,居然把自己的下半辈子搭进去了

倒霉的演员甘婷婷:演了个潘金莲,居然把自己的下半辈子搭进去了

日不西沉
2026-06-04 13:18:42
ESPN专访文班:少林特训有点被夸大 波波维奇始终是我们的掌舵人

ESPN专访文班:少林特训有点被夸大 波波维奇始终是我们的掌舵人

罗说NBA
2026-06-04 06:07:49
柬埔寨揭水泥封井双尸案 两中国人涉案一人落网

柬埔寨揭水泥封井双尸案 两中国人涉案一人落网

环球趣闻分享
2026-06-03 15:34:37
83岁赵朴初在陈独秀墓前叹息:墓碑上没有同志,也该有先生二字

83岁赵朴初在陈独秀墓前叹息:墓碑上没有同志,也该有先生二字

鉴史录
2026-06-03 16:18:12
国米右路世纪豪赌,4000万巴西铁闸对决意大利天才,马洛塔这次押宝谁

国米右路世纪豪赌,4000万巴西铁闸对决意大利天才,马洛塔这次押宝谁

刘哥谈体育
2026-06-04 11:38:06
老戏骨魏宗万离世,不到48小时,私生活被爆,网友风评出奇一致

老戏骨魏宗万离世,不到48小时,私生活被爆,网友风评出奇一致

她时尚丫
2026-06-03 21:07:39
理想汽车又一车型爆发!

理想汽车又一车型爆发!

电动知家
2026-06-04 11:47:19
被刺五刀还要戴手铐!从一个白人男孩之死,看今日英国何等垃圾

被刺五刀还要戴手铐!从一个白人男孩之死,看今日英国何等垃圾

码头青年
2026-06-04 11:26:24
直言不讳!英伟达CEO黄仁勋称:台湾缺电!国台办回应来了……

直言不讳!英伟达CEO黄仁勋称:台湾缺电!国台办回应来了……

王爷说图表
2026-06-03 17:21:34
离谱,FSD 降价只要 4.3 万元?不可能!

离谱,FSD 降价只要 4.3 万元?不可能!

新浪财经
2026-06-02 10:54:35
勇士队传闻:字母哥不愿给斯蒂芬·库里当“二把手”

勇士队传闻:字母哥不愿给斯蒂芬·库里当“二把手”

好火子
2026-06-03 23:32:08
敲定个人协议!皇马 1.2 亿草签恩佐 穆帅携4大新援亮相

敲定个人协议!皇马 1.2 亿草签恩佐 穆帅携4大新援亮相

球事百科吖
2026-06-03 17:32:43
震撼弹!协调军购案过关有大功,韩国瑜传6月下旬受邀率团访美

震撼弹!协调军购案过关有大功,韩国瑜传6月下旬受邀率团访美

老嘪科普
2026-06-04 12:21:33
为什么领导都喜欢上班?网友曝光领导抽屉都是性用品:丝袜、套套

为什么领导都喜欢上班?网友曝光领导抽屉都是性用品:丝袜、套套

黯泉
2026-06-01 15:33:05
2026-06-04 14:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13163文章数 142660关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

又打一“虎” 中央纪委“清理门户”

头条要闻

又打一“虎” 中央纪委“清理门户”

体育要闻

王俊杰11前板成第一尖刀 媒体人:独一档

娱乐要闻

奚梦瑶头纱上的古董发卡也是四太的

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

本地
时尚
家居
房产
军事航空

本地新闻

用杨柳青年画的方式,打开天津

粗腿宽肩,正在成为中女审美新风向

家居要闻

220平对味儿家 空间情绪宅

房产要闻

震撼!海口顶豪“素颜出境”,直接顶穿品质天花板!

军事要闻

美众议院要求特朗普停止对伊动武并撤军

无障碍浏览 进入关怀版