网易首页 > 网易号 > 正文 申请入驻

南洋理工大学、港中大Talk-to-Edit,对话实现高细粒度人脸编辑

0
分享至

机器之心专栏

南洋理工大学、香港中文大学

来自南洋理工大学、香港中文大学的研究者提出了一个交互式人脸编辑框架 Talk-to-Edit,可以通过用户和系统之间的对话进行细粒度的属性操作。此外,该研究还创建了一个视觉语言人脸编辑数据集 CelebA-Dialog,用来促进大规模研究。

想换个发型?想知道自己 20 年后的样子?还在为 P 图却 P 不出想要的效果而发愁吗?来试试这个「Talk-to-Edit」吧,告诉它你想怎么编辑,分分钟帮你搞定。

话不多说,先看图:

用户通过和系统的对话完成人脸编辑:

对人脸的各个特征进行编辑:

编辑各位帅哥美女(用到了 GAN inversion):

这项研究来自南洋理工大学、香港中文大学提出的一个交互式人脸编辑框架 Talk-to-Edit,可以通过用户和系统之间的对话进行细粒度的属性操作。此外,该研究还创建了一个视觉语言人脸编辑数据集 CelebA-Dialog,用来促进大规模研究。

  • 论文地址: https://arxiv.org/abs/2109.04425
  • Code: https://github.com/yumingj/Talk-to-Edit
  • Project Page: https://www.mmlab-ntu.com/project/talkedit/index.html
  • 实验室主页:https://www.mmlab-ntu.com

方法及结果

该研究提出的Talk-to-Edit 的 pipeline 如下图所示:

该研究用 Semantic Field 来实现对人脸特征连续且高细粒度可控的编辑。对话功能则由 Language Encoder 和 Talk 模块来实现。接下来解释各个模块的工作原理和效果。

(1)Semantic Field

背景:GAN[1, 2]可以基于隐空间中不同的隐向量生成不同的图片。基于隐空间的图片编辑方法 [3, 4, 5, 6, 7] 利用预训练的 GAN 及其隐空间,有控制地改变一张图片对应的隐向量,从而间接实现对图片的编辑。然而这些方法假设在隐空间中沿着某个方向 「走直线」 就可以实现对一张人脸的某一特征的编辑 (如下图 (b) 中棕色路径(1))。

该研究所用方法抛开了 「走直线」 这一假设,在「走动」过程中不断根据此刻的隐向量寻找当前最优的前进方向 (如上图 (b) 中黑色路径 (2))。于是,研究者在隐空间中构建一个向量场来表示每个隐向量的最佳「前进方向」,沿着当前隐向量的最佳「前进方向」 移动隐向量,从而改变图片的某一个语义特征。称这个向量场为语义场,即 Semantic Field。该研究的编辑方式等价于沿着向量场的场线 (field line),向势(potential) 增加得最快的方向移动。这里的势指的就是某一特征的程度,比如在编辑「刘海」这一特征时,隐向量沿着场线,向刘海变长最快的方向移动 (如上图(b) 中黑色路径(2))。

Semantic Field 具有两个特性:1) 对同一个人来说,不断改变某一个属性,需要的 “最佳前进方向” 是不断变化的。2)在编辑同一个属性时,对于不同人,对应的 「最佳前进方向」 也是不同的。该研究用一个神经网络来模拟 Semantic Field,用如上图 (a) 所示的方法训练 Semantic Field。更多实现细节请参考论文和代码。

如下表,实验结果表明,相对于用 「走直线」 假设的 baselines,该研究方法可以在人脸编辑的过程中更好的保留这个人的身份特征,并且在编辑某一个语义特征时减少对其他无关语义特征的改变。

如下图所示,对比很明显:

(2) Language Encoder 和 Talk Module

为了给用户提供更便捷直观的交互方式,该研究使用对话的方式让用户实现编辑。Talk-to-Edit 用一个基于 LSTM 的 Language Encoder 来理解用户的编辑要求,并将编码后的编辑要求传递给 Semantic Field 从而指导编辑。Talk 模块可以在每轮编辑后向用户确认细粒度的编辑程度,比如向用户确认现在的笑容是否刚好合适,是否需要再多一档。Talk 模块也可以为用户提供其他编辑建议,比如系统发现用户从未尝试过编辑眼镜这个特征,于是询问用户是否想试一试给照片加个眼镜。

CelebA-Dialog 数据集

基于 CelebA [8] 数据集,该研究为研究社区提供了 CelebA-Dialog 数据集

(1)研究提供了每张图片的高细粒度特征标注。如上图所示,根据笑容的灿烂程度,「笑容」这个语义特征被分为 6 档。CelebA-Dialog 精确地标注了每张图片中的「笑」 属于 6 个等级中的哪一个。

(2)该研究提供了丰富的的自然语言描述,包括每张图片各个语义特征的高细粒度自然语言说明 (image captions),以及一句图片编辑的用户要求(user request)。

CelebA-Dialog 可以为多种任务提供监督,例如高细粒度人脸特征识别,基于自然语言的人脸生成和编辑等。

在 Talk-to-Edit 这个工作中,该研究利用 CelebA-Dialog 的高细粒度特征标注训练了一个高细粒度的人脸特征预测器,从而为 Semantic Field 的训练提供高细粒度的监督。

总结

(1)该研究提出了一个基于对话的、高细粒度的人脸编辑系统: Talk-to-Edit。

(2)该研究提出了 Semantic Field,即在 GAN 隐空间中学习一个语义场,通过在隐空间中沿着场线「行走」,从而实现连续且细粒的人脸特征编辑。

(3)该研究为研究社区贡献了一个大规模的数据集 CelebA-Dialog。并相信它可以很好地帮助到未来高细粒度人脸编辑的任务以及自然语言驱动的视觉任务。

Talk-to-Edit 更多优秀表现:

参考文献:

[1] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In CVPR, pages 4401–4410, 2019. 1, 2

[2] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In CVPR, pages 8110–8119, 2020. 1, 2

[3] Yujun Shen, Ceyuan Yang, Xiaoou Tang, and Bolei Zhou. Interfacegan: Interpreting the disentangled face representation learned by gans. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. 2, 4, 6

[4] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Interpreting the latent space of gans for semantic face editing. In CVPR, pages 9243–9252, 2020. 2, 4, 15

[5] Yujun Shen and Bolei Zhou. Closed-form factorization of latent semantics in gans. arXiv preprint arXiv:2007.06600, 2020. 2

[6] Erik Ha ̈rko ̈nen, Aaron Hertzmann, Jaakko Lehtinen, and Sylvain Paris. Ganspace: Discovering interpretable gan ctrols. arXiv preprint arXiv:2004.02546, 2020. 2

[7] Andrey Voynov and Artem Babenko. Unsupervised discovery of interpretable directions in the gan latent space. In ICML, pages 9786–9796. PMLR, 2020. 2

[8] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In ICCV, pages 3730–3738, 2015. 3, 6, 14, 15, 16

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

3D领域「源神」又开了两个新项目:三维部件编辑与自动绑定框架

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
美国宾州州长官邸被纵火,凌晨两点携家人撤离!他有望参加2028美总统选举

美国宾州州长官邸被纵火,凌晨两点携家人撤离!他有望参加2028美总统选举

红星新闻
2025-04-14 08:48:18
“雷军也不敢这么吹”,00后皮包简历走红,主打未来可“欺”

“雷军也不敢这么吹”,00后皮包简历走红,主打未来可“欺”

熙熙说教
2025-04-08 18:51:24
与U20国青同样的命运?击败U17国少的沙特和乌兹,可能会师决赛

与U20国青同样的命运?击败U17国少的沙特和乌兹,可能会师决赛

直播吧
2025-04-14 14:43:11
“盒饭姐”的反浪费烦恼

“盒饭姐”的反浪费烦恼

剥洋葱people
2025-04-11 09:08:09
名记:鹈鹕GM&主帅均面临下课风险 重用老六而非丹尼尔斯遭到质疑

名记:鹈鹕GM&主帅均面临下课风险 重用老六而非丹尼尔斯遭到质疑

直播吧
2025-04-14 17:00:32
58岁刘嘉玲晨跑引争议:穿紧身裤不遮臀部,被网友点评“没一点老人样”

58岁刘嘉玲晨跑引争议:穿紧身裤不遮臀部,被网友点评“没一点老人样”

LadyDaily
2025-03-15 18:07:56
为什么说伊朗大概率要挨揍了?内行人的一席话道出其中真相:

为什么说伊朗大概率要挨揍了?内行人的一席话道出其中真相:

现代春秋
2025-04-14 03:52:26
冯德莱恩:我们无法消化产能过剩,也不会接受对欧盟的商品倾销

冯德莱恩:我们无法消化产能过剩,也不会接受对欧盟的商品倾销

罗sir财话
2025-04-12 20:10:51
SSL / TLS 证书最长有效期将缩短至 47 天

SSL / TLS 证书最长有效期将缩短至 47 天

IT之家
2025-04-14 11:41:09
李佳琦“逆天”言论,冲上热搜!

李佳琦“逆天”言论,冲上热搜!

TOP电商
2025-04-14 17:37:59
勇士近3年常规赛战绩:最差的22-23赛季直通季后赛 近2年打附加赛

勇士近3年常规赛战绩:最差的22-23赛季直通季后赛 近2年打附加赛

直播吧
2025-04-14 16:07:11
有意思,NBA东部球探称火箭队季后赛会被任何对手讨厌

有意思,NBA东部球探称火箭队季后赛会被任何对手讨厌

好火子
2025-04-14 02:39:56
新中国第一悍匪,一人干掉两特警支队,警察出动数万人,结局如何

新中国第一悍匪,一人干掉两特警支队,警察出动数万人,结局如何

猫眼观史
2025-04-12 21:49:16
5000万韩国人公审,尹锡悦仍死不悔改,法官一个问题让他低下了头

5000万韩国人公审,尹锡悦仍死不悔改,法官一个问题让他低下了头

大道无形我有型
2025-04-14 12:33:29
竹笋再次成为关注对象!医生提醒:吃竹笋时,要多注意这4点!

竹笋再次成为关注对象!医生提醒:吃竹笋时,要多注意这4点!

奇妙的本草
2025-04-11 19:00:08
该来的还是来了:美国刚刚强调不对华开战,中国国防部官宣好消息

该来的还是来了:美国刚刚强调不对华开战,中国国防部官宣好消息

猎火照狼山
2025-04-13 19:17:26
最容易让女人“出轨”的地方,不是酒吧,而是这2个地方

最容易让女人“出轨”的地方,不是酒吧,而是这2个地方

农村情感故事
2025-04-13 19:04:10
1968年,我被下派到林场,住在一个破库房和一个年轻寡妇搭伴守夜

1968年,我被下派到林场,住在一个破库房和一个年轻寡妇搭伴守夜

晓艾故事汇
2025-04-12 19:29:41
党政机关、国有企事业单位不应该再聘用已退休人员

党政机关、国有企事业单位不应该再聘用已退休人员

老舒说事
2025-04-13 22:31:03
只要有蒙古在,中国的沙尘暴问题无解?

只要有蒙古在,中国的沙尘暴问题无解?

沧海一书客
2025-04-14 07:54:44
2025-04-14 18:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
10359文章数 142295关注度
往期回顾 全部

科技要闻

多款热门芯片暂停报价 华强北多档口歇业

头条要闻

应对关税战 赖清德脱口而出呼吁台湾人"吃苦当吃补"

体育要闻

广东女篮这一冠,含金量有多高?

娱乐要闻

专访 | 王安宇:角色是为观众服务的

财经要闻

通过人民币贬值应对关税?

汽车要闻

B级车要集体失眠? 吉利银河星耀8"全都要"

态度原创

艺术
手机
数码
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

手机要闻

苹果加紧生产iPhone 17、Mac等关键产品!美版靠印度和越南了

数码要闻

3999元!小米推出米家空调Pro人感上出风1.5匹:自带双毫米波雷达

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军驻格陵兰岛太空基地指挥官遭解职