网易首页 > 网易号 > 正文 申请入驻

南洋理工大学、港中大Talk-to-Edit,对话实现高细粒度人脸编辑

0
分享至

机器之心专栏

南洋理工大学、香港中文大学

来自南洋理工大学、香港中文大学的研究者提出了一个交互式人脸编辑框架 Talk-to-Edit,可以通过用户和系统之间的对话进行细粒度的属性操作。此外,该研究还创建了一个视觉语言人脸编辑数据集 CelebA-Dialog,用来促进大规模研究。

想换个发型?想知道自己 20 年后的样子?还在为 P 图却 P 不出想要的效果而发愁吗?来试试这个「Talk-to-Edit」吧,告诉它你想怎么编辑,分分钟帮你搞定。

话不多说,先看图:

用户通过和系统的对话完成人脸编辑:

对人脸的各个特征进行编辑:

编辑各位帅哥美女(用到了 GAN inversion):

这项研究来自南洋理工大学、香港中文大学提出的一个交互式人脸编辑框架 Talk-to-Edit,可以通过用户和系统之间的对话进行细粒度的属性操作。此外,该研究还创建了一个视觉语言人脸编辑数据集 CelebA-Dialog,用来促进大规模研究。

  • 论文地址: https://arxiv.org/abs/2109.04425
  • Code: https://github.com/yumingj/Talk-to-Edit
  • Project Page: https://www.mmlab-ntu.com/project/talkedit/index.html
  • 实验室主页:https://www.mmlab-ntu.com

方法及结果

该研究提出的Talk-to-Edit 的 pipeline 如下图所示:

该研究用 Semantic Field 来实现对人脸特征连续且高细粒度可控的编辑。对话功能则由 Language Encoder 和 Talk 模块来实现。接下来解释各个模块的工作原理和效果。

(1)Semantic Field

背景:GAN[1, 2]可以基于隐空间中不同的隐向量生成不同的图片。基于隐空间的图片编辑方法 [3, 4, 5, 6, 7] 利用预训练的 GAN 及其隐空间,有控制地改变一张图片对应的隐向量,从而间接实现对图片的编辑。然而这些方法假设在隐空间中沿着某个方向 「走直线」 就可以实现对一张人脸的某一特征的编辑 (如下图 (b) 中棕色路径(1))。

该研究所用方法抛开了 「走直线」 这一假设,在「走动」过程中不断根据此刻的隐向量寻找当前最优的前进方向 (如上图 (b) 中黑色路径 (2))。于是,研究者在隐空间中构建一个向量场来表示每个隐向量的最佳「前进方向」,沿着当前隐向量的最佳「前进方向」 移动隐向量,从而改变图片的某一个语义特征。称这个向量场为语义场,即 Semantic Field。该研究的编辑方式等价于沿着向量场的场线 (field line),向势(potential) 增加得最快的方向移动。这里的势指的就是某一特征的程度,比如在编辑「刘海」这一特征时,隐向量沿着场线,向刘海变长最快的方向移动 (如上图(b) 中黑色路径(2))。

Semantic Field 具有两个特性:1) 对同一个人来说,不断改变某一个属性,需要的 “最佳前进方向” 是不断变化的。2)在编辑同一个属性时,对于不同人,对应的 「最佳前进方向」 也是不同的。该研究用一个神经网络来模拟 Semantic Field,用如上图 (a) 所示的方法训练 Semantic Field。更多实现细节请参考论文和代码。

如下表,实验结果表明,相对于用 「走直线」 假设的 baselines,该研究方法可以在人脸编辑的过程中更好的保留这个人的身份特征,并且在编辑某一个语义特征时减少对其他无关语义特征的改变。

如下图所示,对比很明显:

(2) Language Encoder 和 Talk Module

为了给用户提供更便捷直观的交互方式,该研究使用对话的方式让用户实现编辑。Talk-to-Edit 用一个基于 LSTM 的 Language Encoder 来理解用户的编辑要求,并将编码后的编辑要求传递给 Semantic Field 从而指导编辑。Talk 模块可以在每轮编辑后向用户确认细粒度的编辑程度,比如向用户确认现在的笑容是否刚好合适,是否需要再多一档。Talk 模块也可以为用户提供其他编辑建议,比如系统发现用户从未尝试过编辑眼镜这个特征,于是询问用户是否想试一试给照片加个眼镜。

CelebA-Dialog 数据集

基于 CelebA [8] 数据集,该研究为研究社区提供了 CelebA-Dialog 数据集

(1)研究提供了每张图片的高细粒度特征标注。如上图所示,根据笑容的灿烂程度,「笑容」这个语义特征被分为 6 档。CelebA-Dialog 精确地标注了每张图片中的「笑」 属于 6 个等级中的哪一个。

(2)该研究提供了丰富的的自然语言描述,包括每张图片各个语义特征的高细粒度自然语言说明 (image captions),以及一句图片编辑的用户要求(user request)。

CelebA-Dialog 可以为多种任务提供监督,例如高细粒度人脸特征识别,基于自然语言的人脸生成和编辑等。

在 Talk-to-Edit 这个工作中,该研究利用 CelebA-Dialog 的高细粒度特征标注训练了一个高细粒度的人脸特征预测器,从而为 Semantic Field 的训练提供高细粒度的监督。

总结

(1)该研究提出了一个基于对话的、高细粒度的人脸编辑系统: Talk-to-Edit。

(2)该研究提出了 Semantic Field,即在 GAN 隐空间中学习一个语义场,通过在隐空间中沿着场线「行走」,从而实现连续且细粒的人脸特征编辑。

(3)该研究为研究社区贡献了一个大规模的数据集 CelebA-Dialog。并相信它可以很好地帮助到未来高细粒度人脸编辑的任务以及自然语言驱动的视觉任务。

Talk-to-Edit 更多优秀表现:

参考文献:

[1] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In CVPR, pages 4401–4410, 2019. 1, 2

[2] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In CVPR, pages 8110–8119, 2020. 1, 2

[3] Yujun Shen, Ceyuan Yang, Xiaoou Tang, and Bolei Zhou. Interfacegan: Interpreting the disentangled face representation learned by gans. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. 2, 4, 6

[4] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Interpreting the latent space of gans for semantic face editing. In CVPR, pages 9243–9252, 2020. 2, 4, 15

[5] Yujun Shen and Bolei Zhou. Closed-form factorization of latent semantics in gans. arXiv preprint arXiv:2007.06600, 2020. 2

[6] Erik Ha ̈rko ̈nen, Aaron Hertzmann, Jaakko Lehtinen, and Sylvain Paris. Ganspace: Discovering interpretable gan ctrols. arXiv preprint arXiv:2004.02546, 2020. 2

[7] Andrey Voynov and Artem Babenko. Unsupervised discovery of interpretable directions in the gan latent space. In ICML, pages 9786–9796. PMLR, 2020. 2

[8] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In ICCV, pages 3730–3738, 2015. 3, 6, 14, 15, 16

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长征中决定红军生死的一战,比泸定桥更艰险,主席:三天必须攻下

长征中决定红军生死的一战,比泸定桥更艰险,主席:三天必须攻下

可乐86
2024-06-13 09:25:00
35岁江铠同罕见露面,和于正左小青参加生日会,比不上37岁毛晓彤

35岁江铠同罕见露面,和于正左小青参加生日会,比不上37岁毛晓彤

娱圈小愚
2025-04-02 13:56:32
被判10年的李天一,改名换姓出狱后,最恶心的一幕还是出现了

被判10年的李天一,改名换姓出狱后,最恶心的一幕还是出现了

小故事娱乐
2025-03-23 12:20:03
生活中那些“做局”的人在蠢蠢欲动,网友:过年“杀猪”太可怕

生活中那些“做局”的人在蠢蠢欲动,网友:过年“杀猪”太可怕

东洲清
2025-04-02 10:57:46
驻日本大使馆提醒在日中国公民注意旅游安全

驻日本大使馆提醒在日中国公民注意旅游安全

环球网资讯
2025-04-01 18:23:40
汤唯在《色戒》中的牺牲,远不止那几个镜头,金星都为她鸣不平

汤唯在《色戒》中的牺牲,远不止那几个镜头,金星都为她鸣不平

星辰生肖馆
2025-03-26 04:45:03
还差1.67亿,《哪吒2》就会超越《阿凡达》,成非北美票房冠军

还差1.67亿,《哪吒2》就会超越《阿凡达》,成非北美票房冠军

影视高原说
2025-03-31 08:47:20
山东舰抵近12海里,台军导弹对准叫嚣开火!真不怕“一举收台”?

山东舰抵近12海里,台军导弹对准叫嚣开火!真不怕“一举收台”?

近史博览
2025-04-02 18:26:14
当美丽足球遇到打橄榄球的,上海海港赢得“很受伤”

当美丽足球遇到打橄榄球的,上海海港赢得“很受伤”

米奇兔
2025-04-02 22:20:49
“天生巨人”安德雷:一天喝119瓶啤酒,死后骨灰重量高达15斤!

“天生巨人”安德雷:一天喝119瓶啤酒,死后骨灰重量高达15斤!

回京历史梦
2025-04-02 17:53:39
李霄鹏:最后侥幸拿了一分,最后十分钟有很多值得总结的东西

李霄鹏:最后侥幸拿了一分,最后十分钟有很多值得总结的东西

懂球帝
2025-04-02 22:52:25
美国财政部宣布新一轮与俄罗斯相关的制裁

美国财政部宣布新一轮与俄罗斯相关的制裁

环球网资讯
2025-04-02 22:57:14
看懂崔业老婆拒绝大床房,才能懂王宝强《棋士》的现实主义意义

看懂崔业老婆拒绝大床房,才能懂王宝强《棋士》的现实主义意义

霏霏的娱乐日记
2025-04-02 16:18:48
知名艺人,正式退圈

知名艺人,正式退圈

鲁中晨报
2025-04-01 14:20:03
回顾:广东男子存1500万只剩1元,银行坚决不认,警方的话让他懵了

回顾:广东男子存1500万只剩1元,银行坚决不认,警方的话让他懵了

红豆讲堂
2025-03-25 10:53:47
她进京履新!国务院最新任免国家工作人员

她进京履新!国务院最新任免国家工作人员

上观新闻
2025-04-02 14:36:11
今晚这两个板块有利空!消息很多,我来做解读,明天策略来了

今晚这两个板块有利空!消息很多,我来做解读,明天策略来了

风风顺
2025-04-02 04:01:42
邹市明深夜一个人喝闷酒,被冉莹颖嫌爹味重,感叹:没钱我也焦虑

邹市明深夜一个人喝闷酒,被冉莹颖嫌爹味重,感叹:没钱我也焦虑

联友说娱
2025-04-01 14:40:28
自曝揭不开锅,网络造神的残酷现实,在大圆哥身上展现得淋漓尽致

自曝揭不开锅,网络造神的残酷现实,在大圆哥身上展现得淋漓尽致

吐不满的痰娱
2025-03-26 17:11:42
黄一鸣吐槽王思聪没担当,不养孩子不给钱,也不回来见孩子

黄一鸣吐槽王思聪没担当,不养孩子不给钱,也不回来见孩子

庭小小
2025-04-01 20:03:54
2025-04-03 00:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
10308文章数 142280关注度
往期回顾 全部

科技要闻

特斯拉一季度交付量33.7万辆,同比下降13%

头条要闻

外媒称缅甸军政府对中国红十字会车队鸣枪 外交部回应

体育要闻

成为最好的球员,更要成为生活中的勇士

娱乐要闻

汪小菲给S亲友发喜帖,对方婉拒不赏脸

财经要闻

"家装第一股"东易日盛资金链断裂真相

汽车要闻

小米SU7爆燃事故 雷军: 会用行动回答大家的问题

态度原创

数码
艺术
时尚
教育
军事航空

数码要闻

OPPO发布LUMO凝光影像:Find X8系列首发搭载

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

38岁刘亦菲生图又翻车?你别穿抹胸了!

教育要闻

一片骂声中我到底要不要考新传研究生?

军事要闻

视频直击:东部战区远火实弹射击现场