网易首页 > 网易号 > 正文 申请入驻

英伟达公布StyleGAN-XL:参数量3倍于StyleGAN3,计算时间仅为1/5

0
分享至

选自arXiv

作者:AXEL SAUER

机器之心编译

编辑:蛋酱

StyleGAN-XL 首次在 ImageNet 上实现了 1024^2 分辨率图像合成。

近年来,计算机图形学领域的研究者一直致力于生成高分辨率的仿真图像,并经历了一波以数据为中心的真实可控内容创作浪潮。其中英伟达的 StyleGAN 在图像质量和可控性方面为生成模型树立了新的标杆。

但是,当用 ImageNet 这样的大型非结构化数据集进行训练时,StyleGAN 还不能取得令人满意的结果。另一个存在的问题是,当需要更大的模型时,或扩展到更高的分辨率时,这些方法的成本会高得令人望而却步。

比如,英伟达的 StyleGAN3 项目消耗了令人难以想象的资源和电力。研究者在论文中表示,整个项目在 NVIDIA V100 内部集群上消耗了 92 个 GPU year(即单个 GPU 一年的计算)和 225 兆瓦时(Mwh)的电力。有人说,这相当于整个核反应堆运行大约 15 分钟。

最初,StyleGAN 的提出是为了明确区分变量因素,实现更好的控制和插值质量。但它的体系架构比标准的生成器网络更具限制性,这些限制似乎会在诸如 ImageNet 这种复杂和多样化的数据集上训练时带来相应代价。

此前有研究者尝试将 StyleGAN 和 StyleGAN2 扩展到 ImageNet [Grigoryev et al. 2022; Gwern 2020],导致结果欠佳。这让人们更加相信,对于高度多样化的数据集来说,StyleGAN 可能会从根本上受到限制。

受益于更大的 batch 和模型尺寸,BigGAN [Brock et al. 2019] 是 ImageNet 上的图像合成 SOTA 模型。最近,BigGAN 的性能表现正在被扩散模型 [Dhariwal and Nichol 2021] 超越。也有研究发现,扩散模型能比 GAN 实现更多样化的图像合成,但是在推理过程中速度明显减慢,以前的基于 GAN 的编辑工作不能直接应用。

此前在扩展 StyleGAN 上的失败尝试引出了这样一个问题:架构约束是否从根本上限制了基于 Style 的生成器,或者 missing piece 是否是正确的训练策略。最近的一项工作 [Sauer et al. 2021] 引入了 Projected GAN,将生成和实际的样本投射到一个固定的、预训练的特征空间。重组 GAN 设置这种方式显著改进了训练稳定性、训练时间和数据效率。然而,Projected GAN 的优势只是部分地延伸到了这项研究的单模态数据集上的 StyleGAN。

为了解决上述种种问题,英伟达的研究者近日提出了一种新的架构变化,并根据最新的 StyleGAN3 设计了渐进式生长的策略。研究者将改进后的模型称为 StyleGAN-XL,该研究目前已经入选了 SIGGRAPH 2022

  • 论文地址:https://arxiv.org/pdf/2202.00273.pdf
  • 代码地址:https://github.com/autonomousvision/stylegan_xl

这些变化结合了 Projected GAN 方法,超越了此前在 ImageNet 上训练 StyleGAN 的表现。为了进一步改进结果,研究者分析了 Projected GAN 的预训练特征网络,发现当计算机视觉的两种标准神经结构 CNN 和 ViT [ Dosovitskiy et al. 2021] 联合使用时,性能显著提高。最后,研究者利用了分类器引导这种最初为扩散模型引入的技术,用以注入额外的类信息。

总体来说,这篇论文的贡献在于推动模型性能超越现有的 GAN 和扩散模型,实现了大规模图像合成 SOTA。论文展示了 ImageNet 类的反演和编辑,发现了一个强大的新反演范式 Pivotal Tuning Inversion (PTI)[ Roich et al. 2021] ,这一范式能够与模型很好地结合,甚至平滑地嵌入域外图像到学习到的潜在空间。高效的训练策略使得标准 StyleGAN3 的参数能够增加三倍,同时仅用一小部分训练时间就达到扩散模型的 SOTA 性能。

这使得 StyleGAN-XL 能够成为第一个在 ImageNet-scale 上演示 1024^2 分辨率图像合成的模型

将 StyleGAN 扩展到 ImageNet

实验表明,即使是最新的 StyleGAN3 也不能很好地扩展到 ImageNet 上,如图 1 所示。特别是在高分辨率时,训练会变得不稳定。因此,研究者的第一个目标是在 ImageNet 上成功地训练一个 StyleGAN3 生成器。成功的定义取决于主要通过初始评分 (IS)[Salimans et al. 2016] 衡量的样本质量和 Fréchet 初始距离 (FID)[Heusel et al. 2017] 衡量的多样性。

在论文中,研究者也介绍了 StyleGAN3 baseline 进行的改动,所带来的提升如下表 1 所示:

研究者首先修改了生成器及其正则化损失,调整了潜在空间以适应 Projected GAN (Config-B) 和类条件设置 (Config-C);然后重新讨论了渐进式增长,以提高训练速度和性能 (Config-D);接下来研究了用于 Projected GAN 训练的特征网络,以找到一个非常适合的配置 (Config-E);最后,研究者提出了分类器引导,以便 GAN 通过一个预训练的分类器 (Config-F) 提供类信息。

这样一来,就能够训练一个比以前大得多的模型,同时需要比现有技术更少的计算量。StyleGAN-XL 在深度和参数计数方面比标准的 StyleGAN3 大三倍。然而,为了在 512^2 像素的分辨率下匹配 ADM [Dhariwal and Nichol 2021] 先进的性能,在一台 NVIDIA Tesla V100 上训练模型需要 400 天,而以前需要 1914 天。(图 2)。

实验结果

在实验中,研究者首先将 StyleGAN-XL 与 ImageNet 上的 SOTA 图像合成方法进行比较。然后对 StyleGAN-XL 的反演和编辑性能进行了评价。研究者将模型扩展到了 1024^2 像素的分辨率,这是之前在 ImageNet 上没有尝试过的。在 ImageNet 中,大多数图像的分辨率较低,因此研究者用超分辨率网络 [Liang et al. 2021] 对数据进行了预处理。

图像合成

如表 2 所示,研究者在 ImageNet 上对比了 StyleGAN-XL 和现有最强大的 GAN 模型及扩散模型的图像合成性能。

有趣的是,StyleGAN-XL 在所有分辨率下都实现了高度的多样性,这可以归功于渐进式生长策略。此外,这种策略使扩大到百万像素分辨率的合成变成可能。

在 1024^2 这一分辨率下,StyleGAN-XL 没有与 baseline 进行比较,因为受到资源限制,且它们的训练成本高得令人望而却步。

图 3 展示了分辨率提高后的生成样本可视化结果。

反演和操纵

同时,还可以进一步细化所得到的重构结果。将 PTI [Roich et al. 2021] 和 StyleGAN-XL 相结合,几乎可以精确地反演域内 (ImageNet 验证集) 和域外图像。同时生成器的输出保持平滑,如下图 4 所示。

图 5、图 6 展示了 StyleGAN-XL 在图像操纵方面的性能:

更多细节可参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川一彩民花18元中2576万元大奖!店主:中奖者常年外出打工,是老客户,偶尔买彩票,号码都是自己选

四川一彩民花18元中2576万元大奖!店主:中奖者常年外出打工,是老客户,偶尔买彩票,号码都是自己选

三湘都市报
2026-05-28 18:53:47
刚刚,黄仁勋加入清华大学

刚刚,黄仁勋加入清华大学

AppSo
2026-05-28 13:03:25
巴西宣布内马尔腿伤缺阵2-3周 基本无缘世界杯首战 或被临阵替换

巴西宣布内马尔腿伤缺阵2-3周 基本无缘世界杯首战 或被临阵替换

我爱英超
2026-05-28 20:42:00
384:0全票通过!普京已签字,俄罗斯放出终极底牌,中国该效仿吗

384:0全票通过!普京已签字,俄罗斯放出终极底牌,中国该效仿吗

流史岁月
2026-05-28 19:45:03
法网大冷!世界第一辛纳2-3遭塞伦德罗逆转 疑似中暑终结30连胜

法网大冷!世界第一辛纳2-3遭塞伦德罗逆转 疑似中暑终结30连胜

醉卧浮生
2026-05-28 21:51:56
郑钦文输球仅1天,让人愤怒的一幕出现,现在的她印证了李娜的话

郑钦文输球仅1天,让人愤怒的一幕出现,现在的她印证了李娜的话

青橘罐头
2026-05-28 09:51:56
正大量上市,钾含量是苹果8倍,6月使劲吃,腿脚有劲,精神饱满

正大量上市,钾含量是苹果8倍,6月使劲吃,腿脚有劲,精神饱满

阿龙美食记
2026-05-28 16:48:12
病历和裸检视频被泄露!医生群聊晒30厘米黄金肛塞合照

病历和裸检视频被泄露!医生群聊晒30厘米黄金肛塞合照

北京郑律师
2026-05-28 12:03:28
A股:紧急提醒2.5亿股民!从5月29日起,明天A股或将历史再次重演?

A股:紧急提醒2.5亿股民!从5月29日起,明天A股或将历史再次重演?

趋势清风侠
2026-05-28 18:20:07
货车在南京一小区内超速撞击4岁幼童致重伤,奶奶为护孩子不幸身亡

货车在南京一小区内超速撞击4岁幼童致重伤,奶奶为护孩子不幸身亡

大风新闻
2026-05-28 21:25:04
被指造假压榨学生5年,网传北航这位博导遭“天花板”处分,学术路全断了

被指造假压榨学生5年,网传北航这位博导遭“天花板”处分,学术路全断了

互联网大观
2026-05-28 16:45:38
反转再反转!“女教师给领导打伞”最新:不是领导,也不是父亲?

反转再反转!“女教师给领导打伞”最新:不是领导,也不是父亲?

乌娱子酱
2026-05-28 15:14:43
蔚来汽车李斌对整个行业悲观,称中国汽车很难回到过去的“黄金时代"

蔚来汽车李斌对整个行业悲观,称中国汽车很难回到过去的“黄金时代"

齐天候
2026-05-28 17:30:13
荷兰军官:我们进入南海,遇到了解放军,他们没说这里是他们领土

荷兰军官:我们进入南海,遇到了解放军,他们没说这里是他们领土

阿龙聊军事
2026-05-28 15:58:13
总分超王治郅历史第7!胡金秋20+8完胜王哲林 难阻遗憾惜败

总分超王治郅历史第7!胡金秋20+8完胜王哲林 难阻遗憾惜败

醉卧浮生
2026-05-28 21:39:12
毒杨梅事件升级!央视再暗访,会长真面目曝光,1天亏几亿不算完

毒杨梅事件升级!央视再暗访,会长真面目曝光,1天亏几亿不算完

小樾说历史
2026-05-28 11:36:56
震惊!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

震惊!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

火山詩话
2026-05-28 13:25:07
亏损超62亿,一代空调大王爆雷!

亏损超62亿,一代空调大王爆雷!

蒋东文
2026-05-26 21:05:52
注意了!印度来华人数飙升,深圳是最受欢迎城市,评论区全是担忧

注意了!印度来华人数飙升,深圳是最受欢迎城市,评论区全是担忧

谭谈社会
2026-05-28 11:41:20
前调查记者揭矿难黑幕:逃生者被老板雇人砸回矿井里,因为死了比救治重伤赔得少

前调查记者揭矿难黑幕:逃生者被老板雇人砸回矿井里,因为死了比救治重伤赔得少

可达鸭面面观
2026-05-28 16:52:14
2026-05-28 22:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13106文章数 142653关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

新款吉利星愿6.18万起售 一镜到底寻找爆款密码

态度原创

家居
时尚
教育
数码
军事航空

家居要闻

蜂鸟餐椅 线面交错

穿真丝的女人,挺时髦!

教育要闻

满老师把"压箱底"的升学数据公开了!近万份报告随便查,腾讯ima内测

数码要闻

618装机最后一环,这台1899元的2K 380Hz电竞屏把FPS体验拉满了

军事要闻

美锁定伊朗打击新目标 考虑重启军事行动

无障碍浏览 进入关怀版