网易首页 > 网易号 > 正文 申请入驻

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

0
分享至

文章转载于新智元

扩散模型如何突破瓶颈?成本高又难训练的DiT/SiT模型如何提升效率?

对于这个问题,纽约大学谢赛宁团队最近发表的一篇论文找到了一个全新的切入点:提升表征(representation)的质量。

论文的核心或许就可以用一句话概括:「表征很重要!」

用谢赛宁的话来说,即使只是想让生成模型重建出好看的图像,仍然需要先学习强大的表征,然后再去渲染高频的、使图像看起来更美观的细节。

这个观点,Yann LeCun之前也多次强调过。

有网友还在线帮谢赛宁想标题:你这篇论文不如就叫「Representation is all you need」(手动狗头)

由于观点一致,这篇研究也获得了同在纽约大学的Yann LeCun的转发。

当使用自监督学习训练视觉编码器时,我们知道一个事实,使用具有重建损失(reconstruction loss)的解码器的效果远远不如具有特征预测损失(feature prediction loss)和崩溃预防机制的联合嵌入架构。 这篇来自纽约大学谢赛宁团队的论文表明,即使只对生成像素感兴趣(例如,使用扩散Transformer生成漂亮的图片),包含特征预测损失也是值得的,以便解码器的内部表示可以基于预训练的视觉编码器(例如 DINOv2)进行特征预测。

REPA的核心思想非常简单,就是让扩散模型中的表征与外部更强大的视觉表征进行对齐,但提升效果非常显著,颇有「他山之石,可以攻玉」的意味。

仅仅是在损失函数添加一项相似度最大化,就能将SiT/DiT的训练速度提升将近18倍,还刷新了模型的SOTA性能,在ImageNet 256x256上实现了最先进的FID=1.42。

谢赛宁表示,刚看到实验结果时,他自己也被震惊到了,因为感觉并没有发明什么全新的东西,而只是意识到了,我们几乎完全不理解扩散模型和SSL方法学习到的表示。

1

论文简介

论文地址:https://arxiv.org/abs/2410.06940

项目地址:https://sihyun.me/REPA/

在生成高维的视觉数据方面,基于去噪方法(如扩散模型)或基于流的生成模型,已经成为了一种可扩展的途径,并在有挑战性的的零样本文生图/文生视频任务上取得了非常成功的结果。

最近的研究表明,生成扩散模型中的去噪过程可以在模型内部的隐藏状态中引入有意义的表示,但这些表示的质量目前仍落后于自监督学习方法,例如DINOv2。

作者认为,训练大规模扩散模型的一个主要瓶颈,就在于无法有效学习到高质量的内部表示。

如果能够结合高质量的外部视觉表示,而不是仅仅依靠扩散模型来独立学习,就可以使训练过程变得更容易。

为了实现这一点,论文基于经典的扩散Transformer架构,引入了一种简单的正则化方法REPA(REPresentation Alignment)。

简单来说,就是将去噪网络中从噪声输入 得到的隐藏状态的投影,与外部自监督预训练的视觉编码器从干净图像获得的视觉表示*进行对齐。

这样一个非常直给的策略,却获得了惊人的结果:应用于流行的SiT或DiT时,模型的训练效率和生成质量都得到了显著提高。

具体来说,REPA可以将SiT的训练速度加快17.5×以上,以不到40万步的训练量匹配有700万步训练的SiT-XL模型的性能,同时实现了FID=1.42的SOTA结果。

1

REPA:使用表征对齐的正则化

统一视角的扩散模型+流模型

由于论文希望同时优化基于流的模型SiT和基于去噪的扩散模型DiT,因此首先从统一的随机插值视角,对这两种模型进行简要的回顾。

考虑在t∈[0,T]的连续时间步中,对数据*~p()使用高斯分布ε~(0,)添加随机噪音:

其中,αt和σt分别表示t的递减和递增函数。在公式(1)给定的过程中,存在一个带有速度场(velocity field)的概率流常微分方程:

其中t步时的分布就等于边际概率pt()。

速度(,t)可以表示为如下两个条件期望之和:

这个值可以通过最小化如下训练目标得到近似值θ(,t):

同时,还存在一个反向的随机微分方程(SDE),带有扩散系数wt,其中的边际概率pt()与公式(2)相符:

其中,(t,t)是一个条件期望值,定义为:

对任意t>0,都可以通过速度(,t)计算出(,t)的值:

这表明,数据t也可以通过求解公式(5)的SDE来以另一种方式生成。

以上定义对类似的扩散模型变体,例如DDPM,同样适用,只是需要将连续的时间步离散化。

方法概述

令p()为数据∈的未知目标分布,我们的训练目标就是通过模型对数据的学习得到p()的近似。

为了降低计算成本,最近流行的「潜在扩散」方法(latent diffusion)提出学习潜在变量=E()的分布p(),其中E表示来自预训练自编码器(例如KL-VAE)中的编码部分。

要学习到分布p(),就需要训练扩散模型θ(t,t),训练目标是进行速度预测,具体方法如上一节所述。

放在自监督表示学习的背景中,可以将扩散模型看成编码器fθ:⭢和解码器gθ:⭢的组合,其中编码器负责隐式地学习到表示t以重建目标t。

然而,作者提出,用于生成的大型扩散模型并不擅长表征学习,因此REPA引入了外部的语义丰富的表示,从而显著提升生成性能。

模型观察

扩散模型是否真的不擅长表征学习?这需要更进一步地观察模型才能确定,为此,研究人员测量并比对了diffusion transformer和当前的SOTA自监督模型DINOv2之间的表征差距,包括语义差距和特征对齐两种角度。

语义差距

从图2a可知,预训练SiT的隐藏层表示在第20层达到最佳状态,这与之前的研究结果相符,但仍远远落后于DINOv2。

特征对齐

如图2b和2c所示,使用CKNNA值测量SiT和DINOv2之间的表征对齐程度后发现,SiT的对齐效果会随着模型增大和训练迭代步数增加而逐渐改善,但即使增加到7M次迭代,和DINOv2之间的对齐程度仍然不足。

事实上,这种差距不仅在SiT中存在,根据附录C.2的实验结果,DiT等其他基于去噪的生成式Transformer模型也存在类似的问题。

缩小表征差距

那么,REPA方法究竟如何缩小这种表征差距,让diffusion transformer在噪声输入中也能学到有用的语义特征?

定义N,D分别表示patch数量预训练编码器f的嵌入维度,编码器输入为无噪声的图像*,输出为*=f(*)∈ℝN×D。

Diffusion transformer将编码器输出t=fθ(t)通过一个可训练的投影头hφ(MLP)投影为hφ(t)∈ℝN×D。

之后,REPA负责将hφ(t)与*进行对齐,通过最大化两者间的patch间相似度:

在实际实现中,将这一项添加到公式(4)定义的基于扩散的训练目标中,就得到总体的训练目标:

其中超参数λ>0用于控制模型在去噪目标和表征对齐间的权衡。

从图3结果可知,REPA减少了表示中的语义差距。

有趣的是,使用REPA后,仅对齐前几个Transformer块就能实现足够程度的表示对齐,从而让diffusion transformer的靠后层专注于捕获高频细节,从而进一步提高生成性能。

1

实验结果

为了验证REPA方法的有效性,实验在两种流行的扩散模型训练目标(即velocity)上进行了实验,包括DiT中改进后的DDPM和SiT中的线性随机插值,但实际中也同样可以考虑其他的训练目标。

所用模型默认严格遵循SiT和DiT的原始结构(除非有特别说明),包括B/2、L/2、XL/2三种参数设置,如表1所示。

以下实验旨在回答3个问题:

- REPA能否显著提升diffusion transformer的训练?

- REPA在模型规模和表征质量方面是否具有可扩展性?

- 扩散模型的表征能否和多种视觉表征进行对齐?

REPA提升视觉缩放

首先比较两个SiT-XL/2模型在前400K次迭代期间生成的图像,它们共享相同的噪声、采样器和采样步数,但其中使用REPA训练的模型显示出更好的进展。

REPA在各个方面都展现出了强大的可扩展性

研究人员还改变了预训练编码器和Diffusion Transformer的模型大小来检验REPA的可扩展性。

图5a结果表明,与更好的视觉表示相结合可以改善生成效果和线性探测的结果。

此外,如图5b和c所示,增加模型大小可以在生成和线性评估方面带来更快的收益,也就是说,模型规模越大,REPA的加速效果越明显,表现出了强大的可扩展性。

REPA显著提高训练效率和生成质量

最后,论文比较了普通DiT或SiT模型在训练中使用REPA前后的FID值。

在没有指导的情况下,REPA在400K次迭代时实现了FID=7.9,优于普通模型在7M次迭代后的性能。

此外,使用无分类器引导时,带有REPA的SiT-XL/2的性能优于SOTA性能(FID=1.42),同时迭代次数减少了7倍。

1

作者介绍

Sihyun Yu

本文一作Sihyun Yu是KAIST(韩国科学技术院)人工智能专业最后一年的博士生,此前他同样在KAIST获得了数学和计算机科学的双专业学士学位。

他的研究主要集中在减少大型生成模型训练(和采样)的内存和计算负担,其中,对大规模且高效的视频生成特别感兴趣;博士期间,他还曾在英伟达和谷歌研究院担任实习生。

参考资料:

https://x.com/sainingxie/statdus/1845510163152687242

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老黄来了没用!中国拒采购H200 美国批准出口也不买

老黄来了没用!中国拒采购H200 美国批准出口也不买

3DM游戏
2026-05-18 19:13:21
特朗普连发15张图分享“中国记忆”

特朗普连发15张图分享“中国记忆”

中国日报
2026-05-18 16:12:38
美记称SGA已经超越韦德,热媒列荣誉:你们忘了韦德是谁了?

美记称SGA已经超越韦德,热媒列荣誉:你们忘了韦德是谁了?

懂球帝
2026-05-19 16:55:38
德比斯没和张雪签约?真相来了:与意大利冠军合作 互相成就夺5冠

德比斯没和张雪签约?真相来了:与意大利冠军合作 互相成就夺5冠

念洲
2026-05-19 07:38:54
厦门出台六条公积金措施,“卖旧换新”贷款按首套房利率执行

厦门出台六条公积金措施,“卖旧换新”贷款按首套房利率执行

界面新闻
2026-05-19 18:19:19
错失600亿,碧桂园亏大发了

错失600亿,碧桂园亏大发了

大嘴説
2026-05-19 17:04:18
上海已婚男子突然消失,妻子走投无路对外称“丈夫死了”,户口注销,结果尴尬

上海已婚男子突然消失,妻子走投无路对外称“丈夫死了”,户口注销,结果尴尬

上观新闻
2026-05-19 11:51:26
女子称广场雕塑极具暗示性,物业:体现女性曲线美,网友:美在哪

女子称广场雕塑极具暗示性,物业:体现女性曲线美,网友:美在哪

八斗小先生
2026-05-19 14:45:01
31分8记三分!卡鲁索G1封神,湖人名宿:湖人怎么放走这种高级货

31分8记三分!卡鲁索G1封神,湖人名宿:湖人怎么放走这种高级货

小徐讲八卦
2026-05-19 17:48:12
尼克杨:下赛季可能出现在CBA 这里对抗激烈必须要变得更快更强壮

尼克杨:下赛季可能出现在CBA 这里对抗激烈必须要变得更快更强壮

狼叔评论
2026-05-19 15:26:16
百度抛出 AI 时代的新度量衡

百度抛出 AI 时代的新度量衡

晚点LatePost
2026-05-14 20:10:13
连创生涯纪录!卡鲁索31+8三分血战到底 湖媒又嘲笑佩林卡看走眼

连创生涯纪录!卡鲁索31+8三分血战到底 湖媒又嘲笑佩林卡看走眼

醉卧浮生
2026-05-19 11:52:55
柳州再发5.2级地震,前世界冠军吴柳芳为家乡捐款两万元,称“刚把欠的40万还完,现在刚刚缓过一口气,这次尽我自己所能”

柳州再发5.2级地震,前世界冠军吴柳芳为家乡捐款两万元,称“刚把欠的40万还完,现在刚刚缓过一口气,这次尽我自己所能”

扬子晚报
2026-05-19 10:51:26
第三轮第六批中央生态环境保护督察公布四省区典型案例

第三轮第六批中央生态环境保护督察公布四省区典型案例

界面新闻
2026-05-19 15:04:08
河南一景区现“爬不动了吧哈哈哈哈”标语,游客感觉不被尊重,景区:已撤除,本意是缓解爬山压力

河南一景区现“爬不动了吧哈哈哈哈”标语,游客感觉不被尊重,景区:已撤除,本意是缓解爬山压力

极目新闻
2026-05-19 14:48:26
26岁!曝申请交易!有望重磅联手爱德华兹

26岁!曝申请交易!有望重磅联手爱德华兹

篮球实战宝典
2026-05-19 17:41:56
1983年,红卫兵头子被判刑,晚年沦落到捡菜叶子充饥,活到2019年

1983年,红卫兵头子被判刑,晚年沦落到捡菜叶子充饥,活到2019年

米果说识
2024-09-12 04:20:03
越扒瓜越大!福建杨梅再添实锤,不只是商户投毒,还有一地更恶劣

越扒瓜越大!福建杨梅再添实锤,不只是商户投毒,还有一地更恶劣

奇思妙想草叶君
2026-05-18 20:35:10
巨力索具连续跌停!已被证监会立案,股价年内一度暴涨近2倍,杨子家族多年来累计套现超28亿元

巨力索具连续跌停!已被证监会立案,股价年内一度暴涨近2倍,杨子家族多年来累计套现超28亿元

每日经济新闻
2026-05-19 11:37:08
某些人的良心彻底烂了!

某些人的良心彻底烂了!

胖胖说他不胖
2026-05-19 11:50:06
2026-05-19 18:44:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3093文章数 10497关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

菲总统称不希望卷入任何与台湾有关的战争 外交部回应

头条要闻

菲总统称不希望卷入任何与台湾有关的战争 外交部回应

体育要闻

文班亚马:没拿到MVP,就证明自己是MVP

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

从卖流量到卖Token,运营商算力生意破局

汽车要闻

配置全家桶 全新海狮05这次升级全在点上

态度原创

时尚
手机
游戏
数码
公开课

休闲阔腿裤怎么穿才美?看看这些穿搭公式,解锁不重样的造型

手机要闻

万元旗舰参数造假 索尼Xperia 1 VIII厚度虚标:实测整机更厚

EWC电竞世界杯:HLE是看重电竞世界杯的,直落两局横扫BRO

数码要闻

50天12.6万次价格抓取:所有显卡都在跌 唯独RTX 5090逆涨3%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版