Stochastic Interpolants: A Unifying Framework for Flows and Diffusions
随机插值:流动和扩散的统一框架
https://arxiv.org/abs/2303.08797
摘要
本文介绍了一类统一基于流和基于扩散方法的生成模型。这些模型扩展了[2]中提出的框架,使得可以使用一类称为“随机插值”的连续时间随机过程,在有限时间内精确地桥接任意两个概率密度函数。这些插值通过结合来自两个规定密度的数据以及一个额外的潜变量构建,该潜变量以灵活的方式塑造桥接。
随机插值的时间依赖概率密度函数被证明满足一阶传输方程以及具有可调扩散系数的前向和后向Fokker-Planck方程族。考虑到单个样本的时间演化,这种观点立即引出了基于概率流方程或具有可调噪声水平的随机微分方程的确定性和随机生成模型。
进入这些模型的漂移系数是时间依赖的速度场,被表征为简单二次目标函数的唯一最小化器,其中之一是插值密度得分的新目标。我们展示了这些二次目标的最小化导致对基于随机动态的生成模型的似然进行控制,而对确定性动态的似然控制更为严格。我们还为基于插值的生成模型的似然和交叉熵构建了估计器,并讨论了与基于得分的扩散模型、随机定位过程、概率去噪技术和矫正流等其他方法的联系。此外,我们展示了随机插值在明确优化插值时能够恢复两个目标密度之间的薛定谔桥。最后,讨论了算法方面的内容,并通过数值示例对方法进行了说明。
1 引言
1.1 背景和动机
动态方法用于确定性和随机传输已成为当代生成建模研究的核心主题。进步的核心思想是使用常微分方程(ODE)或随机微分方程(SDE)不断将来自基础概率密度函数(PDF)的样本转换为来自目标密度(或反之)的样本,并意识到对这些方程中的速度场的推断可以被表述为一个参数化函数类的实证风险最小化问题[24, 58, 25, 60, 5, 2, 41, 39]。
一个重要的里程碑是得分基础扩散方法(SBDM)[60]的引入,该方法通过将样本传递给一个Ornstein-Uhlenbeck(OU)过程,将任意密度映射到标准高斯分布。SBDM的关键见解在于,通过引入一个依赖于过程的时间依赖密度得分的逆向SDE,可以逆转这一过程。通过学习这个得分——这可以通过最小化一个称为去噪损失的二次目标函数来完成[68]——逆向SDE可以用作一个生成模型,将高斯噪声映射到目标数据。尽管理论上是准确的,但在两个方向上都需要无限的时间,因此实践中必须截断。
尽管基于扩散的方法已经成为图像生成等任务的最新技术,但仍有相当大的兴趣开发桥接任意两个密度(而不是要求其中一个是高斯)的方法,精确完成传输,并在有限时间间隔内完成。此外,尽管基于得分的扩散最初使用SDE[60]获得了最高质量的结果,但最近的研究通过学习得分足够好,发现使用基于ODE的方法可以获得等效或更好的性能[32]。如果使它们与随机对应物的性能相匹配,基于ODE的方法展示了许多理想特性,例如一个精确的、计算上可行的似然公式,以及易于应用发展良好的自适应积分方案进行采样。是否存在基于确定性动态的生成模型与基于随机动态的生成模型在样本质量上的分离,这是一个具有重大实际意义的开放问题。
为了满足前一段概述的理想特性,我们基于[2]中提出的方法开发了一个生成建模框架,该方法建立在随机插值 的概念上,用于桥接任意两个密度。我们将考虑更一般的设计,但作为一个例子,读者可以记住:
有趣的是,进入这些ODEs/SDEs的漂移系数是二次目标函数的唯一最小化器,这些函数可以从未数据中经验估计。由此产生的最小二乘回归问题使我们能够估计ODE/SDEs的漂移系数,然后可以用来将 上的样本推向 上的新样本,反之亦然。
1.2 主要贡献和组织结构
这里介绍的方法是一种构建生成模型的多功能方式,它统一并扩展了许多现有算法。在第2节中,我们充分发展了这个框架,并强调了以下关键贡献:
• 我们证明了第2.1节中定义的随机插值具有相对于上的勒贝格测度绝对连续的分布,并且其密度满足一阶传输方程(TE)以及具有可调扩散系数的前向和后向Fokker-Planck方程(FPEs)族。
• 我们展示了如何使用随机插值来学习进入TE和FPEs的漂移系数。我们将这些系数表征为第2.2节给出的简单二次目标函数的最小化器。我们为插值密度的得分引入了一个新的目标,以及一个学习去噪器 的目标函数,我们将这两者联系起来。
• 在第2.3节中,我们推导出与TE和FPEs相关的常微分方程和随机微分方程,这些方程导致确定性和随机生成模型。在第2.4节中,我们展示了回归基于SDE模型的漂移如何控制似然,但仅回归漂移对于基于ODE模型是不够的,它们还必须最小化Fisher散度。我们展示了如何最佳调整扩散系数以最大化SDE的似然。
• 在第2.5节中,我们发展了一个通用公式来评估基于SDE的生成模型的似然,这是计算基于ODE模型似然的常用连续变量变换公式的自然对应物。此外,我们在第3节中讨论了随机插值方法的具体实例。在第3.4节中,我们首先展示了插值等同于一类随机桥,但它们避免了需要Doob的h变换,这通常是未知的;我们展示了这简化了一大类生成模型的构建。在第3.2节中,我们定义了单侧插值,它对应于将基础取为高斯的常规设置。有了高斯基础,插值的几个方面就简化了,我们详细说明了相应的目标函数。在第3.3节中,我们引入了一个镜像插值,其中基础 和目标 是相同的。最后,在第3.4节中,我们展示了插值框架如何导致两个密度之间的薛定谔桥问题的自然表述。
在第4节中,我们讨论了一个特殊情况,即插值在上是空间线性的。在这种情况下,速度场可以分解,我们在第4.1节中展示了这导致了一个更简单的学习问题。我们在第4.2节中详细说明了特定的线性插值选择,并在第4.3节中说明了这些选择如何影响所得生成模型的性能,特别关注潜变量和扩散系数的作用。为了说明,我们专注于高斯混合密度,对于这些密度,漂移系数可以分析计算。我们在附录A中提供了结果公式。最后,在第4.4节中,我们讨论了空间线性单侧插值的情况。
在第5节中,我们确立了随机插值与相关类别生成模型之间的联系。在第5.1节中,我们展示了基于得分的扩散模型可以重写为单侧插值,前提是重新参数化时间;我们强调了这种方法如何消除在简单地将基于得分的扩散压缩到有限时间间隔时出现的奇异性。在第5.2节中,我们展示了如何使用插值导出去噪器的贝叶斯最优估计器,并展示了如何迭代这种方法来创建生成模型。在第5.3节中,我们考虑了矫正学习生成模型的流图的可能性。我们展示了矫正过程不会改变底层生成模型,尽管它可能会改变插值的时间依赖密度。
在第6节中,我们提供了与上述数学结果相关的实用算法的细节。在第6.1节中,我们描述了如何根据来自基础和目标的经验数据集数值估计目标。在第6.2节中,我们补充了关于学习与采样算法的讨论,这些算法适用于ODE或SDE。
我们在第7节中提供了与这些建议一致的数值演示,并在第8节中以一些评论结束。
1.3 相关工作
确定性传输和归一化流。基于传输的采样和密度估计在通过最大熵方法对数据进行高斯化的现代根源中占有一席之地[23, 12, 64, 63]。
在这种转换下的度量变化是归一化流模型的基础。这些方法的第一个神经网络实现是通过在转换上施加巧妙的结构,使得离散的、顺序的步骤中的度量变化变得可行[52, 16, 50, 28, 19]。
通过将映射视为一个ODE的解,使得这个过程的连续时间版本成为可能[11, 24],其参数漂移定义了传输,并通过最大似然估计学习。以这种方式训练在大规模上是不切实际的,因为它需要模拟ODE。
各种方法已经引入了对两个密度之间路径的正则化,以使ODE求解更有效[22, 48, 65],但根本困难仍然存在。我们也在连续时间中工作;然而,我们的方法允许我们在不模拟动态的情况下学习漂移,并且可以通过确定性或随机传输在样本生成时制定。
随机传输和基于得分的扩散(SBDMs)。与基于确定性映射的方法相辅相成,最近的工作已经意识到,将数据分布连接到高斯密度可以被视为一个Ornstein-Uhlenbeck(OU)过程的演变,该过程逐渐将感兴趣的分布中的样本降解为高斯噪声[54, 25, 58, 60]。OU过程指定了概率密度空间中的一条路径;通过添加噪声,这个路径在前向方向上很容易遍历,并且如果可以获得时间依赖密度的得分 的访问,就可以逆转。这个得分可以通过解决最小二乘回归问题来近似[29, 68],并且一旦学习了得分,就可以通过逆转路径来采样目标。有趣的是,得到的前向和后向随机过程在分布层面上等价地以确定性概率流方程的形式表述,这一点首次被[4, 49, 33]注意到,然后被应用在[44, 57, 34, 7]中。概率流公式对于密度估计和交叉熵计算很有用,但值得注意的是,在使用近似得分时,概率流和逆时SDE将具有不同的密度。
正如最初提出的SBDM框架,它具有一些并不先验地很好地激励的特征,包括依赖于映射到正态密度,时间参数化和噪声调度的复杂调整[69, 26],以及潜在随机动态的选择[17, 32]。虽然已经有一些努力使用随机桥去除对OU过程的依赖[51],但得到的程序可能在算法上复杂,依赖于具有有限表达性的扩散的不准确混合,并且没有可访问的概率流公式。这些困难中的一些已在后续工作中得到解决[42]。作为这个方向上的另一个步骤,我们观察到SBDM背后的关键思想——通过一个时间依赖密度桥接密度,其演化方程是可用的——可以以一种直接且计算上可行的方式推广到一个更广泛的进程类别。
随机插值、矫正流和流匹配。在[2]中介绍的随机插值方法的变体也在[41, 39]中介绍。在[41]中,提出了一个线性插值,重点是直接路径。这被用作通过一种程序来矫正传输路径[40],该程序提高了采样效率,但引入了偏差。在第5.3节中,我们提出了一种无偏差的矫正替代形式。在[39]中,插值图景是从连接到高斯的条件概率路径的角度组装的,其中使用了噪声卷积来改善学习,但以偏差方法为代价。[39]的扩展在[66]中提出,将该方法推广到高斯基础密度之外。在这里提出的方法中,我们引入了一种无偏差的方式来将噪声纳入进程,无论是通过在随机插值中引入一个潜变量,还是在相关的随机生成模型中包含一个可调的扩散系数。我们为这些噪声项的存在提供了理论和实践上的动机。
最优传输和薛定谔桥。在理论和实践上都有兴趣最小化连接的传输成本。在确定性映射的情况下,这由最优传输问题表征,而在扩散映射的情况下,则由薛定谔桥问题表征[67, 15]。从形式上讲,这两个问题可以通过将薛定谔桥视为熵正则化的最优传输来相关联。最优传输主要被用作通过强加路径长度惩罚[71, 48, 22, 65]或参数化本身的结构[27, 70]来规范基于流的方法的手段。最近有一系列工作在可学习的扩散背景下提出了薛定谔问题[8, 62, 14]。在插值框架中,[2, 41, 39, 66]都提出了学习过程的最优传输扩展。[41, 40]提出的方法允许人们通过矫正依次降低传输成本,但这会引入偏差,除非速度场被完全学习。[2]提出的方法是一个无偏框架,需要解决额外的优化问题。[39]中的最优传输陈述仅适用于高斯分布,但被证明在实验演示中实际有用。
在下面提出的方法中,我们提供了两种在随机动态下优化传输的方法。我们的主要方法基于[2]中引入的方案,在第3.4节中介绍。它提供了通过最大化插值[6]来解决Benamou-Brenier水动力学公式下的薛定谔桥问题的替代途径。然而,我们强调在实践中这个额外的优化步骤并不是必需的,因为我们的方法对于任何固定的插值都会导致无偏的生成模型。此外,第5.3节讨论了[41]提出的矫正方案的无偏变体。
收敛性界限。受到基于得分的扩散成功的启发,最近大量的研究工作被投入到理解可以在生成模型的分布和目标数据分布之间的适当距离(如KL、W2或TV)上获得的控制。在这方面的第一条工作线可能是[57],它表明标准的基于得分的扩散训练技术限制了所得SDE模型的似然。重要的是,正如我们在这里展示的,相应概率流的似然通常不受这种技术的限制,这一点首先在SBDM的背景下被[43]强调。基于SBDM的技术的控制后来在离散设置中通过[36]在函数不等式假设下更严格地量化,这些假设后来被[37]和[13]通过Girsanov基础技术去除。与这里考虑的基于PDE的方法最相关的是[10],它将类似的技术应用于我们自己的SBDM背景,以获得最小假设下的严格保证。
1.4 符号表示
2 随机插值框架 2.1 定义和假设 我们首先定义我们方法核心的随机过程:
2.2 传输方程、分数和二次目标
现在我们给出一个结果,该结果指定了随机插值 xt 的概率分布的一些重要属性:
定理2.8的证明在附录B.1中给出。我们强调,尽管,但目标函数是良好定义的:有关如何在实践中评估这个目标的更多细节,请参阅第6节。
现在,它在(反向的)时间上正向求解是良定义的。为了只有一个时间 t 的定义,使用 (2.22) 更方便。
让我们对到目前为止的陈述做一些评论:
2.3 生成模型
我们的下一个结果是定理 2.6 的直接结果,它展示了如何使用与 TE (2.9)、正向 FPE (2.20) 和反向 FPE (2.22) 相关联的随机过程来设计生成模型:
2.4 似然控制
备注 2.24(生成建模)。上述结果对于生成建模具有实际影响。特别是,他们表明,最小化损失(2.13)和(2.16)或(2.29)和(2.16)可以最大化随机生成模型的可能性
但最小化目标(2.13)一般不足以最大化确定性生成模型的可能性
此外,他们表明,当学习 时,最小化上限的 ϵ 选择由下式给出
2.5 密度估计和交叉熵计算
众所周知,TE(2.9)的解可以用概率流ODE(2.32)的解来表示;为了完整起见,我们现在回顾一下这个事实:
引理 2.25 的证明可以在附录 B.4 中找到。有趣的是,我们可以为正向和反向 FPEs (2.20) 和 (2.22) 的解获得一个类似的结果。这些结果利用了辅助的正向和反向随机微分方程,在这些方程中,正向和反向漂移的角色被交换了:
定理2.26的证明可以在附录B.4中找到。请注意,如果我们能够假设在另一端精确地采样PDF,即ρ0和ρ1,那么无论是从ρ^F(1)还是ρ^B(0)生成数据,我们仍然依赖于等式(2.33)和(2.34)中的前向和后向随机微分方程(SDE),现在这些方程使用了(2.54)中的近似漂移项。
如果在(2.63),(2.64),(2.65)和(2.66)中,我们通过经验期望来近似ρ0和ρ1上的期望E0和E1,这些方程允许我们交叉验证不同的的近似值,以及比较由TE (2.50)演化的密度的交叉熵与前向和后向FPEs (2.57)和(2.59)的交叉熵。
备注2.29。在实践中使用(2.65)和(2.66)时,取期望的对数可能会造成困难,例如在使用Hutchinson迹估计器计算bF或bB的散度时,这将引入偏差。消除这种偏差的一种方法是使用Jensen不等式,这将导致上界。
然而,这些界限一般来说并不尖锐——事实上,使用类似于定理 2.28 证明中提出的计算,我们可以推导出精确的表达式,精确地捕获应用 Jensen 不等式时丢失的内容:
不幸的是,由于近似误差,一般来说,我们不知道如何估计(2.69)和(2.70)右侧的额外项。一种可能性是使用 作为 的代理,这在实践中可能是有用的,但这种近似通常是不受控制的。
3 实例化和扩展
在本节中,我们将实例化第2节讨论的随机插值框架。
3.1 扩散插值
最近,通过扩散桥接过程构建生成模型的兴趣激增[8, 51, 42, 55]。在本节中,我们将这些方法与我们自己的方法联系起来,突出显示随机插值使我们能够以更简单和更直接的方式操作某些桥接过程。我们还展示了这种视角导致了一种生成过程,该过程通过将任何x0 ∈ Rd中的点质量通过随机微分方程(SDE)推动,来采样任何目标密度。我们首先介绍一种新的插值类型:
定义3.1(扩散插值)。给定两个概率密度函数一个在 之间的扩散插值是一个随机过程定义为:
因此,(3.1)和(3.2)导致相同的生成模型。从技术上讲,使用(3.2)比使用(3.1)更容易,因为它避免了使用伊藤微积分,并允许直接使用来自ρ0、ρ1和N(0, Id)的样本来采样xt。然而,(3.1)揭示了基于(3.2)的生成模型的一些有趣属性,即具有γ(t) = p 2a(t)t(1 − t)的随机插值。为了理解为什么,我们现在使用关系(3.1)重新推导(3.1)和(3.2)共享的密度ρ(t, x)的传输方程。为了简单起见,我们专注于a(t)随时间恒定的情况,即我们在(3.1)中设a(t) = a > 0。
首先,回顾布朗桥Bt可以用Wiener过程Wt表示为此外,它满足SDE(例如,通过在B1=0的情况下通过Doob的h变换[18]进行条件化获得):
值得注意的是,定义在(3.8)中的漂移u对于所有t ∈ [0, 1](包括t = 0)即使ρ0被替换为在x0处的点质量,仍然保持非奇异;相比之下,在这种情况下,b和s在t = 0时是奇异的。
因此,与FPE (3.7)相关的SDE为我们提供了一个生成模型,它可以从集中在单个x0的基础度量中采样ρ1(即,密度ρ0被替换为在x = x0处的点质量度量)。我们在以下定理中形式化这个结果:
备注3.3(Doob h变换)。原则上,上述方法可以推广到任何随机桥接,这可以通过条件化任何SDE的解来获得,使其满足和,借助于Doob的h变换。然而,通常这种构造不能明确地进行,因为h变换通常无法以解析形式获得。一种方法是学习它,如[51, 8]中所提出的,但这增加了额外的难度,而上述方法避免了这一点。
3.2 针对高斯ρ0的单侧插值
在缺乏先验信息的情况下,生成建模的一个常见选择是将作为基础密度。在这种情况下,我们可以将潜变量z与x0组合起来。这导致了一个更简单的随机插值类型,特别是将使我们能够在我们的整体框架内实例化基于分数的扩散(见第3.4节)。
定义3.4(单侧随机插值)。给定一个概率密度函数,一个在N(0, Id)和ρ1之间的单侧随机插值是一个随机过程。
3.3 镜像插值
另一个实际相关的设置是当基础和目标是相同的密度ρ1时。在这种情况下,我们可以定义一个随机插值为:
定义3.7(镜像随机插值)。给定一个概率密度函数,一个在ρ0和其自身之间的镜像随机插值是一个随机过程。
备注3.9. 有趣的是,如果我们取,那么,定义在(3.26)中的速度场完全由去噪器ηz定义。
由于分数s也依赖于ηz,这个去噪器是需要被学习的唯一量。
备注3.10. 如果ρ1只能通过经验样本获得,镜像插值不能使计算ρ1的函数形式成为可能。一个值得注意的例外是,如果我们设K(t, x1) = 0对于t ∈ [t1, t2],其中0 < t1 ≤ t2 < 1:在这种情况下,,这为我们提供了一个参考密度用于比较。在这个设置中,镜像插值本质上减少到两个单侧插值粘合在一起(第二个是时间反转的),或者实际上是一个常规的随机插值,当ρ0 = ρ1时,我们设。
3.4 随机插值和薛定谔桥
随机插值框架也可以用来解决薛定谔桥问题。关于这个问题的背景材料,我们推荐读者参考[38]及其中的参考文献。与本文的总体观点一致,我们考虑薛定谔桥问题的流体动力学表述,在这种表述中,目标是获得一对(ρ, u),它解决了以下优化问题,对于固定的ϵ > 0:
4 空间线性插值
在本节中,我们研究当我们将(2.1)中使用的函数专门化为在 x0 和 x1 上都是线性的时获得的随机插值,即我们考虑
尽管这个设置很简单,但它提供了显著的设计灵活性。讨论突出了潜变量γ(t)z的存在如何简化中间密度ρ(t)的结构。由于我们的最终目标是研究建立在ODE或SDE之上的实用生成模型的性质,我们还将研究时间依赖的扩散系数ϵ(t)的效果,它控制着生成SDE中的噪声幅度。在整个过程中,为了建立直觉,我们选择ρ0和ρ1为高斯混合密度,对于这些密度,漂移系数可以被解析地计算(见附录A)。这使我们能够可视化每个选择对生成模型结果的影响。
4.1 速度场的分解
当随机插值具有形式(4.1)时,定义在(2.10)和(2.14)中的速度b和分数s都可以用以下三个条件期望来表示(第三个已经在(2.17)中定义为去噪器):
4.2 一些特定的设计选择
假设ρ0和ρ1都被缩放到具有零均值和单位协方差是有用的(这在实践中可以通过数据的仿射变换实现)。在这种情况下,(4.1)的时间依赖均值和协方差由下式给出:
如果ρ0和ρ1的协方差不是单位矩阵,但在同一量级上,这种选择也是合理的。在这种情况下,我们不再需要严格强制执行(4.8),例如,可以选择三个函数,它们的平方和是一阶的。为了明确起见,在后续讨论中,我们将讨论满足(4.8)的选择,同时理解相应的函数α、β和γ都可以稍微修改,而不会显著影响结论。
当γ=0时,这是[2]中首选的选择。当ρ0和ρ1都是高斯混合密度时,使用选择(4.9)和(4.10)得到的PDF ρ(t)如图6所示。正如这个例子所示,如果ρ0和ρ1具有不同的复杂特征,如果不是由于潜变量的平滑效应,这些特征将在中间时间在ρ(t)中被复制;这种行为在图6中可以看到,当γ(t)=0时,在第一行最为突出。从统计学习的角度来看,消除虚假特征的形成将简化速度场b的估计,随着这些特征形成的抑制,速度场变得更加平滑。
高斯编码-解码。一个有用的极限情况是在中点t = 1/2时将数据从ρ0完全退化为噪声,并从开始完全从噪声重建ρ1。一个允许我们在满足(4.8)的同时做到这一点的选择是:(此处文本被截断,未提供完整的选择方案。)
4.3 潜变量γ(t)z和扩散系数ϵ(t)的影响
随机插值框架使我们能够区分潜变量γ(t)z和我们在生成模型中使用的扩散系数ϵ(t)的独立作用。如定理2.6所示,当γ=0时,潜变量γ(t)z的存在平滑了密度ρ(t)和定义在(2.10)中的速度b的空间分布。这在样本生成时提供了计算上的优势,因为它简化了(2.32)、(2.33)和(2.34)所需的数值积分。直观地说,这是因为xt的密度ρ(t)可以精确表示为在每个t ∈ (0, 1)处用γ(t) = 0时得到的密度与N(0, γ^2(t)Id)卷积得到的密度。图6的第一行和第二行可以看到当γ(t) = 0和γ(t) = p 2t(1 − t)时得到的密度ρ(t)的比较。
因此,选择(4.13)确保了速度b编码了端点处密度ρ0和ρ1的分数信息。然而,我们强调,尽管由于对端点处速度b的非平凡影响,给出的γ(t)选择(4.13)很有吸引力,但用户可以自由探索各种替代方案。我们在表8中提供了一些示例,指定了γ在t = 0和t = 1时的可微性。在(4.13)中指定的γ(t)函数是唯一一个在端点处速度b中分数贡献不消失的案例。在第7节中,我们通过数值示例说明不同的γ选择之间存在权衡,这可能直接与这一事实相关。当使用ODE作为生成模型时,分数仅通过b感知,而在使用SDE作为生成模型时,分数是显式的。
4.4 空间线性单侧插值
如果我们取(3.15)中的函数J(t, x1)在线性x1中定义,并定义:(此处文本被截断,未提供完整的定义。)
5 与其他方法的联系
在本节中,我们将讨论随机插值框架与基于分数的扩散方法[60]、随机局部化框架[21, 20, 45]、去噪方法[53, 30, 31, 25]以及在[41]中引入的修正流方法之间的联系。
5.1 基于分数的扩散模型和随机局部化
基于分数的扩散模型(SBDM)基于Ornstein-Uhlenbeck过程的变体。
该过程具有这样的性质:其解在时间τ的边际密度随着τ趋向于无穷大而收敛于标准正态分布。通过学习Zτ密度的分数,我们可以写出与(5.1)相关的后向随机微分方程(SDE),然后可以用作生成模型——这个后向SDE也是在随机局部化过程中使用的,见[45]。
要看到与随机插值的联系,请注意,从初始条件开始的(5.1)的解可以精确地写成:(此处文本被截断,未提供完整的解表达式。)
5.2 去噪方法
考虑在(4.15)中定义的空间线性单侧随机插值。通过为x1解这个方程,我们得到:(此处文本被截断,未提供完整的方程和解。)
5.3 修正流
现在我们讨论如何根据[41]中提出的程序对随机插值进行修正。假设我们已经完美地学习了给定随机插值的概率流方程(2.32)中的速度场b。记Xt(x)为这个常微分方程的解,初始条件为,即:(此处文本被截断,未提供完整的描述。)
备注5.6(最优传输)。上述讨论突出了一个事实,即概率流方程可以有直线解,并导致一个精确地将ρ0推到ρ1的映射,但这不是最优传输映射。也就是说,直线解是最优传输的必要条件,但不是充分条件。
因此,尽管1/γ(t)是奇异的,但条件均值和方差在t → 0或t → 1的极限情况下都是有限。在实践中,这可以通过在经验离散化种群损失时,对每次x0, x1和z的抽取使用x+t和x−t来实现。
学习分数s与学习去噪器ηz。在学习s时,对偶采样的一个替代方案是考虑学习在(2.17)中定义的去噪器ηz,它与分数相关,有一个γ的因子。注意,去噪器在(2.19)中的目标函数对于所有t ∈ [0, 1]都是表现良好的,并且可以被看作是在[25]中引入的DDPM损失的一般化。与此损失相关的经验风险为:(此处文本被截断,未提供完整的经验风险表达式。)
详细学习去噪器ηz的程序,例如用于基于SDE的生成模型,见算法2。对于单侧空间线性插值的情况,程序变得特别简单,这在算法3中得到了强调。
6.2 采样
现在我们讨论基于随机插值的生成模型采样的几个实际方面。这些与学习的对象的选择以及用于构建ρ0和ρ1之间路径的特定插值密切相关。一个通用的算法,用于基于常微分方程或随机微分方程构建的模型的采样,呈现在算法4中。
使用去噪器ηz而不是分数s。我们在第6.1节中指出,学习去噪器ηz比直接学习分数s在数值上更稳定。我们注意到,尽管ηz的目标对于所有t ∈ [0, 1]都是表现良好的,但当使用s(t, x) = −ηz(t, x)/γ(t)时,结果的漂移在t = 0和t = 1时可能会变得奇异。在实践中有几种方法可以避免这种奇异性。一种方法是选择一个在t = 0和t = 1端点周围的小区间内消失的时间变化的ϵ(t),这避免了这种数值不稳定性。另一种选择是将SDE积分到一个小于1的最终时间tf,然后使用(5.13)进行去噪步骤。我们在下面第7节中采样SDE时采用这种方法。
对于空间线性单侧插值,去噪器就是你所需要的全部。如(4.19)所示,并且在5.2节中考虑的,去噪器ηzos足以表示出现在概率流方程(2.32)中的速度场b。
使用b的这个定义以及关系s(t, x) = −ηz(t, x)/γ(t),我们为采样陈述以下常微分方程和随机微分方程:(此处文本被截断,未提供完整的方程描述。)
7 数值结果
到目前为止,我们一直专注于α, β, 和 γ在(4.1)中对密度ρ(t)的影响,我们通过分析进行了说明。在本节中,我们研究了必须在参数函数类上学习漂移系数的例子。特别是,我们数值上探索了基于ODEs和SDEs的生成模型之间的权衡,以及在第3、4和6节中引入的各种设计选择。在第7.1节中,我们考虑可以轻松可视化的简单二维分布。在第7.2节中,我们考虑高维高斯混合,在那里我们可以将我们学习到的模型与解析解进行比较。最后,在第7.3节中,我们进行了一些图像生成的实验。
7.1 确定性与随机模型:2D
如第2.2节所示,ρ(t)的演化可以通过传输方程(2.9)或前向和后向Fokker-Planck方程(2.20)和(2.22)完全捕捉。这些视角导致了基于确定性动力学(2.32)或前向和后向随机动力学(2.33)和(2.34)的生成模型,其中随机性的水平可以通过改变扩散系数ϵ(t)来调整。我们在第2.4节中展示了,设置一个恒定的ϵ(t) = ϵ > 0可以在使用不完美的速度b和分数s时提供更好的似然控制。此外,最优的ϵ选择由估计值ˆb和ˆs的相对精度决定。在前一节中为不同的γ选择阐述了ρ(t)的演化后,我们现在展示了不同的ϵ值如何从个别轨迹中构建这些密度。采样过程中固有的随机性随着ϵ的增加而增加,但通过构造,对于固定的α, β和γ,给定的边际密度ρ(t)是独立于ϵ的。
γ(t)和ϵ在2D密度估计中的作用。为了探索γ和ϵ的角色,我们考虑一个目标密度ρ1,其质量集中在二维棋盘上,基本密度ρ0 = N(0, Id);这里,目标被选择是为了突出方法学习具有尖锐边界的具有挑战性的密度的能力。对于表8中给出的几种γ选择,使用了相同的模型架构和训练过程来学习v和s。前馈网络定义为4层,每层大小为512,并采用ReLU[46]作为激活函数。
训练后,我们使用ODE(ϵ = 0)或ϵ = 0.5, ϵ = 1.0, 或 ϵ = 2.5的SDE抽取了300,000个样本。我们为每个结果密度计算了核密度估计,将其与精确密度和原始随机插值[2](通过设置γ = 0获得)进行比较。对于每个γ和每个ϵ的结果在图9中给出。实证上,使用ϵ > 0的采样表现更好,尽管当使用(4.13)中指定的γ时差距最小。此外,即使ϵ = 0,使用(4.13)中给定的γ的概率流比[2]中的原始插值表现更好。
数值比较了绝对值差异的均值和方差,即log ρ1(精确值)与(模型值)在各种配置中的数值比较,如图10所示,这些比较证实了上述观察结果。
7.2 确定性与随机模型:128D高斯混合
我们现在研究目标是高维高斯混合时随机插值方法的性能。高斯混合(GMs)是研究目标分布的一个方便的类别,因为可以通过增加模态数量、它们的分离度和整体维度来任意增加其复杂性。此外,通过考虑低维投影,我们可以计算定量误差指标,例如目标和模型之间的KL散度作为(恒定)扩散系数ϵ的函数。这使我们能够量化基于ODE和基于SDE的采样器之间的权衡。
为了提供视觉参考,目标密度ρ1投影到前两个坐标的图示见图11 - 它包含显著的多模态性,几个难以区分的模态,以及一个与其他模态很好地分离的模态,这需要非平凡的传输来解决。在接下来的实验中,所有样本都是使用第四阶Dormand-Prince自适应ODE求解器(dopri5)对ϵ = 0的情况生成的,并且使用[32]中介绍的Heun SDE积分器的一千个时间步长对的情况生成的。为了在高ϵ下最大化性能,时间步长应该适应ϵ;在这里,我们选择使用一个固定的计算预算,该预算对适度水平的ϵ表现良好,以避免在实践中可能变得不合理的计算工作量。当学习ηz时,为了避免在t = 0和t = 1时在公式s(t, x) = −η(t, x)/γ(t)中除以γ(t)时的奇异性,我们在算法4中设置了。对于所有其他情况,我们设置t0 = 0和tf = 1。
定量指标:为了量化性能,我们使用由ρ1的低维边缘的核密度估计(KDE)与模型密度ρ^1之间的KL散度给出的误差度量;这个误差度量被选择是因为它在计算上的可行性和可解释性。为了计算它,我们从ρ1和每个ρ^1中抽取50,000个样本。我们通过投影获得前两个坐标上的边缘密度的样本,然后使用Scott规则选择带宽参数计算高斯KDE。然后,我们再抽取一组新的Ne = 50,000个样本,其中每个,用于评估。为了计算KL散度,我们使用控制变量形成一个蒙特卡洛估计:(此处文本被截断,未提供完整的控制变量描述。)
结果。图12和图13通过KDE计算展示了模型密度误差和模型密度的二维投影。算法1和2以及算法4本身在不同的ϵ选择下,分别对不同的实例化进行了展示。结合图11,这些结果定性地表明,小的ϵ值倾向于高估模态内的密度并低估尾部的密度。相反,当ϵ过大时,模型倾向于低估模态并高估尾部。在中间某个位置(以及不同的ϵ水平),每个模型都获得了其最佳性能。图14将这些观察结果量化,并展示了目标边缘与模型边缘之间的KL散度KL(ρ1 ∥ ρ^1_ϵ)作为ϵ的函数,曲线上的每个数据点与图12和图13中展示的模型相匹配。我们发现对于每种情况,都有一个最优的ϵ = 0值,这与图12和图13提供的定性图景一致。此外,我们发现学习b通常比学习v表现得更好,学习η通常比学习s表现得更好(除非ϵ足够大以至于性能开始下降)。通过在采样算法中适当处理使用去噪器构建s(t, x) = −η(t, x)/γ(t)时的奇异性——要么通过限制,要么如第6.2节所讨论的适当调整ϵ(t)——我们的结果表明,学习去噪器是最好的实践。
7.3 图像生成
在本节中,我们展示了我们提出的方法可以直截了当地扩展到高维问题,例如图像生成。为此,我们通过在128×128牛津花卉数据集[47]上测试两种不同的插值方法来说明我们的方法在图像生成中的应用:单边插值,使用ρ0 = N(0, Id),以及镜像插值,其中ρ0 = ρ1都代表了数据分布。本节的目的是展示我们的理论是有充分动机的,并且提供了一个既可扩展又灵活的框架。
在这方面,图像生成是一个方便的练习,但不是这项工作的主要焦点,我们将把对其他数据集(如ImageNet)以及标准基准(如Frechet Inception Distance(FID))的更彻底的研究留给未来的研究。
从高斯ρ0生成。我们在128×128牛津花卉数据集上训练空间线性单边插值和,其中我们取z ∼ N(0, Id)和x1来自数据分布。基于我们对高斯混合的结果,我们学习漂移b(t, x)、得分s(t, x)和去噪器ηz(t, x),以基于ODEs或SDEs的生成模型为基准。在所有情况下,我们使用[25]中使用的U-Net架构来参数化表示ηˆ、ˆs和ˆb的网络。第3.2节中给出的目标函数的最小化是使用Adam优化器执行的。两种情况下的架构细节和所有训练超参数都提供在附录C.1中。
就像在学习高斯混合的情况下一样,当我们使用ODE采样时,我们使用第四阶dopri5求解器,而使用SDE时,我们使用Heun方法,如算法4中详细说明。当学习去噪器ηz时,我们发现完成图像生成时进行最终去噪步骤是有益的,其中我们设置ϵ = 0,并切换到(5.14)中给出的积分器。
图15展示了使用ODE和SDE以及各种扩散系数ϵ生成的示例图像,从ρ0的相同样本开始。结果表明,当使用SDE时,可以从相同的样本生成不同的图像,并且随着我们增加扩散系数ϵ,它们的多样性增加。为了强调模型不会记忆训练集,在图16中,我们将一个生成的示例图像与其在训练集中的五个最近邻(以ℓ1范数测量)进行比较,它们在视觉上看起来非常不同。
镜像插值。我们考虑镜像插值xt = x1 + γ(t)z,其中(3.34)显示漂移b以去噪器ηz的术语给出,即b(t, x) = ˙γ(t)ηz(t);这意味着只需要学习一个估计就可以构建一个生成模型。与前一节类似,我们在牛津花卉数据集上演示这一点,再次利用U-Net参数化。进一步的实验细节可以在附录C.1中找到。在这种设置中,如果我们使用ODE(2.32),时间t = 1时的输出图像与输入图像相同;然而,使用SDE,我们可以从相同的输入生成新的图像。图17展示了这一点,我们展示了如何通过SDE(2.33)与ϵ(t) = ϵ = 10将数据集ρ1中的样本图像向前推进。可以看到,原始图像被重新采样到数据集中未见过的近邻花卉。
8 结论
上述论述提供了随机插值方法的完整处理,以及对其与现有文献关系的仔细考虑。我们的目标是提供一个通用框架,可以用来设计基于度量动态传输的生成模型。为此,我们详细阐述了数学理论和高效算法,用于构建在有限时间内精确映射两个密度的确定性和随机生成模型。在此过程中,我们展示了可以用来塑造这一过程的各种设计参数,并与诸如最优传输和薛定谔桥等进行了联系。虽然我们详细说明了特定的实例,如镜像和单边插值,但我们强调有更广泛的可能设计空间,这些可能对未来的应用是相关的。几个候选应用领域包括解决逆问题,例如图像修复和超分辨率,动态系统的时空预测,以及科学问题,如分子配置的抽样和机器学习辅助的马尔可夫链蒙特卡洛。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.