近日,OpenAI方面推出了一款被命名为sCM(Continuous-Time Consistency Model)的新AI文生图方案。与传统扩散模型相比,据称sCM将AI生成图像的速度提高约50倍,生成图像仅需近十分之一秒,而常规扩散模型则需要5秒以上的时间。
据了解,扩散模型的采样方法通常需要数十到数百个连续步骤才能生成单个样本,因此限制了在实际应用中的效率和可扩展性。目前扩散模型生成图片最快的是Stability AI开源的SD快速版本,4步就能生成高质量图片。但sCM只需使用两个采样步骤即可生成质量与扩散模型相当的图片,并且在保证质量的前提下将推理效率提升了1倍,同时简化了连续时间一致性模型的理论公式,允许模型在更大数据集上进行稳定的训练和扩展。
据官方介绍,sCM是一种一致性模型(Consistency Model) ,它借鉴了扩散模型的原理,并对其进行改进,其核心是学习一个函数 fθ(xt, t),能够将带噪声的图像xt映射到其在PF-ODE轨迹上的下一个时间步的清晰版本。此外,OpenAI方面基于此前的consistency models研究,并吸取EDM和流匹配模型的优点,提出了一个统一的框架TrigFlow。基于TrigFlow,OpenAI开发出的sCM可以在ImageNet 512x512分辨率上训练15亿参数的模型。
除了TrigFlow框架之外,sCM还引入了一些关键改进,以解决连续时间一致性模型训练不稳定的问题。其中包括改进的时间条件策略(Identity Time Transformation)、位置时间嵌入 (Positional Time Embeddings)、自适应双归一化(Adaptive Double Normalization) 、自适应权重(Adaptive Weighting)、 切线归一化/裁剪(Tangent Normalization/Clipping) 、JVP重新排列和Flash Attention的JVP计算,以及渐进式退火、扩散微调和切线预热。
据OpenAI方面介绍,sCM可通过从预训练的扩散模型中蒸馏知识进行学习。随着模型规模的扩大,sCM的改进程度与“教师”扩散模型的改进程度成正比。具体而言,样本质量的相对差异(用FID分数的比率衡量)在几个数量级的模型规模上保持一致,这导致样本质量的绝对差异会随着规模的扩大而减小,此外增加sCM的采样步骤可进一步缩小质量差距。值得注意的是,来自sCM的两步样本已经能够与来自“教师”扩散模型的样本相媲美(FID分数的相对差异小于10%),而“教师”模型需要数百步才能生成样本。
OpenAI方面指出,最好的sCM仍需要预训练的扩散模型来进行初始化和蒸馏,因此在图像质量上与“老师”模型相比还是略逊一筹。但FID分数并不完美,有时候FID分数接近并不代表实际图像质量也接近,反之亦然,所以评估sCM的质量还是要根据具体应用场景来判断。
【本文图片来自网络】
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.