网易首页 > 网易号 > 正文 申请入驻

比扩散模型快50倍!OpenAI发布多模态模型实时生成进展

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

两位清华校友,在OpenAI发布最新研究——

生成图像,但速度是扩散模型的50倍

路橙、宋飏再次简化了一致性模型,仅用两步采样,就能使生成质量与扩散模型相媲美。



他们成功将连续时间一致性模型的训练规模扩展到了前所未有的15亿参数,并实现了在512×512分辨率的ImageNet数据集上的训练。

参数15亿模型在单张A100 GPU上无需任何推理优化即可在0.11秒内生成一个样本



团队还表示通过定制系统优化,可以进一步加速,为实时生成图像、音频和视频提供新的可能

值得一提的是,论文仅有的两位作者还都是清华校友



该项研究发布后得到大量网友点赞转发。

把正在休假的Openai总裁Greg Brockman都炸出来了:

多模态模型正迈向实时生成



那么,sCM是如何实现的?

两步采样,50倍加速

一致性模型是一种快速的扩散模型替代方案。

当前扩散模型的采样方法通常需要数十到数百个连续步骤才能生成单个样本,这限制了其实时应用的效率和可扩展性。

逐步通过大量去噪步骤生成样本的扩散模型不同,它旨在一步直接将噪声转换为无噪声样本。



OpenAI最新这项研究提出了一种改进连续时间一致性模型(Continuous-time Consistency Models)的综合方法,主要包含题目中提到的三个关键点:简化、稳定和扩展



论文指出,现有一致性模型主要采用离散时间步训练,这种方法会引入额外的超参数并容易产生离散化误差。尽管连续时间公式可以避免这些问题,但之前的工作中连续时间一致性模型始终面临训练不稳定的挑战。

为此,论文首先提出了TrigFlow,巧妙地统一了EDM(Exponential Diffusion Model)和Flow Matching两种方法。

TrigFlow使扩散过程、扩散模型参数化、PF-ODE、扩散训练目标和一致性模型参数化都能够拥有简洁的表达式,如下所示。





在此基础上,研究人员深入分析了导致训练连续时间一致性模型不稳定的原因

在TrigFlow框架的基础上引入了几项理论上的改进,重点是参数化、网络架构和训练目标。

连续时间一致性模型训练的关键是:



取决于:



经过进一步分析,研究人员发现不稳定源自于时间导数:



并据此提出了三个关键改进:

  • 采用恒等时间变换c_noise(t)=t代替原有的对数正切变换,避免了t接近π/2时的数值不稳定性;
  • 使用位置时间嵌入替代傅里叶嵌入,减少了导数震荡;
  • 引入自适应双重归一化层替代AdaGN,在保持模型表达能力的同时提高了训练稳定性。

此外,论文还改进了训练目标,包括切向量归一化和自适应权重等技术。

以上种种改进使得研究人员成功将时间一致性模型的训练规模扩展到15亿参数,并在多个基准数据集上表现优异。

CIFAR-10上的FID(越低越好)为2.06,ImageNet 64×64上为1.48,ImageNet 512×512上为1.88。





特别值得注意的是,这些模型只需要两步采样就能达到接近最好的扩散模型的生成质量(FID差距在10%以内),而计算开销仅为后者的10%



研究人员还比较了改进后的一致性模型与变分分数蒸馏(VSD)方法的区别,发现一致性模型能产生更多样的样本,并且在更高的引导水平下表现更好。

他们还有一个关键发现,随着teacher扩散模型的规模扩大,sCM的改进也呈比例增加

用FID分数的比率来衡量样本质量的相对差异在模型大小不同的规模上是一致的,这意味着当模型规模增加时,样本质量的绝对差异会减小。

此外,增加sCM的采样步骤可以进一步减少质量差距。



作者简介

路橙

去年在清华大学TSAIL实验室,在朱军教授指导下获得博士学位;2019年获清华大学计算机科学与技术系学士学位。

现在他是OpenAI研究科学家,对大规模深度生成模型和强化学习算法感兴趣。

喜欢在数学理论和实际应用技巧之间找到理想的平衡点。

他对一致性模型、扩散模型、归一化流和基于能量的模型及其在图像生成、3D 生成和强化学习中的应用有丰富的研究经验。



宋飏

宋飏在清华大学获数学和物理学士学位后,在斯坦福大学获得了计算机科学博士学位,导师Stefano Ermon。

其研究目标是开发能够理解、生成并处理多种形态高维数据的强大AI模型。

目前,宋飏专注于改进生成模型,包括它们的训练方法、架构设计、对齐、鲁棒性、评估技巧及推理效率。

他对探索生成模型作为科学发现工具的潜力也很感兴趣。



参考链接:
[1]https://x.com/OpenAI/status/1849139783362347293
[2]https://luchengthu.github.io/
[3]https://yang-song.net/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“订婚强奸案”被告人母亲被训诫:多次擅自把涉及被害人个人隐私信息发布到网上,侵犯被害人隐私权

“订婚强奸案”被告人母亲被训诫:多次擅自把涉及被害人个人隐私信息发布到网上,侵犯被害人隐私权

环球网资讯
2025-04-16 11:44:03
景德镇灭门车祸最新!肇事者认罪认罚,但态度不诚恳,二审成关键

景德镇灭门车祸最新!肇事者认罪认罚,但态度不诚恳,二审成关键

奇思妙想草叶君
2025-04-15 23:50:51
火箭发表言论引热议!奥沙利文:布雷切尔和丁俊晖值得付费观看

火箭发表言论引热议!奥沙利文:布雷切尔和丁俊晖值得付费观看

世界体坛观察家
2025-04-16 12:13:33
2016年许家印身穿像囚服的球衣参加职工篮球赛,已有预兆现在结局

2016年许家印身穿像囚服的球衣参加职工篮球赛,已有预兆现在结局

梦忆之浅
2025-04-13 19:50:41
特朗普大祸临头了!中方甩出最大“王牌”,不是美债

特朗普大祸临头了!中方甩出最大“王牌”,不是美债

花生科技杂谈
2025-04-16 02:37:08
又抓住5个间谍!多亏了贸易战,国内才揪出这么多叛徒

又抓住5个间谍!多亏了贸易战,国内才揪出这么多叛徒

访史
2025-04-15 17:47:15
汪峰好眼力!34岁森林北游桂林晒美照,一双大长腿太抢镜了!

汪峰好眼力!34岁森林北游桂林晒美照,一双大长腿太抢镜了!

西瓜爱娱娱
2025-04-16 11:38:32
“丹凤眼”有多罕见?看一眼就再难忘,精致到骨子里的眼型

“丹凤眼”有多罕见?看一眼就再难忘,精致到骨子里的眼型

星光历史
2024-12-22 10:37:17
史诗级胖子约基奇场均29.6分12.7板10.2助1.8断 皆为联盟前3

史诗级胖子约基奇场均29.6分12.7板10.2助1.8断 皆为联盟前3

直播吧
2025-04-16 07:42:04
“46岁滨崎步的腰”上热搜!网友:好身材,太羡慕

“46岁滨崎步的腰”上热搜!网友:好身材,太羡慕

FM93浙江交通之声
2025-04-16 08:47:13
扁鹊绝学曝光:纵欲过度让身体元气大伤,掌握此法能瞬间重燃生机

扁鹊绝学曝光:纵欲过度让身体元气大伤,掌握此法能瞬间重燃生机

沐姐姐爱读书
2025-02-14 15:00:22
我调任老家上任县长,去参加同学聚会,却被初恋的局长老公看不起

我调任老家上任县长,去参加同学聚会,却被初恋的局长老公看不起

红豆讲堂
2025-04-14 10:55:47
零头还没花完,3.3亿美金分红又到账了,乔丹深陷有钱的烦恼

零头还没花完,3.3亿美金分红又到账了,乔丹深陷有钱的烦恼

KG说球
2025-03-28 10:39:04
德容:如果我必须选择一场比赛输掉,我会选择这一场

德容:如果我必须选择一场比赛输掉,我会选择这一场

懂球帝
2025-04-16 07:22:05
长超5米1,标配两个航空座椅,油耗0.84L,还看丰田赛那?

长超5米1,标配两个航空座椅,油耗0.84L,还看丰田赛那?

艾米手工作品
2025-04-16 13:48:48
巴特勒:若追梦本赛季不是年度最佳防守球员的话 那我不知道谁是

巴特勒:若追梦本赛季不是年度最佳防守球员的话 那我不知道谁是

直播吧
2025-04-16 14:16:09
每体:皇马高层越来越倾向于选择克洛普,只有他才能拯救皇马

每体:皇马高层越来越倾向于选择克洛普,只有他才能拯救皇马

直播吧
2025-04-15 23:25:10
上海一保安,因“捡业主淘汰的花养”火了,网友:给大叔涨工资~

上海一保安,因“捡业主淘汰的花养”火了,网友:给大叔涨工资~

老鹈爱说事
2025-04-15 14:55:53
这一天“又矮又小”52岁邓亚萍震惊全网,网友辣评:丑得糟蹋汉服

这一天“又矮又小”52岁邓亚萍震惊全网,网友辣评:丑得糟蹋汉服

归史
2025-04-14 13:58:45
库里狂轰37分创多项神迹:生涯4场附加赛场均34分+一数据历史第一

库里狂轰37分创多项神迹:生涯4场附加赛场均34分+一数据历史第一

Emily说个球
2025-04-16 13:34:10
2025-04-16 15:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
10324文章数 176104关注度
往期回顾 全部

科技要闻

Model 2被毙内幕:马斯克嫌无聊 高管劝不住

头条要闻

媒体:新加坡突然提前大选 存在三大变数

体育要闻

诺坎普奇迹的两位当事人,差点灵魂互换

娱乐要闻

杨幂女儿小糯米长大了,神似妈妈!

财经要闻

一季度GDP同比增长5.4%!

汽车要闻

又帅又快超实用 极氪007GT猎装车才是完美的车?

态度原创

本地
旅游
数码
艺术
公开课

本地新闻

云游湖北 | 七仙女都爱的山水,双峰米酒一口上头

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

数码要闻

华为智能门锁 2 系列开启预售 售价2499元起

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?