网易首页 > 网易号 > 正文 申请入驻

斯坦福联合英伟达提出扩散语言模型,将困惑度提升自回归模型水平

0
分享至

自回归模型是一种典型的序列生成模型,其生成过程必须按照严格顺序进行,根据先前生成的内容不断来预测下一个词。这种方式虽然在许多任务中表现良好,但由于每一步生成都依赖前面的结果,因此容易累积误差,且生成过程必须是严格的顺序,限制了生成的灵活性。

与此相对,离散扩散模型则采用了一种与自回归不同的生成范式,从一个完全随机的噪声开始,逐步去噪以生成目标文本 [1]。其优势在于能够并行生成,并且在理论上具有更快的采样速度。

但现有的离散扩散模型在生成质量上仍然无法与自回归模型媲美,因为其通常将去噪的联合分布参数化为独立的逐个标记分布,这忽视了序列级别的关联性,从而导致了严重的解码错误累积,并阻止用户使用少量去噪时间进行快速采样。


图丨离散去噪扩散模型的正向与反向过程(来源:arXiv)

因此,如何改善误差积累问题,进一步提高模型性能,对于离散扩散模型的进一步发展具有重要意义。

针对这一问题,斯坦福大学与英伟达的联合团队于近期提出了提出了一种名为基于能量的扩散语言模型(Energy-based Diffusion Language Model, EDLM)的新方法。

相关论文以《基于能量的文本生成扩散语言模型》(Energy-Based Diffusion Language Models for Text Generation)为题发表在预印本网站arXiv上 [2]。

斯坦福大学计算机科学系徐民凯博士是第一作者兼通讯作者。


图丨相关论文(来源:arXiv)

如前所述,在现有的离散扩散模型中,生成过程是通过从完全被掩码的序列开始,然后逐步去噪来生成完整的文本。然而,这种去噪的联合分布通常被简化为各个标记的独立分布,这种方式忽视了整个序列中标记之间的复杂依赖关系,使得在去噪过程中容易产生累积误差,从而降低生成的质量和模型的准确性。

研究团队给出的解决方案是——在扩散过程引入基于能量的模型(Energy-Based Model,EBM)建模整个序列的去噪分布,更好地捕捉序列中的标记之间的关联性。

而这主要归功于能量模型的灵活性和有效性。这种来源于统计物理学的模型可以通过定义一个能量函数,将低能量与高概率对应(反之亦然),根据能量的相对值便可有效地捕捉序列内的复杂关联性,而无需依赖标准化的概率分布。

在训练过程中,能量模型的目标是最小化损失函数,使得与数据相符的能量值低,而与数据不符的能量值高。这种方式使得模型能够专注于优化能量函数,自然地反映出标记之间的依赖关系,而不必在概率框架内进行复杂建模。

但是,训练基于能量的模型时,对于配分函数的处理一直以来都是一个难题,通常使用的办法是通过马尔可夫链蒙特卡洛(MCMC)的采样方法来近似参与函数,但在处理高维数据时,这种方法计算起来非常困难。


(来源:Predicting structured data)

课题组主要采用了两种主要方法来获取能量函数的参数。

其一是利用预训练的自回归模型,即将预训练的自回归语言模型作为能量函数来评估每个去噪步骤中序列的可能性,这种方式无需重新训练,能够有效利用已有的语言模型知识。

其二是通过双向 Transformer 进行噪声对比估计微调,通过引入一个额外的能量函数,并利用噪声对比估计方法对其进行微调,以更好地捕捉序列中的标记间依赖关系。这种设计允许 EDLM 在保持生成灵活性的同时,减少解码错误。

此外,研究人员还通过引入一种高效的并行采样算法来加速生成过程。

在传统的扩散模型中,由于去噪步骤的独立性,通常需要大量的采样步骤来确保生成的文本质量,这使得生成过程非常耗时。

而 EDLM 使用一种称为自正则化的重要性采样的方法来解决这一问题。在每一个去噪步骤中,EDLM 会并行采样多个可能的候选序列状态,并使用能量函数计算这些候选序列的“能量值”,然后基于这些能量值选择最优的候选。

这种方法不仅能够减少生成所需的采样步骤,还能够提高采样效率,从而让整个生成过程比传统的扩散模型更快。

为了验证 EDLM 的有效性,团队在 Text8、OpenWebText 等多个语言建模基准数据集上进行了实验。

结果显示,在生成困惑度(Perplexity)这一衡量生成质量的指标上,EDLM 不仅优于现有的扩散模型,并接近甚至达到自回归模型的水平。

此外,在保持生成性能的情况下,EDLM 的采样速度比传统扩散模型提升了约 1.3 倍,这进一步验证了其有效性。


图丨 EDLM 的分析和消融研究(来源:arXiv)

总结来说,这种模型成功地将能量模型与扩散模型结合,通过有效的去噪和并行采样技术,实现了更好的生成质量和采样效率。未来,这种将能量模型引入扩散生成的新方法有望进一步推动并行生成技术的发展。

参考资料:

1. https://arxiv.org/abs/2107.03006

2. https://arxiv.org/abs/2410.21357

3.https://www.researchgate.net/profile/Marcaurelio-Ranzato/publication/216792742_A_Tutorial_on_Energy-Based_Learning/links/0912f50c6862425435000000/A-Tutorial-on-Energy-Based-Learning.pdf

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
田亮14岁儿子参加100米国际赛,只用12秒多夺冠还破纪录,太争气

田亮14岁儿子参加100米国际赛,只用12秒多夺冠还破纪录,太争气

郑丁嘉话
2025-03-06 09:36:31
世界大奖赛战报:肖国栋4-3险胜,塞尔比4-2罗伯逊,8强对阵出炉

世界大奖赛战报:肖国栋4-3险胜,塞尔比4-2罗伯逊,8强对阵出炉

求球不落谛
2025-03-07 04:44:08
从这次俄乌冲突中我看到了一个大写的人!他头发蓬乱但充满正义!

从这次俄乌冲突中我看到了一个大写的人!他头发蓬乱但充满正义!

翻开历史和现实
2025-03-04 16:09:07
勇士激战篮网!希尔德狂打铁 巴特勒开始发力 波斯特惊艳

勇士激战篮网!希尔德狂打铁 巴特勒开始发力 波斯特惊艳

胖子喷球
2025-03-07 09:44:15
进攻高效防守拼!伊森半场三分6中4得14分3板 另有2抢断1盖帽

进攻高效防守拼!伊森半场三分6中4得14分3板 另有2抢断1盖帽

直播吧
2025-03-07 10:23:23
国际足联官方:正考虑将2030年世界杯临时扩军至64队

国际足联官方:正考虑将2030年世界杯临时扩军至64队

懂球帝
2025-03-07 07:45:37
许雅钧富豪姐姐出动:帮大S打遗产官司,为具俊晔解决房产问题

许雅钧富豪姐姐出动:帮大S打遗产官司,为具俊晔解决房产问题

素素娱乐
2025-03-07 09:50:02
玄学:李淳风预测2025年青龙化蛇,哪三类人会旺?哪三类人会难?

玄学:李淳风预测2025年青龙化蛇,哪三类人会旺?哪三类人会难?

天罡密录局
2025-03-01 20:56:21
赵长鹏:放弃中国国籍,痛快交531亿罚款,成全球最信美国的冤种

赵长鹏:放弃中国国籍,痛快交531亿罚款,成全球最信美国的冤种

葡萄说史
2025-02-15 11:20:40
几块钱一瓶的维生素B12,或有助“改善”4种病症,早了解早受益

几块钱一瓶的维生素B12,或有助“改善”4种病症,早了解早受益

39健康网
2025-03-04 18:30:56
发财了真的不要张扬!网友:富不还乡,老祖宗早就研究透了。

发财了真的不要张扬!网友:富不还乡,老祖宗早就研究透了。

美好客栈大掌柜
2025-03-07 00:10:02
FIFA发言人:世界杯扩军64支队为会议时自发的提议,想法得到认可

FIFA发言人:世界杯扩军64支队为会议时自发的提议,想法得到认可

直播吧
2025-03-07 08:59:21
被击中要害,麻烦大了

被击中要害,麻烦大了

毛豆论道
2025-03-06 10:09:13
萝莉岛的肮脏超乎想象,克林顿喜欢年轻女孩,渐冻症霍金竟是常客

萝莉岛的肮脏超乎想象,克林顿喜欢年轻女孩,渐冻症霍金竟是常客

跳跳历史
2025-03-06 14:58:02
利好!央妈择机降准降息,3月7号,今日凌晨的三大消息全面来袭!

利好!央妈择机降准降息,3月7号,今日凌晨的三大消息全面来袭!

风口招财猪
2025-03-07 00:23:51
梁靖崑:被明星老婆hold住!离婚复婚后化身宠妻达人+儿子奴

梁靖崑:被明星老婆hold住!离婚复婚后化身宠妻达人+儿子奴

农村教育光哥
2025-03-06 09:00:56
胡军晒全家福:老婆的脸,女儿1米8的个子,把胡军的风头全给抢了

胡军晒全家福:老婆的脸,女儿1米8的个子,把胡军的风头全给抢了

美食阿鳕
2025-03-05 15:48:17
7118元成关键线!2025年养老金调整新规,低者多涨有依据

7118元成关键线!2025年养老金调整新规,低者多涨有依据

古今历史记
2025-03-07 09:14:11
欧联杯1-3!穆里尼奥濒临出局,18场不败被终结,2大老东家也没赢

欧联杯1-3!穆里尼奥濒临出局,18场不败被终结,2大老东家也没赢

侃球熊弟
2025-03-07 04:11:15
北青:国足补招李源一,球员已经抵达迪拜

北青:国足补招李源一,球员已经抵达迪拜

懂球帝
2025-03-06 13:52:11
2025-03-07 10:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
14911文章数 513360关注度
往期回顾 全部

科技要闻

星舰第八飞:又夹住了助推器 但飞船被引爆

头条要闻

老人在养生门店一年多消费47万 家人在其去世后才发现

头条要闻

老人在养生门店一年多消费47万 家人在其去世后才发现

体育要闻

1次射正就绝杀!欧冠诞生史诗级系统局

娱乐要闻

曝具俊晔承担大S房贷,每月还百万

财经要闻

信息量巨大!五部门"掌门人"重磅发

汽车要闻

6.98万元起 埃安UT定价背后的决心与野心

态度原创

本地
旅游
家居
健康
游戏

本地新闻

春色满城关不住|品茶赏樱,来重庆享受一场心灵spa

旅游要闻

武汉一景区樱花被冻成“冰糖葫芦”?

家居要闻

法式浪漫 时尚轻奢人文

戴耳机超1小时=听力慢性自杀?

Epic喜加一:超炫酷2D格斗游戏《群马乱斗》免费领!

无障碍浏览 进入关怀版