网易首页 > 网易号 > 正文 申请入驻

斯坦福联合英伟达提出扩散语言模型,将困惑度提升自回归模型水平

0
分享至

自回归模型是一种典型的序列生成模型,其生成过程必须按照严格顺序进行,根据先前生成的内容不断来预测下一个词。这种方式虽然在许多任务中表现良好,但由于每一步生成都依赖前面的结果,因此容易累积误差,且生成过程必须是严格的顺序,限制了生成的灵活性。

与此相对,离散扩散模型则采用了一种与自回归不同的生成范式,从一个完全随机的噪声开始,逐步去噪以生成目标文本 [1]。其优势在于能够并行生成,并且在理论上具有更快的采样速度。

但现有的离散扩散模型在生成质量上仍然无法与自回归模型媲美,因为其通常将去噪的联合分布参数化为独立的逐个标记分布,这忽视了序列级别的关联性,从而导致了严重的解码错误累积,并阻止用户使用少量去噪时间进行快速采样。


图丨离散去噪扩散模型的正向与反向过程(来源:arXiv)

因此,如何改善误差积累问题,进一步提高模型性能,对于离散扩散模型的进一步发展具有重要意义。

针对这一问题,斯坦福大学与英伟达的联合团队于近期提出了提出了一种名为基于能量的扩散语言模型(Energy-based Diffusion Language Model, EDLM)的新方法。

相关论文以《基于能量的文本生成扩散语言模型》(Energy-Based Diffusion Language Models for Text Generation)为题发表在预印本网站arXiv上 [2]。

斯坦福大学计算机科学系徐民凯博士是第一作者兼通讯作者。


图丨相关论文(来源:arXiv)

如前所述,在现有的离散扩散模型中,生成过程是通过从完全被掩码的序列开始,然后逐步去噪来生成完整的文本。然而,这种去噪的联合分布通常被简化为各个标记的独立分布,这种方式忽视了整个序列中标记之间的复杂依赖关系,使得在去噪过程中容易产生累积误差,从而降低生成的质量和模型的准确性。

研究团队给出的解决方案是——在扩散过程引入基于能量的模型(Energy-Based Model,EBM)建模整个序列的去噪分布,更好地捕捉序列中的标记之间的关联性。

而这主要归功于能量模型的灵活性和有效性。这种来源于统计物理学的模型可以通过定义一个能量函数,将低能量与高概率对应(反之亦然),根据能量的相对值便可有效地捕捉序列内的复杂关联性,而无需依赖标准化的概率分布。

在训练过程中,能量模型的目标是最小化损失函数,使得与数据相符的能量值低,而与数据不符的能量值高。这种方式使得模型能够专注于优化能量函数,自然地反映出标记之间的依赖关系,而不必在概率框架内进行复杂建模。

但是,训练基于能量的模型时,对于配分函数的处理一直以来都是一个难题,通常使用的办法是通过马尔可夫链蒙特卡洛(MCMC)的采样方法来近似参与函数,但在处理高维数据时,这种方法计算起来非常困难。


(来源:Predicting structured data)

课题组主要采用了两种主要方法来获取能量函数的参数。

其一是利用预训练的自回归模型,即将预训练的自回归语言模型作为能量函数来评估每个去噪步骤中序列的可能性,这种方式无需重新训练,能够有效利用已有的语言模型知识。

其二是通过双向 Transformer 进行噪声对比估计微调,通过引入一个额外的能量函数,并利用噪声对比估计方法对其进行微调,以更好地捕捉序列中的标记间依赖关系。这种设计允许 EDLM 在保持生成灵活性的同时,减少解码错误。

此外,研究人员还通过引入一种高效的并行采样算法来加速生成过程。

在传统的扩散模型中,由于去噪步骤的独立性,通常需要大量的采样步骤来确保生成的文本质量,这使得生成过程非常耗时。

而 EDLM 使用一种称为自正则化的重要性采样的方法来解决这一问题。在每一个去噪步骤中,EDLM 会并行采样多个可能的候选序列状态,并使用能量函数计算这些候选序列的“能量值”,然后基于这些能量值选择最优的候选。

这种方法不仅能够减少生成所需的采样步骤,还能够提高采样效率,从而让整个生成过程比传统的扩散模型更快。

为了验证 EDLM 的有效性,团队在 Text8、OpenWebText 等多个语言建模基准数据集上进行了实验。

结果显示,在生成困惑度(Perplexity)这一衡量生成质量的指标上,EDLM 不仅优于现有的扩散模型,并接近甚至达到自回归模型的水平。

此外,在保持生成性能的情况下,EDLM 的采样速度比传统扩散模型提升了约 1.3 倍,这进一步验证了其有效性。


图丨 EDLM 的分析和消融研究(来源:arXiv)

总结来说,这种模型成功地将能量模型与扩散模型结合,通过有效的去噪和并行采样技术,实现了更好的生成质量和采样效率。未来,这种将能量模型引入扩散生成的新方法有望进一步推动并行生成技术的发展。

参考资料:

1. https://arxiv.org/abs/2107.03006

2. https://arxiv.org/abs/2410.21357

3.https://www.researchgate.net/profile/Marcaurelio-Ranzato/publication/216792742_A_Tutorial_on_Energy-Based_Learning/links/0912f50c6862425435000000/A-Tutorial-on-Energy-Based-Learning.pdf

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当街袭警!北京朝阳区发生冲突!

当街袭警!北京朝阳区发生冲突!

美丽大北京
2024-11-05 15:41:37
韩媒:中国智能手机的份额不断增加,打破三星和苹果的两强格局!

韩媒:中国智能手机的份额不断增加,打破三星和苹果的两强格局!

小柱解说游戏
2024-11-05 21:41:21
蔚来李斌又觉得汽油味好闻了

蔚来李斌又觉得汽油味好闻了

源Sight
2024-11-04 19:36:34
王定宇称《光辉岁月》《海阔天空》在大陆不能唱,台网友轰:造谣一张嘴

王定宇称《光辉岁月》《海阔天空》在大陆不能唱,台网友轰:造谣一张嘴

海峡导报社
2024-11-04 22:06:08
【美股盘前】富时中国三倍做多ETF大涨近8%;花旗:市场最关心的并非美国大选;罢工结束,波音盘前上涨近2%;云计算新星CoreWeave备战IPO

【美股盘前】富时中国三倍做多ETF大涨近8%;花旗:市场最关心的并非美国大选;罢工结束,波音盘前上涨近2%;云计算新星CoreWeave备战IPO

每日经济新闻
2024-11-05 17:32:13
谈判结束,法国部长拒绝屈服,中方甩出三板斧,欧洲车厂被迫关门

谈判结束,法国部长拒绝屈服,中方甩出三板斧,欧洲车厂被迫关门

时时有聊
2024-11-05 20:18:53
这是马斯克的大儿子,现在是大女儿了,曾是让无数人羡慕的富二代

这是马斯克的大儿子,现在是大女儿了,曾是让无数人羡慕的富二代

人情皆文史
2024-07-29 03:36:16
1994年正式脱离中国,国土面积17万平方公里,如今盛产美女

1994年正式脱离中国,国土面积17万平方公里,如今盛产美女

珺瑶婉史
2024-11-04 20:20:02
432票对71票,27国组织挺台反华,日本放话:台海对日本极为重要

432票对71票,27国组织挺台反华,日本放话:台海对日本极为重要

东方点兵
2024-11-03 18:02:35
太吓人!神舟18号降落伞惊现大洞,此次返回又有哪些惊艳的成就?

太吓人!神舟18号降落伞惊现大洞,此次返回又有哪些惊艳的成就?

蜉蝣说
2024-11-05 09:39:53
郝劭文晒老婆最新孕照,林宁瑞肚大如箩胖一圈,满脸温柔孕相超足

郝劭文晒老婆最新孕照,林宁瑞肚大如箩胖一圈,满脸温柔孕相超足

娱圈小愚
2024-11-05 15:23:06
不建议买的4个羽绒服品牌,听着上档次,实际都是“智商税”!

不建议买的4个羽绒服品牌,听着上档次,实际都是“智商税”!

蜉蝣说
2024-11-04 20:17:48
14岁男孩捂晕女孩:家长态度360反转,替孩子辩解,官方出手了!

14岁男孩捂晕女孩:家长态度360反转,替孩子辩解,官方出手了!

金叨叨
2024-11-04 16:36:32
央视体育主持人于嘉近照变化大,1980年出生却像70岁,疑跑步过量

央视体育主持人于嘉近照变化大,1980年出生却像70岁,疑跑步过量

花花lo先森
2024-10-30 09:02:03
后续!14岁男孩在电梯内将7岁小女孩捂嘴控制后抱走,称要摸肚子

后续!14岁男孩在电梯内将7岁小女孩捂嘴控制后抱走,称要摸肚子

小人物看尽人间百态
2024-11-04 13:01:29
发生在乡村医院病房里,那些不堪入目的事

发生在乡村医院病房里,那些不堪入目的事

赵主任趣闻
2024-11-05 13:51:19
“门口见阴树,日子过不顺”,老人说3种阴树别种在门口,是大忌

“门口见阴树,日子过不顺”,老人说3种阴树别种在门口,是大忌

平祥生活日志
2024-11-05 17:35:27
王乾廷从福建赴广东履新

王乾廷从福建赴广东履新

鲁中晨报
2024-11-05 15:35:10
“趁娃睡着和老公亲密,却被娃写进作文里”,这届父母太难了哈哈

“趁娃睡着和老公亲密,却被娃写进作文里”,这届父母太难了哈哈

窈窕妈妈
2024-11-01 19:45:15
男子将56岁生母电死,临死前,母亲喊出2个字,让无数人泪奔

男子将56岁生母电死,临死前,母亲喊出2个字,让无数人泪奔

华人星光
2024-11-05 15:30:46
2024-11-05 22:38:44
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
14417文章数 512944关注度
往期回顾 全部

科技要闻

字节跳动上半年营收直逼Meta:TikTok狂飙

头条要闻

4年后特朗普又落后4个百分点 专家:若败选将爆发骚乱

头条要闻

4年后特朗普又落后4个百分点 专家:若败选将爆发骚乱

体育要闻

一个想改变中国足球的日本人

娱乐要闻

周雨彤风波升级!阴阳怪气遭全网怒怼

财经要闻

超配!高盛:AH股未来一年回报率20%

汽车要闻

新款别克世纪将11月12日上市 预售价48.99万起

态度原创

家居
游戏
房产
手机
军事航空

家居要闻

纯粹干净空间 极简米灰色基调

至少还能看 《龙腾世纪:影障守护者》角色概念设计

房产要闻

爆料!珠城顶豪凯旋新世界,即将上新!

手机要闻

11 月 11 日起,真我 GT5 Pro 开始推送 realme UI 6.0 正式版

军事要闻

中国空军:在适当时机场合会有更"牛"的重器利器露面

无障碍浏览 进入关怀版