网易首页 > 网易号 > 正文 申请入驻

扩散LLM推理用类GRPO学习!优于单独SFT,UCLA、Meta新框架d1开源

0
分享至

机器之心报道

编辑:陈陈、杜伟

  • 大语言模型的推理能力,不再是 AR(自回归)的专属。扩散模型现在也能「动脑子」,新框架 d1 让它们学会了解数学、懂逻辑、会思考。

当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能。

不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。

与此同时,离散扩散大语言模型(dLLM)成为有潜力的语言建模的非自回归替代。不像以因果方式逐 token 生成文本的自回归模型那样,dLLM 通过迭代去噪过程生成文本,在多步骤操作中优化序列的同时并通过双向注意力利用过去和未来的上下文。其中,LLaDA 等开放的掩码 dLLM 实现了媲美同尺寸自回归模型的性能,而 Mercury 等闭源 dLLM 进一步展现了出色的推理延迟。

然而,顶级的开源 dLLM 并没有使用 RL 后训练,使得这一有潜力的研究方向还有很大的挖掘空间。这一范式转变引出了重要的问题:RL 后训练如何在非自回归上下文中高效地实现?

RL 算法适应掩码 dLLM 面临一些独特的挑战,原因在于自回归模型采用的已有方法(如 PPO、GRPO)通过计算生成序列的对数概率来估计和优化策略分布,导致无法直接应用于 dLLM。虽然这种计算在自回归模型中通过序列因式分解很容易实现,但 dLLM 由于它们的迭代、非序列生成过程而缺乏这种自然分解。

为了解决这些问题,来自 UCLA 和 Meta AI 的研究者提出了一个两阶段后训练框架 d1,从而可以在掩码 dLLM 中进行推理。在第一阶段,模型在高质量推理轨迹中进行监督微调;在第二即 RL 阶段,研究者引入了用于掩码 dLLM 的新颖策略梯度方法 diffu-GRPO,它利用提出的高效一步(one-step)对数概率估计在 GRPO 的基础上创建。

研究者表示,他们的估计器利用了随机提示词掩码,作为策略优化的一种正则化,使得可以扩展 per batch 的梯度更新数量并减少 RL 训练所需的在线生成数量。这将极大地降低计算时间。

  • 论文标题:d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
  • 论文地址:https://arxiv.org/pdf/2504.12216
  • 项目主页:https://dllm-reasoning.github.io/
  • GitHub 地址:https://github.com/dllm-reasoning/d1

在实验部分,研究者使用 LLaDA-8B-Instruct 作为基础模型实例化 d1。他们将 d1-LLaDA 的性能与基础 LLaDA 模型以及仅使用 SFT 和仅使用 diffu-GRPO 训练的 LLaDA 模型进行比较。结果表明,d1 在四个数学和逻辑推理基准测试中始终优于基础模型,如下图 1 所示。d1-LLaDA 同样优于仅使用 SFT 方法和仅使用 diffu-GRPO 方法的模型。

方法概览

d1 是一个两阶段框架,通过依次结合监督微调(SFT)和在线强化学习(RL)来增强预训练掩码 dLLMs 的推理性能。

其中,在线强化学习(特别是 GRPO 算法)已被证明能有效提升离线训练语言模型的性能。然而,GRPO 的学习策略并不能直接泛化到 dLLMs。

GRPO 的目标函数(如公式 3 所示)需要同时计算当前策略 π_θ 和旧策略 π_θold 在以下两个层面的(对数)似然比:

  1. token 层面(用于优势权重计算);
  2. 序列层面(用于反向 KL 散度项)。

核心问题在于:研究者需要高效计算 dLLMs 生成内容的逐 token 对数概率和序列对数概率。

自回归(AR)模型,如 Transformer,直接对每个 token 的对数概率进行建模,并且可以通过链式法则使用一次前向传递轻松计算出序列级别的对数概率

同样,KL 项可以分解为。

与 AR 模型不同,dLLMs 不遵循序列对数概率的顺序分解。同时,每个 token 的对数概率计算成本也很高,因为解码过程中需要多次调用掩码预测器 f_θ。基于此,该研究提出了一个高效的对数概率估计器。

对于序列对数概率,该研究使用均场近似方法,将其分解为独立的每个 token 对数概率的乘积。

对于每个 token 的对数概率,该研究引入了一种估计方法,该方法仅调用一次 f_θ。

基于新引入的对数概率估计器,该研究将 GRPO 扩展到掩码 dLLMs,推导出 diffu-GRPO 的损失函数。

算法如下图所示。

实验结果

表 1 报告了基线模型 LLaDA-8B-Instruct 与采用不同后训练优化方案的模型,在四项任务上的零样本性能对比。

图 3 绘制了有效 token 的平均数量:

基于实验,该研究得出以下主要发现:

diffu-GRPO 在所有 12 种设置中都一致优于基础的 LLaDA 和 SFT(监督式微调)。diffu-GRPO 和 SFT 都相较于 LLaDA-8B-Instruct 基线有所提升,但 diffu-GRPO 显示出更持续且幅度更大的增益。具体来说,diffu-GRPO 在所有 12 种设置中都优于 LLaDA-8B-Instruct 和 SFT,而 SFT 仅在其中的 7 种设置中优于 LLaDA-8B-Instruct,这表明diffu-GRPO 相比于单独的 SFT 实现了更强的整体性能提升。

LLaDA+diffu-GRPO 在所有设置中都优于基础的 LLaDA-8B-Instruct 模型,而 d1-LLaDA 在每种情况下都超过了 LLaDA+SFT。这表明,无论初始化是来自预训练模型还是经过 SFT 调整的检查点,diffu-GRPO 都能提供可靠的性能提升。

d1 训练方案实现了最显著的性能提升。通过先进行监督微调(SFT)、再结合 diffu-GRPO 训练所形成的 d1-LLaDA 模型,产生了超越单一方法的叠加增益。这种组合式方法在 12 个实验设置中有 11 项优于纯 diffu-GRPO 方案,表明两个训练阶段存在协同效应。

定性结果表明,在 SFT 和 d1-LLaDA 生成中出现了顿悟时刻。尽管与 LLaDA-8B-Instruct 相比,生成序列长度为 128 和 256 的性能随着 SFT、diffu-GRPO 和 d1 有所提高,但从质的方面看,在生成的推理轨迹中并未观察到显著差异。然而当序列长度达到 512 时,该研究开始观察到 SFT 和 d1-LLaDA 模型展现出两种关键能力:自我修正机制和回溯行为。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
发现一个怪事:长大后会赚钱的孩子,小时候就有3个特征很明显

发现一个怪事:长大后会赚钱的孩子,小时候就有3个特征很明显

胡萝卜妈妈育儿说
2026-05-19 11:48:25
夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

精彩分享快乐
2026-05-13 12:05:07
NBA含金量最高的5个总冠军,10年湖人垫底 榜首没争议

NBA含金量最高的5个总冠军,10年湖人垫底 榜首没争议

钱说体育
2026-05-25 13:17:47
极端高温下,印度人想炸开喜马拉雅山送走热浪,这可能吗?

极端高温下,印度人想炸开喜马拉雅山送走热浪,这可能吗?

有范又有料
2026-05-26 17:04:40
黄仁勋:这种做法相当不负责任,我非常反感

黄仁勋:这种做法相当不负责任,我非常反感

第一财经资讯
2026-05-26 19:30:02
兄弟们!盘点火辣娇小型岛国女星:这10位小个子,能量真不小!

兄弟们!盘点火辣娇小型岛国女星:这10位小个子,能量真不小!

碧波万览
2026-03-11 18:14:02
U17国足拿到亚少赛亚军后!足协或做出重要决定,事关浮岛敏留任

U17国足拿到亚少赛亚军后!足协或做出重要决定,事关浮岛敏留任

振刚说足球
2026-05-26 10:58:45
维埃拉:给瓜帅当助教提升了阿尔特塔,但他表现出的就是自己

维埃拉:给瓜帅当助教提升了阿尔特塔,但他表现出的就是自己

懂球帝
2026-05-27 01:25:21
上海28岁天才股神直言:A股如果迎来牛市,建议死啃涨停天眼战法

上海28岁天才股神直言:A股如果迎来牛市,建议死啃涨停天眼战法

股经纵横谈
2026-05-26 21:33:29
220万人的努力一夜归零,谁看见他们的眼泪

220万人的努力一夜归零,谁看见他们的眼泪

有态度网友ytd2993
2026-05-25 00:16:49
威尔·史密斯19年前旧作杀回Netflix前十,续集终于有动静了

威尔·史密斯19年前旧作杀回Netflix前十,续集终于有动静了

追星雷达站
2026-05-25 00:09:55
不给特朗普也不给普京,伊朗要把那些高浓缩铀,统统送到中国来?

不给特朗普也不给普京,伊朗要把那些高浓缩铀,统统送到中国来?

娱乐的宅急便
2026-05-26 19:17:37
弘一法师:永远不要去责怪你生命里的任何人,好的人给你快乐,坏的人给你经历,别人怎么对你,是过往,你怎么对别人,是修行

弘一法师:永远不要去责怪你生命里的任何人,好的人给你快乐,坏的人给你经历,别人怎么对你,是过往,你怎么对别人,是修行

每日一首古诗词
2026-05-26 12:07:58
中国农业银行佛山分行被罚180.32万元,涉多项金融业务违规

中国农业银行佛山分行被罚180.32万元,涉多项金融业务违规

蓝鲸新闻
2026-05-26 17:21:11
‘写给李爱国的一封信’全网疯传!总结就是西门庆写给武大和金莲的信:内容很炸裂

‘写给李爱国的一封信’全网疯传!总结就是西门庆写给武大和金莲的信:内容很炸裂

不二表姐
2026-05-24 22:50:05
东风奕派M8正式亮相,主打“华为乾崑六件套”大六座SUV

东风奕派M8正式亮相,主打“华为乾崑六件套”大六座SUV

财天COVER
2026-05-25 10:53:42
美股半导体深夜爆发,AMD涨超5%创新高,存储概念股集体拉升,美光科技飙涨14%,布油大涨4%

美股半导体深夜爆发,AMD涨超5%创新高,存储概念股集体拉升,美光科技飙涨14%,布油大涨4%

21世纪经济报道
2026-05-26 22:29:14
心理学:已婚女人一旦有了别的男人,一般不拒绝丈夫亲近,但会有两个表现

心理学:已婚女人一旦有了别的男人,一般不拒绝丈夫亲近,但会有两个表现

心理观察局
2026-05-26 06:15:06
鲁比奥点破印度死穴,喜马拉雅山这一挡, 再吹也成不了中国

鲁比奥点破印度死穴,喜马拉雅山这一挡, 再吹也成不了中国

叹为观止易
2026-05-26 17:32:11
深圳男子买彩票中2亿,6天后去兑奖,却被工作人员赶了出去

深圳男子买彩票中2亿,6天后去兑奖,却被工作人员赶了出去

今天说故事
2025-05-28 14:49:59
2026-05-27 02:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13088文章数 142653关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

武契奇获授"友谊勋章":父母特意打电话 我们都哭了

头条要闻

武契奇获授"友谊勋章":父母特意打电话 我们都哭了

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

本地
健康
手机
数码
军事航空

本地新闻

用云锦的方式,打开江苏南京

外泌体抗衰,什么时候能用上?

手机要闻

荣耀600系列线下上手:体验之后,说说真实感受

数码要闻

惠普新本用上骁龙X,屏幕能到1800P 120Hz

军事要闻

美伊在阿巴斯港附近短暂交火 交战过程披露

无障碍浏览 进入关怀版