网易首页 > 网易号 > 正文 申请入驻

大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力

0
分享至


自回归解码已然成为大语言模型的推理标准。大语言模型每次前向计算需要访问它全部的参数,但只能得到一个 token,导致其生成昂贵且缓慢。

近日,EAGLE 团队的新作《EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test》通过一系列优化解锁了投机采样的 Scaling Law 能力,可以将大语言模型的推理速度提高 6.5 倍,同时不改变大语言模型的输出分布,确保无损。同时,随着训练数据的增加,加速比还能进一步提高。

  • 论文标题:EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test
  • arXiv 地址:https://arxiv.org/abs/2503.01840
  • 项目地址:https://github.com/SafeAILab/EAGLE
  • SGLang 版本:https://github.com/sgl-project/sglang/pull/4247

EAGLE-3 的加速效果(DeepSeek-R1-Distill-LLaMA 8B 在数学推理数据集 GSM8K 上测试,其他模型在多轮对话数据集 MT-bench 上测试):

不同方法的生成速度对比:

背景

投机采样使用一个小的模型快速生成草稿,一次生成多个 token。目标大语言模型通过一次前向计算并行验证草稿的正确性,输出正确的草稿,并确保无损。EAGLE 系列是投机采样的最快实现。

EAGLE-1 在更有规律的特征层面而不是 token 层面进行自回归,同时输入采样结果(超前一个时间步的 token)消除了不确定性,明显提升了草稿模型的准确率。EAGLE-2 利用草稿模型的置信度近似接受率,据此动态地调整草稿树的结构,进一步提升了投机采样的效率。

机器之心之前已经报道了 EAGLE-1 和 EAGLE-2 的工作:

  • EAGLE-1:大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE
  • EAGLE-2:无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

最新的大模型通过使用越来越多的训练数据以取得更好的性能。比如说,对于 LLaMA 系列 7B(8B)大小的模型,LLaMA 1、LLaMA 2 和 LLaMA 3 分别使用了 1T、2T、15T token 训练数据,模型结构和推理成本基本不变的前提下各项指标取得了明显提升。

EAGLE-3 的作者们希望通过增加草稿模型的训练数据量以提高接受率和加速比(蓝色曲线)。遗憾的是, EAGLE-1 从训练数据增加中得到的提升非常有限(红色曲线)。

EAGLE-1 和 EAGLE-3 的加速比随着训练数据的增加而变化的趋势:

动机

EAGLE 在特征层进行自回归,再使用目标模型的分类头得到草稿 token。这种方式利用了目标模型的中间结果和信息,相比 token 层自回归有更好的性能。因为草稿模型的最终任务是预测草稿 token,EAGLE 的损失函数包括两部分,一部分是特征预测损失,另一部分是 token 预测损失。特征预测损失也可以被认为是一种约束,限制了模型的表达能力。

EAGLE-3 的作者们进行了实验验证,观察第一个草稿 token 的接受率 0-α,在数据集较小时,特征预测损失在训练数据较少时可以提高性能,但严重损害了草稿模型的 scaling up 能力。

不过,不使用特征预测损失会导致生成后续草稿 token 时的输入偏离训练分布,导致第二个草稿 token 的接受率 1-α 严重下降。为了解决这一问题,EAGLE-3 使用 “训练时测试” 模拟多步生成,从而兼顾了模型的 scaling up 能力和生成多个草稿 token 的能力

EAGLE、Medusa 等投机采样方法都重用目标模型的最后一层特征作为草稿模型的提示,但 EAGLE-3 的作者们发现这存在缺陷。大语言模型的最后一层特征经过线性变换就能得到下一个 token 的分布。对于满秩的分类头,最后一层特征和下一个 token 的分布一一对应。最后一层特征只有下一个 token 的信息,失去了目标模型的全局性质。

因此,EAGLE-3 不再使用目标模型的最后一层特征作为辅助信息,而是混合目标模型的低层、中层、高层信息来作为草稿模型的输入。

方法

与其他投机采样方法一致,EAGLE-3 交替执行草稿阶段和验证阶段。

草稿阶段以下图为例。在预填充或者上一个验证阶段,EAGLE-3 记录模型的低、中、高层特征序列,分别记为 l、m 和 h,拼接 k 维向量 l、m 和 h 得到 3k 维向量,然后通过一个全连接层将其降维到 k 维,就得到融合了不同层级信息的特征 g,其中 k 为目标模型的隐藏层维度。目标是生成以 “How can I” 为前缀的草稿 token 序列,只输入 g_how 和 g_can,草稿模型无法感知随机的采样过程。

因此 EAGLE-3 引入采样结果 I 的词向量嵌入 e_I。将 g 与对应的超前一个时间步的嵌入 e 拼接,即 g_how 与 e_can 拼接,g_can 和 e_I 拼接。将拼接后的向量通过全连接层降到 k 维,并将其输入进一个单层的 transformer 得到 a。然后,将 a 输入分类头,采样得到第一个草稿 token “do”。

在 step 1,以 “How can” 为前缀时,EAGLE-3 重用了来自目标模型的 g_how 和 g_can。

在 step 2,前缀是 “How can I”。理想的方式是重用来自目标模型的 g_how、g_can 和 g_I。但这是不可能的,因为 token “I” 还没有被目标模型检查,无法获取 g_I。EAGLE-3 用上一个 step 草稿模型的输出 a_I 替代 g_I,拼接 a_I 与采样结果 “do” 的词向量嵌入作为草稿模型 step2 的输入。

在 step 3,同样无法获得 g_do,所以使用 a_do 代替,拼接 a_do 与 e_it 作为草稿模型的输入。之后的 step 同理。

实验

EAGLE-3 在多轮对话、代码、数学推理、指令遵循、总结五项任务上分别使用 MT-bench、Humaneval、GSM8K、Alpaca、CNN/DM 数据集进行了实验,并与 7 种先进的投机采样方法(SpS、PLD、Medusa、Lookahead、Hydra、EAGLE、EAGLE-2)进行了比较。

该实验分别在 Vicuna (V), LLaMA-Instruct 3.1 (L31), LLaMA-Instruct 3.3 (L33), DeepSeek-R1-Distill-LLaMA (DSL) 上进行。

表格中的 Speedup 为加速比,τ 为平均接受长度,也就是目标模型每次前向计算能生成的 token 数。EAGLE-3 每次前向计算能生成大约 4-7 个 token,而自回归解码每次生成 1 个 token,因此 EAGLE-3 明显加速了大语言模型的生成,加速比为3.1x-6.5x

在所有任务和模型上,EAGLE-3 的加速比和平均接受长度都是最高的,明显优于其他方法。

应用

EAGLE-3 发布第一天就被集成到 SGLang 中。在生产级框架中,EAGLE-3 也有数倍加速效果。以下实验由 SGLang 团队提供并以 LLaMA 3.1 8B(batch size=1, 1x H100)为例。

投机采样往往被认为在大 batch size 下会降低吞吐量。但是在 SGLang 这一生产级框架下,EAGLE-3 在 batch size 为 64 时仍可以提高 38% 的吞吐量,而 EAGLE 在 batch size 为 24 时就导致吞吐量下降。这里 1.00x 以 SGLang (w/o speculative) 的吞吐量作为基准。以下实验由 SGLang 团队提供并以 LLaMA 3.1 8B(1x H100)为例。

作者介绍

李堉晖:北京大学智能学院硕士,滑铁卢大学访问学者,受张弘扬老师和张超老师指导,研究方向为大模型加速和对齐。

魏芳芸:微软亚研院研究员,研究方向为具身智能、图像生成和 AI agents。

张超:北京大学智能学院研究员,研究方向为计算机视觉和大模型加速。

张弘扬:滑铁卢大学计算机学院、向量研究院助理教授,研究方向为大模型推理加速、AI 安全和世界模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

庭小娱
2026-05-13 12:06:40
此地无银三百两!怀特塞德,给球迷留下了5个谜题

此地无银三百两!怀特塞德,给球迷留下了5个谜题

体育哲人
2026-05-30 22:04:05
买买买!大促前一晚上海市民通宵排队装备齐全

买买买!大促前一晚上海市民通宵排队装备齐全

看看新闻Knews
2026-05-30 20:44:15
解放军少将质问日方:有没有资格在国际场合大谈防务合作?

解放军少将质问日方:有没有资格在国际场合大谈防务合作?

环球网资讯
2026-05-30 23:18:29
耿同学的北航博导杨昀:论文不让国内看,跟肖飞合作,清华本硕没有一作

耿同学的北航博导杨昀:论文不让国内看,跟肖飞合作,清华本硕没有一作

小小河
2026-05-29 22:41:27
2-1大冷门,世界第92掀翻世界第6,23岁法国新锐首进法网女单16强

2-1大冷门,世界第92掀翻世界第6,23岁法国新锐首进法网女单16强

侧身凌空斩
2026-05-30 23:06:11
京东上线家电家居“组合购”新功能,有网友晒账单“买了10万元东西,便宜了5.2万元”

京东上线家电家居“组合购”新功能,有网友晒账单“买了10万元东西,便宜了5.2万元”

台州交通广播
2026-05-30 22:37:43
“只要大陆敢打,我就敢送”,他公开宣称

“只要大陆敢打,我就敢送”,他公开宣称

安安说
2026-05-24 15:20:17
哈里梅根返英前爆发激烈争吵,公爵夫人怒斥“我不去”,苏塞克斯婚姻再陷危机

哈里梅根返英前爆发激烈争吵,公爵夫人怒斥“我不去”,苏塞克斯婚姻再陷危机

科学发掘
2026-05-30 16:40:44
不愧是山姆断货王!!真的好好吃

不愧是山姆断货王!!真的好好吃

广州生活美食圈
2026-05-28 20:53:06
359旅主任刘亚生被俘,胡宗南从军统调来女特务,下令今晚拿下他

359旅主任刘亚生被俘,胡宗南从军统调来女特务,下令今晚拿下他

磊子讲史
2026-05-29 14:42:20
每体:里克尔梅:若当选皇马主席,罗德里会来

每体:里克尔梅:若当选皇马主席,罗德里会来

懂球帝
2026-05-31 04:29:20
全民不接电话!中国要成首个抛弃电话的国家,真相太扎心

全民不接电话!中国要成首个抛弃电话的国家,真相太扎心

番外行
2026-05-25 15:19:56
日韩车衰败?实情是中国汽车先顶不住了,日韩车展开反攻

日韩车衰败?实情是中国汽车先顶不住了,日韩车展开反攻

柏铭锐谈
2026-05-30 10:13:02
两位当家球星罢赛!状元也开始甩卖,CBA总冠军球队真要解散?

两位当家球星罢赛!状元也开始甩卖,CBA总冠军球队真要解散?

国篮会自强
2026-05-30 11:27:52
NBA重拳打击摆烂!选秀抽签规则将迎重大改革

NBA重拳打击摆烂!选秀抽签规则将迎重大改革

晚风知我意21
2026-05-31 02:13:19
55 年梦碎!阿尔特塔致命昏招!亲手葬送阿森纳欧冠首冠

55 年梦碎!阿尔特塔致命昏招!亲手葬送阿森纳欧冠首冠

奶盖熊本熊
2026-05-31 03:59:47
反转!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

反转!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

老猫观点
2026-05-30 07:38:10
重庆一写字楼楼顶起火,烧得只剩一个框架!

重庆一写字楼楼顶起火,烧得只剩一个框架!

随州消防119
2026-05-30 08:04:31
正在悄悄消失的“酒局”

正在悄悄消失的“酒局”

职场资深秘书
2026-05-26 17:09:59
2026-05-31 05:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13116文章数 142655关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

家居
亲子
教育
本地
公开课

家居要闻

云栖 舒展如流云

亲子要闻

来一次说走就走,开启宝宝人生首次远行,去见不一样的风景

教育要闻

帕德逼近:导数中无敌般的存在

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版