网易首页 > 网易号 > 正文 申请入驻

NVIDIA TensorRT-LLM 现支持 Recurrent Drafting,实现 LLM 推理优化

0
分享至



Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。ReDrafter 帮助开发者大幅提升了 NVIDIA GPU 上的 LLM 工作负载性能。NVIDIA TensorRT-LLM 是一个 LLM 推理优化库,提供了一个易于使用的 Python API 来定义 LLM 和构建 NVIDIA TensorRT 引擎,这些引擎具有顶尖的优化功能,可在 GPU 上高效执行推理。优化功能包括自定义 Attention Kernel、Inflight Batching、Paged KV Caching、量化技术 (FP8、INT4 AWQ、INT8 SmoothQuant) 等。

推测解码 (Speculative decoding) 是一种通过并行生成多个 token 来加速 LLM 推理的技术。它使用较小的“draft”模块预测未来的 token,然后由主模型进行验证。该方法通过更好地利用可用资源实现低延迟推理,在保持输出质量的同时大大缩短了响应时间,尤其是在低流量时段。

ReDrafter 运用基于循环神经网络 (RNN) 的采样 (称为 Drafting) 并结合之前在 Medusa 等其他技术中使用的树状注意力,预测和验证来自多个可能路径的 draft token 以提高准确性,并在解码器的每次迭代中接受一个以上 token。NVIDIA 与苹果公司合作,在 TensorRT-LLM 中添加了对该技术的支持,使更加广泛的开发者社区能够使用该技术。

ReDrafter 与 TensorRT-LLM 的集成扩大了该技术的覆盖范围,解锁了新的优化潜力,并改进了 Medusa 等先前的方法。Medusa 的路径接受和 token 采样发生在 TensorRT-LLM 运行时,需要在接受路径未知的情况下处理所有可能的未来路径,而且其中大部分路径最终都会被丢弃,这就给引擎内部带来了一些开销。为了减少这种开销,ReDrafter 要求在 drafting 下一次迭代的未来 token 之前,先验证 token 并接受最佳路径。

为了进一步减少开销,TensorRT-LLM 更新后在单个引擎中整合了 drafting 和验证逻辑,不再依赖运行时或单独的引擎。这种方法为 TensorRT-LLM 内核选择和调度提供了更大的自由度,通过优化网络实现了性能的最大化。

为了更好地说明 ReDrafter 的改进,图 1 展示了 TensorRT-LLM 中 ReDrafter 实现与 Medusa 实现的主要区别。大多数与推测解码相关的组件都在 ReDrafter 的引擎内完成,这大大简化了 ReDrafter 所需的运行时更改。





图 1. NVIDIA TensorRT-LLM 中

Medusa(上)和 ReDrafter(下)实现的比较

下面将深入探讨有助于在 TensorRT-LLM 中启用 ReDrafter 的一些变化。

兼容 Inflight-batching

批处理的引擎

Inflight-batching (IFB) 是一种通过批量处理上下文阶段和生成阶段请求,来显著提高吞吐量的策略。鉴于上下文阶段请求与生成阶段请求的处理方式不同(生成阶段请求需要 draft token 验证),因此结合 IFB 的推测解码会给管线带来更大的复杂性。ReDrafter 将验证逻辑移至模型定义内部,因此引擎在验证过程中也需要该逻辑。与注意力插件类似,该批处理被分成两个较小的批处理:一个用于上下文请求,另一个用于生成请求。然后,每个较小的批处理进入计算工作流,最后再合并成一个批处理进行 drafting 流程。



图 2. ReDrafter 兼容 TensorRT-LLM 引擎的

Inflight-batching 批处理计算工作流

请注意,这种方法要求任一路径上的所有运算符都支持空张量。如果一个批处理由所有上下文请求或所有生成请求组成,就可能出现空张量。该功能增加了 TensorRT-LLM API 的灵活性,使未来定义更复杂的模型成为可能。

实现引擎内验证和 Drafting

为了在引擎内进行验证和 draft,TensorRT-LLM 更新时加入了对许多新操作的支持,这样 PyTorch 代码就可以轻松地转化成一个 TensorRT-LLM 模型的定义。

以下 PyTorch 代码摘录是苹果公司的 PyTorch 实现的 ReDrafter。TensorRT-LLM 实现几乎就是 PyTorch 版本的直接逐行映射。

PyTorch

def unpack(    packed_tensor: torch.Tensor,    unpacker: torch.Tensor,) -> torch.Tensor:    assert len(packed_tensor.shape) == 3    last_dim_size = packed_tensor.shape[2]    batch_size, beam_width, beam_length = unpacker.shape    unpacked_data_indices = unpacker.view(        batch_size, beam_width * beam_length, 1).expand(        -1, -1, last_dim_size    )    unpacked_tensor = torch.gather(        packed_tensor, 1, unpacked_data_indices).reshape(        batch_size, beam_width, beam_length, -1    )    return unpacked_tensor

TensorRT-LLM

def _unpack_beams(    x: Tensor,    indices: Tensor,    num_beams: int,    beam_length: int) -> Tensor:    assert x.rank() == 3    d0 = shape(x, 0, INT_DTYPE_STR)    dl = shape(x, -1, INT_DTYPE_STR)    indices = view(        indices, [-1, num_beams * beam_length, 1], False)    res_shape = concat([d0, num_beams, beam_length, dl])    res = view(gather_nd(x, indices), res_shape, False)    return res

当然,这只是一个非常简单的例子。如要了解更复杂的示例,请参见束搜索实现。借助为 ReDrafter 添加的新功能,就可以改进 TensorRT-LLM 中的 Medusa 实现,从而进一步提高其性能。

ReDrafter

在 TensorRT-LLM 中的性能

根据苹果公司的基准测试,在采用 TP8 的 NVIDIA GPU 上使用 TensorRT-LLM 的 ReDrafter 最多可将吞吐量提高至基础 LLM 的 2.7 倍。

请注意,任何推测解码技术的性能提升幅度都会受到诸多因素的大幅影响,包括:

  • GPU 利用率:推测解码通常用于低流量场景,由于批量较小,GPU 资源的利用率通常较低。

  • 平均接受率:由于推测解码必须执行额外的计算,而其中很大一部分计算最终会在验证后被浪费,因此每个解码步骤的延迟都会增加。所以要想通过推测解码获得任何性能上的优势,平均接受率必须高到足以弥补增加的延迟。这受到束数量、束长度和束搜索本身质量(受训练数据影响)的影响。

  • 任务:在某些任务(例如代码完成)中预测未来的 token 更容易,使得接受率更高,性能也会因此而提升。

总结

NVIDIA 与苹果公司的合作让 TensorRT-LLM 变得更加强大和灵活,使 LLM 社区能够创造出更加复杂的模型并通过 TensorRT-LLM 轻松部署,从而在 NVIDIA GPU 上实现无与伦比的性能。这些新特性带来了令人兴奋的可能性,我们热切期待着社区使用 TensorRT-LLM 功能开发出新一代先进模型,进一步改进 LLM 工作负载。

探索 NVIDIA TensorRT-LLM,在 NVIDIA GPU 上充分释放模型潜能:

https://docs.nvidia.com/tensorrt-llm/index.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
80后美女歌手申烨去世,死因细节曝光,最后露面与妈妈合影

80后美女歌手申烨去世,死因细节曝光,最后露面与妈妈合影

180°视角
2025-01-22 07:27:55
拖垮中国交通的罪魁祸首,并不是车太多?这几座山不移除就白搭

拖垮中国交通的罪魁祸首,并不是车太多?这几座山不移除就白搭

明月聊史
2025-01-11 15:46:20
“指纹锁”正逐渐退出中国家庭?听内行人说完,我恍然大悟!

“指纹锁”正逐渐退出中国家庭?听内行人说完,我恍然大悟!

阿离家居
2025-01-17 00:52:46
特斯拉新Model Y实车图!比照片中有质感,分体式大灯,有转向拨杆

特斯拉新Model Y实车图!比照片中有质感,分体式大灯,有转向拨杆

沙雕小琳琳
2025-01-22 20:47:48
故事:韩国女星李恩珠,被财阀欺辱8小时,连上台领奖时都逃不过

故事:韩国女星李恩珠,被财阀欺辱8小时,连上台领奖时都逃不过

飞云如水
2025-01-16 14:05:28
大鱼已被歼灭,俄军导弹飞入波兰,普京对全国交底,新的乌国诞生

大鱼已被歼灭,俄军导弹飞入波兰,普京对全国交底,新的乌国诞生

暖心的小屋
2025-01-22 17:19:49
故事:749局退休高人口述:陆家嘴有人渡劫的真相,让人毛骨悚然

故事:749局退休高人口述:陆家嘴有人渡劫的真相,让人毛骨悚然

诡谲怪谈
2025-01-18 14:09:34
侯永永转会费曝光!要价50万欧,求购者退出,挪甲MVP含金量成疑

侯永永转会费曝光!要价50万欧,求购者退出,挪甲MVP含金量成疑

小金体坛大视野
2025-01-22 14:09:57
从小就有一个疑惑,为什么英语老师是所有科目老师里最会打扮的?

从小就有一个疑惑,为什么英语老师是所有科目老师里最会打扮的?

人情皆文史
2025-01-21 05:40:35
国补后苹果手机跌破3000元,iPhone16价格成全球最低

国补后苹果手机跌破3000元,iPhone16价格成全球最低

鲁中晨报
2025-01-21 22:51:09
同济大学讲座:张维为教授引发男生们热烈反响!

同济大学讲座:张维为教授引发男生们热烈反响!

涛哥锐评
2025-01-21 12:49:05
TikTok的恢复运营,不过特朗普是要用印度的玩法,把它吃干榨尽

TikTok的恢复运营,不过特朗普是要用印度的玩法,把它吃干榨尽

施涛说
2025-01-23 10:15:03
卢进,被撤销资格

卢进,被撤销资格

新京报政事儿
2025-01-22 14:32:35
KD:哈登刚来篮网的半个赛季 是我见过最不可思议的篮球比赛之一

KD:哈登刚来篮网的半个赛季 是我见过最不可思议的篮球比赛之一

直播吧
2025-01-23 09:58:26
特朗普就任数小时后,白宫这个网页“404”了

特朗普就任数小时后,白宫这个网页“404”了

环球时报新闻
2025-01-22 20:24:59
中超热身:成都蓉城2-1奥达,深圳新鹏城2-1中国香港

中超热身:成都蓉城2-1奥达,深圳新鹏城2-1中国香港

美人茶话会
2025-01-23 00:00:19
印度首富夫人妮塔亮相特朗普就职典礼,珠光宝气,造型惊艳

印度首富夫人妮塔亮相特朗普就职典礼,珠光宝气,造型惊艳

述家娱记
2025-01-22 13:29:56
张兰真硬气!把大S俩孩子全拉进家庭群里,天天给他们发视频!

张兰真硬气!把大S俩孩子全拉进家庭群里,天天给他们发视频!

郑丁嘉话
2025-01-23 09:10:56
形势到底有多严峻?天呢!上海已经刷新国人的认知…

形势到底有多严峻?天呢!上海已经刷新国人的认知…

慧翔百科
2024-11-21 12:03:47
张坤们摔下神坛

张坤们摔下神坛

虎嗅APP
2025-01-23 08:00:12
2025-01-23 11:00:49
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
2838文章数 1349关注度
往期回顾 全部

科技要闻

三星Galaxy S25系列发布:尝鲜价6499元起

头条要闻

正部级齐扎拉被查 曾任西藏自治区政府主席

头条要闻

正部级齐扎拉被查 曾任西藏自治区政府主席

体育要闻

韩国的新规,柯洁的习惯,中国的申诉

娱乐要闻

演员胡歌,官宣新身份!

财经要闻

重磅!关于股市,证监会发声!

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

健康
教育
房产
数码
公开课

抑郁症患者称好的“乌托邦”宝地

教育要闻

教师寒假充电必备的7个国家免费平台

房产要闻

2025海口第一波房价开出:一批楼盘,悄悄提价!

数码要闻

AMD RX 9070三月才发布:优化性能、争取更多FSR4游戏

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版