网易首页 > 网易号 > 正文 申请入驻

腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon

0
分享至

在人工智能快速演进的浪潮下,大模型正加速重构各行业的技术底座,而推理性能优化正成为应对算力挑战、内存瓶颈与通信压力的关键突破口。

当前,大模型推理性能优化主要围绕模型优化、推理加速与工程优化三大方向展开:通过模型量化、剪枝与蒸馏等手段降低计算复杂度、提升推理效率,例如 DeepSeek-R1-Distill-Qwen-32B 采用蒸馏策略,在保持高性能的同时显著压缩资源开销;依托 SGLang、vLLM 等高效推理引擎提升生成速度与系统吞吐能力;同时结合实际业务场景,合理规划并发策略、优化 GPU 配置,打造具备高可用性与扩展性的推理服务体系。

在即将于5 月 23 日 -24 日举办的 AICon 全球人工智能开发与应用大会·上海站中,我们特别策划了《大模型推理性能优化策略》专题论坛,由阿里云公共云大模型技术服务负责人王德山担任专题出品人,现已确认多位业内实践者参与分享。以下为嘉宾阵容及即将带来的精彩议题简介~

向乾彪 – 腾讯推理架构师

向乾彪在 GPU 推理加速拥有丰富经验。他的技术专长覆盖高性能异构计算及深度性能优化,并在实践中不断突破前沿技术瓶颈。目前,向乾彪带领团队负责混元大语言模型的推理加速框架【AngelHCF】。这一框架不仅在算子设计、通信优化、架构调整等方面进行了全面探索,更在实际应用中针对混元 LLM 大语言模型取得了显著的成本和性能优势。 在他的专题演讲《腾讯混元 AngelHCF 推理加速框架优化实践》中,将详细介绍了以下几个关键内容:


  • 混元模型与推理加速框架概述:以腾讯混元模型为背景,他将深入阐述 AngelHCF 框架的设计理念与核心技术;

  • 混元 Turbos Hybrid 推理优化与 Mamba Hybrid 模型优势:从模型结构创新出发,他将探讨如何通过混合模式优化实现整体性能跃升;

  • Kernel、显存与 KVCache 优化细节:他将涉及到底层性能调优的各项技术,通过显存及 KVCache 优化显著降低资源消耗;

  • 超大规模 MoE 模型并行策略:针对万亿参数级的 MoE 模型,他将介绍通过混合切分策略、模型压缩和 PD 分离部署等措施,有效缓解通信瓶颈并提升推理效率;

  • 智能调度与计算通信重叠策略:他还将探讨如何通过请求智能调度和计算通信的重叠优化,确保在大规模推理环境下系统平稳高效运行。


这场分享将使听众未来能够深入了解在混元 Turbos Hybrid 结构下如何实现性能突破,并展示腾讯在大模型推理加速领域的前沿实践,为参与者提供诸多思路和启发。

张君 – 华为高级开发工程师

作为华为昇思 AI 框架(昇思)核心开发者之一,他在解决大模型在计算、内存及通信等方面的瓶颈问题上,积累了丰富的工程经验。张君的演讲主题为《华为昇腾推理技术的优化实践》,他将从以下几个层面展开讨论:


  • 大模型推理加速的技术难题与解决方案:他将聚焦于推理过程中的算子融合、模型量化及 Attention 容量压缩,旨在降低计算成本;

  • 模型层、框架层及算子层的协同优化:他将解析如何利用昇腾硬件的加速库(如 ATB)、图编译技术(TorchAir)以及 PD 分离部署技术实现多层次的性能提升;

  • 动态批处理与前沿融合算子设计:他还将介绍动态批处理技术(Dynamic Batching)和高效算子设计的实际应用案例,以展示如何最大化硬件资源的使用效率。


通过这场演讲,听众将会全面了解华为昇腾平台在大模型推理技术优化方面的实践经验,并体会到从算法到硬件的全链路提升在未来带来的巨大潜力与实际收益。

姜慧强 – 微软亚洲研究院研究开发工程师

姜慧强专注于高效推理和训练方法的探索。在多项国际顶级会议上发表过高水平论文,他的研究领域涵盖动态稀疏注意力、KV 缓存优化、提示压缩等前沿方向,为大语言模型的高效推理提供了多维度创新解决方案。

在《以 KV 缓存为中心的高效长文本方法的优化和实践》这一专题演讲中,姜慧强将从技术应用角度出发,全面解析长上下文大语言模型在推理过程中的挑战及应对策略。演讲主要聚焦以下几个方面:


  • 长文本应用的推理瓶颈:他将详述长文本处理所带来的计算与内存压力,并剖析现有基准测试忽略 KV 缓存全生命周期的局限;

  • KV 缓存为核心的架构设计:他将介绍如何围绕 KV 缓存生成、压缩、检索和加载等环节进行优化,并阐明这些措施在实际应用中可能带来的突破效果;

  • SCBench 基准测试工具的应用:他将展示 SCBench 的设计理念和实验数据,对比常规推理优化方法与 KV 缓存策略的综合性能;

  • 技术趋势与发展展望:他将对比当前各大 LLM 供应商在 KV 缓存技术上的不同做法,展望长文本高效推理的未来演进方向。


听众从他的演讲中可以了解到前沿高效长文本方法的设计思路和方法,更好低降低推理成本。

李元龙 – 阿里云技术专家

李元龙在阿里云负责大模型在 B 端客户的应用方案设计与落地,致力于模型训练与推理技术的全链路优化实践。在题为《超越算力瓶颈,大模型推理的跨层优化前沿实践》的演讲中,李元龙将为听众带来一场涵盖多个层次的技术分享,主要内容包括:


  • 大模型推理全链路剖析:从 Transformer 前向传播核心流程出发,系统解析各关键模块的设计及其优化空间;

  • 模型架构层至硬件层的深度融合:将介绍从模型、框架、编译到硬件加速的整体优化策略,包括 PyTorch 动态图编译、算子优化和 CUDA 并行计算策略等;

  • 跨层协同优化策略与实战经验:深入讲解垂直分层与横向协同的技术体系,以及动态计算图与稀疏激活模式等前沿技术,展示如何有效突破算力瓶颈;

  • 未来推理性能提升的全景展望:将探讨模型并行、硬件选型和通信重叠等新思路,并提供具体的落地方案和实践指南。


他的分享为听众提供简明扼要的推理部署优化指南,可以使用户快速找到适合自己场景的模型推理部署策略。

AICon 人工智能开发与应用大会将于 5 月 23-24 日举办,聚焦多模态、Agent、端侧智能、模型推理等前沿技术,内容丰富,干货满满,诚邀大家线下相聚!在这里,你将深入了解 AI 技术在各领域的最新实践与落地路径,包括:


  1. Motiff 妙多与《麦琪的花园》游戏技术高管分享 AI 原生产品从战略构想到实际落地的核心方法;

  2. 科技企业如何借力新加坡及全球生态体系,把握关键节点,实现技术突破与市场落地;

  3. 多领域 Agent 应用的落地案例,涵盖代码自动化、企业培训、金融智能化等方向,探索背后的挑战与解决方案;

  4. 硬件终端如智能眼镜、词典笔等前沿产品的应用场景与关键技术突破;

  5. 多模态大模型的实践探索:从长视频理解、多模态训练,到 AIGC 在视频与游戏创作中的创新赋能;

  6. 50+ 行业专家共聚,深度解析大模型的最新进展与前沿趋势。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
61岁的王姬驾驭一身黑色礼服,这身材让年轻人都望尘莫及

61岁的王姬驾驭一身黑色礼服,这身材让年轻人都望尘莫及

大江
2026-05-24 12:20:25
炒不了港美股了,怎么办?

炒不了港美股了,怎么办?

佩妮penny的世界
2026-05-22 20:05:07
体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

黯泉
2026-05-20 16:13:40
陕西老总3年赚42亿,女秘书换12个,知情人士吐露:吃人不吐骨头

陕西老总3年赚42亿,女秘书换12个,知情人士吐露:吃人不吐骨头

悬案解密档案
2025-05-19 14:44:14
皇马官方:里克尔梅提交的主席候选资格有效

皇马官方:里克尔梅提交的主席候选资格有效

懂球帝
2026-05-25 05:39:08
英超|你永远不会独行!收官战迎来告别潮,传奇落幕,青春翻篇

英超|你永远不会独行!收官战迎来告别潮,传奇落幕,青春翻篇

齐鲁壹点
2026-05-25 11:58:18
满屏都是外星人?二十年后NBA首发1后卫+4文班?篮球真要这么玩?

满屏都是外星人?二十年后NBA首发1后卫+4文班?篮球真要这么玩?

仰卧撑FTUer
2026-05-25 10:39:06
华为半导体领域重大突破发布,概念股大涨

华为半导体领域重大突破发布,概念股大涨

第一财经资讯
2026-05-25 10:19:42
留神峪煤矿隐蔽工作面矿工发声:遇检查工作面会被封堵,专家称系顽疾

留神峪煤矿隐蔽工作面矿工发声:遇检查工作面会被封堵,专家称系顽疾

中国新闻周刊
2026-05-24 21:40:07
山东一男子接亲途中才知道新娘已婚有娃,果断报警,被骗9.7万彩礼全部追回,6人被抓

山东一男子接亲途中才知道新娘已婚有娃,果断报警,被骗9.7万彩礼全部追回,6人被抓

大风新闻
2026-05-25 09:03:04
“干到5点上来才知道出事了”:留神峪煤矿爆炸后,有晚班工人仍下井作业

“干到5点上来才知道出事了”:留神峪煤矿爆炸后,有晚班工人仍下井作业

新京报
2026-05-24 14:15:43
湖人一夜4消息!老詹1年3500万+里夫斯5年2亿?骑媒公开招募回家

湖人一夜4消息!老詹1年3500万+里夫斯5年2亿?骑媒公开招募回家

锅子篮球
2026-05-24 21:15:39
不在一个次元!美媒晒文班与切特系列赛数据对比,差距太离谱

不在一个次元!美媒晒文班与切特系列赛数据对比,差距太离谱

体育见习官
2026-05-25 11:59:37
“我真的一点声音没听见”,网约车司机在乘客走人后气懵:少看一眼,白跑半天车!

“我真的一点声音没听见”,网约车司机在乘客走人后气懵:少看一眼,白跑半天车!

用车指南
2026-05-25 10:01:30
F1加拿大:维斯塔潘重回领奖台,勒克莱尔第4,迈凯伦重大失误

F1加拿大:维斯塔潘重回领奖台,勒克莱尔第4,迈凯伦重大失误

体育妞世界
2026-05-25 09:20:14
特朗普曾惊出一身冷汗:中美已无法开战,一杀手锏令美军无计可施

特朗普曾惊出一身冷汗:中美已无法开战,一杀手锏令美军无计可施

陈腕特色体育解说
2026-05-24 10:04:58
当俄罗斯不再提顿巴斯

当俄罗斯不再提顿巴斯

民间胡扯老哥
2026-05-12 18:07:35
梦鸽李天一赴美不归?看到85岁李双江“现状”,原来杨洪基没说谎

梦鸽李天一赴美不归?看到85岁李双江“现状”,原来杨洪基没说谎

阿纂看事
2024-11-05 11:54:58
如何判定马英九是否失智?精神科名医沈政男:这一题通常无法答对

如何判定马英九是否失智?精神科名医沈政男:这一题通常无法答对

新时光点滴
2026-05-25 04:43:31
景甜代孕协议疑似被曝光?最新回应!

景甜代孕协议疑似被曝光?最新回应!

美芽
2026-05-25 12:13:14
2026-05-25 12:52:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1517文章数 150关注度
往期回顾 全部

科技要闻

华为发表半导体演进新定律

头条要闻

男子收到16年前的停车欠费通知 比他买车的时间还要早

头条要闻

男子收到16年前的停车欠费通知 比他买车的时间还要早

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

洪涛回应歌手淘汰庾澄庆:难以理喻

财经要闻

退市!33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

时尚
教育
亲子
房产
军事航空

伊姐周日热推:电视剧《盛唐奇案》;电视剧《我的王室死对头》......

教育要闻

高考地理中的海水垂直运动

亲子要闻

这就尴尬了

房产要闻

疯狂周末,海口楼市突然爆了!

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版