网易首页 > 网易号 > 正文 申请入驻

为何英伟达H20推理性能超过H100?

0
分享至

2023年10月,美商务部更新了针对AI芯片的限制规定,对出口中国的AI算力芯片产品的算力、算力密度、带宽等上限提出了明确要求。受此影响,英伟达(NVIDIA)此前针对中国市场定制的A800、H800,以及此前未受限的众多AI芯片都受到了限制。基于此,NVIDIA随后又为中国市场定制了H20、L20、L2等产品。

从公布的参数来看,H20的FP16、INT8等主要算力参数仅为A100的不足1/2,更是仅为H100的约1/7;L20的主要算力参数相较于L40、L40S分别下降约1/3、2/3。这些最新的针对中国市场定制的产品算力参数被大幅阉割,使得市场大多对其性能表现、性价比(1.2-1.4万美元,略低于Ascend 910的约。1.66万美元)持悲观或怀疑态度。

在此前的《关于英伟达H20砍单传言》一文当中,NVIDIA内部人士虽然承认,然经过阉割后的NVIDIA H20单卡算力仅有H100的20%,相比国产的910b,性能也只有其60%多。但是,其强调,H20仍有两大优势:

1、H20的HBM容量(96GB)与带宽远比910B高(也高于A100/H100的80GB HBM3),带宽是910B两倍。

2、NVIDIA有NVlink架构。H20可以是通过多卡使用、多卡堆叠模式,完全超越910B,甚至突破H100。

同时,该内部人士还表示,H20的中国订单一直稳定,市场部尚未接到大量砍单的现象。

不过,这一与外界看法相悖的说法,依然是没有消除外界的疑虑。那么,H20在被阉割之后,究竟还有多少优势?

近日,广发电子团队基于理论计算,研究了H20、L20等产品在大模型推理端的性能表现。推算结果显示,H20、L20均展现出较优异的推理性能。

以下为主要内容:

1根据推算,H20推理性能超过H100,L20推理性能比肩L40S

H20推理性能优于A100、H100,仅略逊于H200。分别使用单张H20、A100、H100、H200进行推理。参考图1,在3组推理场景下,H20的推理速度均明显优于A100;在前两组推理场景下,H20的推理速度优于H100,第三组推理场景下H20与H100推理速度基本持平。取三组平均值,H20平均推理速度是A100的1.8倍,是H100的1.1倍。

L20推理性能与L40、L40S基本相同。分别使用单张L40S、L40、L20进行推理。参考图3,在前两组推理场景中,L40S、L40、L20的推理速度无明显差异;仅在最后一组场景中,L40S推理速度相较于L40、L20优势较明显。取三组平均值,L20推理速度仅比L40S速度慢约2%。

为什么算力被大幅阉割的H20会有如此优异的推理性能表现?在接下来的两个章节,广发电子分别分析了推理过程中Prefill环节、Decode环节H20的推理性能表现。

2Prefill是算力密集场景,H20受算力制约性能表现较弱

Prefill阶段算力负载体现在对用户所有输入Tokens进行一次并行计算;显存带宽负载主要体现在参数量从HBM向算力芯片的传输。在大多数推理场景下(如输入Tokens较长、或Batch Size较大),Prefill阶段计算耗时高于显存传输的耗时,因此该环节的耗时(也被称为First token latency)通常是由算力芯片的算力能力决定,Prefill阶段属于算力密集场景。

参考表2,由于H20的算力较弱,在Prefill环节H20耗时明显高于其他三款芯片。这也意味着在使用H20进行推理时,用户从完成问题输入、到看到问题第一个文字的输出,中间需要等待较长时间。

3Decode是显存带宽密集场景,H20性能表现优异

在Prefill阶段结束后,大模型开始生成回答,该过程被称为Decode。由于Decode过程中,回答的Tokens必须逐个生成,且每个Token生成过程中,都需要重复一次参数从HBM向算力芯片的传输,且Decode阶段不断扩大的KV Cache也需要在HBM和算力芯片间往复传输,使得Decode阶段通常显存传输耗时明显高于计算耗时;Decode阶段属于显存带宽密集场景,更高的显存带宽对加速Decode至关重要。

参考表3,由于H20具有较高的显存带宽,在Decode阶段H20每生成1个Token所需时间低于A100、H100,这也使得H20在整个推理过程具有较高的推理速度。

4H20在多数推理场景中性能优异、性价比高,但也存在特殊情况

多数应用场景下,站在H20推理使用用户角度,在输入问题后,等待界面出现第一个回答文字的等待时间会较长(相较于使用A100/H100/H200进行推理),但考虑到这一时长也仅为2.8s,对用户使用体验的负面影响是有限的。(备注:实际用户等待时间还包括网络延迟、用户端侧延迟等)

而在回答开始后,使用H20的用户会体验到回答生成速度较快(相较于使用A100/H100进行推理),每秒57个Tokens的生成速度明显高于人类阅读速度。

站在H20持有人角度,持有人更关心一个推理系统Throughput的速度,因为对相同一套推理系统或成本相近的不同推理系统,平均Throughput(Tokens/s)越高,意味着每Token所平摊的系统硬件成本越低。从性价比角度看,假设H20与H100售价相近,在多数情况下,H20也有望成为性价比更高的推理芯片选择。

以上关于H20优异的推理性能的分析,是建立在较常见的推理场景(回答文字大于等于提问文字),在一些特殊推理场景下,例如输入一段长文字并输出长文字核心观点(对应较长的输入和较短的输出),参考表5,站在用户角度,从输入问题到出现答案的耗时会较为漫长(超过20s);站在持有人角度,推理全程H20的推理速度会下降至明显低于A100。

因此,广发电子认为H20的推理性能优异、推理性价比高,适用于大部分推理场景,而非全部场景;H20实际的推理性能及性价比,需要结合实际使用场景、售价等综合评判。

编辑:芯智讯-浪客剑 资料来源:广发电子

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
TA:文班G5赛后未接受采访,官员和记者对他不履行媒体义务感到震惊

TA:文班G5赛后未接受采访,官员和记者对他不履行媒体义务感到震惊

懂球帝
2026-05-27 21:21:07
父亲当街多次脚踹女儿,路过男子制止时将其放倒致轻伤;一审被判构成故意伤害罪,二审发回重审

父亲当街多次脚踹女儿,路过男子制止时将其放倒致轻伤;一审被判构成故意伤害罪,二审发回重审

极目新闻
2026-05-27 18:44:06
3.2万亿天量杀跌!“抽水”开始了,下周只有一类股能活下来!

3.2万亿天量杀跌!“抽水”开始了,下周只有一类股能活下来!

小白鸽财经
2026-05-27 15:18:44
官媒俄乌网用“人渣败类”回怼中国网民批评

官媒俄乌网用“人渣败类”回怼中国网民批评

辇毂
2026-05-27 22:11:11
“免费采摘”不实视频致258亩荠菜地遭数百人哄抢!种植户称未获赔偿,已申请刑事立案

“免费采摘”不实视频致258亩荠菜地遭数百人哄抢!种植户称未获赔偿,已申请刑事立案

浪潮新闻
2026-05-26 20:36:57
且看马斯克的招聘广告,就是这么简单粗暴,请问你服不服…

且看马斯克的招聘广告,就是这么简单粗暴,请问你服不服…

慧翔百科
2026-05-27 08:48:46
强烈呼吁: 将何庭波7年前这封致海思全体员工内部信编入中学教材

强烈呼吁: 将何庭波7年前这封致海思全体员工内部信编入中学教材

故事终将光明磊落
2026-05-27 11:32:02
小米集团总裁卢伟冰:近八成用户在试驾对比YU7标准版与特斯拉Model Y后驱版后,选择了小米

小米集团总裁卢伟冰:近八成用户在试驾对比YU7标准版与特斯拉Model Y后驱版后,选择了小米

鲁中晨报
2026-05-27 14:20:18
雷军沦陷了!回应武契奇总统买不起小米车,被批情商低,评论笑死

雷军沦陷了!回应武契奇总统买不起小米车,被批情商低,评论笑死

做一个合格的吃瓜群众
2026-05-27 15:18:42
中国“进口SUV”月冠军:卡宴第6,揽胜第5,第一名月销超2000台

中国“进口SUV”月冠军:卡宴第6,揽胜第5,第一名月销超2000台

柳先说
2026-05-26 20:03:00
公安部:当前出警必须佩戴和使用执法记录仪 接报案信息必须网上登记

公安部:当前出警必须佩戴和使用执法记录仪 接报案信息必须网上登记

红星新闻
2026-05-27 11:30:42
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

夜深爱杂谈
2026-05-27 20:06:42
小麦“割四赔五”续:博主直播翻车,事情传到外网,牵连整个襄阳

小麦“割四赔五”续:博主直播翻车,事情传到外网,牵连整个襄阳

小鋭有话说
2026-05-27 14:17:45
昨天,他是日本最惨第一人

昨天,他是日本最惨第一人

这里是东京
2026-05-27 17:03:38
户籍制度改革,可能真的要来了

户籍制度改革,可能真的要来了

黑噪音
2026-05-27 22:26:33
原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

另子维爱读史
2026-05-27 07:52:25
徐湖平被查后续细节曝光:文物流向各地,行业乱象触目惊心!

徐湖平被查后续细节曝光:文物流向各地,行业乱象触目惊心!

麦杰逊
2026-05-27 18:09:29
华为韬定律到底含金量如何?现在的舆论环境,就是不让人说实话

华为韬定律到底含金量如何?现在的舆论环境,就是不让人说实话

担扑
2026-05-27 16:17:14
未经审批,私自赈灾,河南三支救援队造成极其恶劣的社会影响

未经审批,私自赈灾,河南三支救援队造成极其恶劣的社会影响

齐天候
2026-05-27 18:20:39
官媒接连力挺,耿同学又爆新料!

官媒接连力挺,耿同学又爆新料!

新动察
2026-05-27 14:59:13
2026-05-28 00:44:49
芯智讯 incentive-icons
芯智讯
聚焦科技万象,报道前沿资讯。
8750文章数 32117关注度
往期回顾 全部

数码要闻

罗技K98M PLUS机械键盘新增“冰淇淋小熊”版本,569元

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

本地
房产
教育
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

房产要闻

合生创展前总裁被查!直指房企违规放贷、利益输送等问题

教育要闻

“把女儿养成财阀千金”,开明家教走红,只看穿着就超越90%家庭

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以军称已打死哈马斯新任军事领导人

无障碍浏览 进入关怀版