网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

今日最热论文：Scaling Law终结，量化也无用，AI大佬齐刷刷附议

2024-11-13 15:16:19　来源: 量子位

北京举报

0

分享至

几十万人关注，一发表即被行业大佬评为“这是很长时间以来最重要的论文”。

哈佛、斯坦福、MIT等团队的一项研究表明：训练的token越多，需要的精度就越高。

例如，Llama-3在不同数据量下（圆形8B、三角形70B、星星405B），随着数据集大小的增加，计算最优的精度也会增加。

换句话就是，对于大规模的训练任务，低精度的量化可能不再足够有效。

按照结论，对Scaling Law的遵循意味着我们需要保持更高精度，然而一直以来，人们通常会选择量化（将连续值或多精度值转换为较低精度）来节省计算资源。

一旦结论成立，GPU的设计和功能可能也需要相应调整，因为传统上，GPU的性能提升部分依赖于对低精度计算的优化。

正如艾伦AI研究所科学家所指出的：

这是很长时间以来最重要的论文。它用强有力的证据表明，我们正在达到量化的极限。论文得出的结论对整个领域以及GPU的未来有着广泛的影响。

与此同时，研究得出了两个重要结论：

如果量化是在后训练阶段进行的，那么更多的预训练数据最终可能反而有害
在高（BF16）和下一代（FP4）精度下进行预训练可能都是次优的设计选择；

这也引来OpenAI员工大赞特赞：

将非常酷地看到如何SOTA量化方案（mxfp，Pw≠Pkv≠Pa等）推动前沿；在我看来，将一半的计算预算用于一次大规模运行以检查模型是否适用于大模型是值得的。

提出“精度感知”Scaling Laws

一上来，研究就指出，当前扩展的焦点主要放在了模型规模、数据量上，忽视了对精度的关注。

而事实上，随着模型进一步应用落地，低精度量化正在成为新的范式。

深度学习正朝着更低精度的方向发展。
当前的前沿模型（如Llama-3系列）在BF16中进行训练，并且大家都在努力将预训练范式转移到FP8，甚至下一代硬件将支持FP4；

因此，研究想要搞清：

精度、参数和数据之间的权衡是什么？它们在预训练和推理方面如何比较？

具体而言，团队研究了在预训练和后训练，随着数据和参数的变化，精度对损失的影响如何变化。

同时，为了精确测量相关变化，团队专门提出了“精度感知（precision-aware）”的Scaling Laws，以预测和优化不同精度下的语言模型训练和推理。

先说结论。下图展示了两个主要的实验结果：

在较低精度下训练模型（例如INT3和INT4）会导致较高的损失；
在推理时使用较低精度会导致性能下降；

具体而言，左侧图表展示了在不同精度下训练模型的效果。

其中纵轴表示最终的验证损失（Val Loss），横轴表示不同的模型规模（Model Size），从30M到220M参数。不同的颜色代表了不同的训练精度，从INT3到INT6，以及没有后训练量化（No PTQ）。

研究发现，在较低精度下训练模型（例如INT3和INT4）会导致较高的损失，而随着精度的提高，损失会减少；同时，随着模型规模的增加，损失也会减少。

另外，右侧图表展示了在不同精度下进行推理时的模型性能。

其中横轴表示了推理时的权重精度（Final Val Loss）。

结果显示，在推理时使用较低精度（例如INT3和INT4）会导致性能下降，即损失的增加；而随着精度的提高，损失会逐渐减少，接近没有进行后训练量化的模型性能。

上述发现也解释了为什么Llama-3难以量化？

要知道，Llama-3发布后，它因“超15T Token数据上的超大规模预训练”而闻名，不过人们后来发现，Llama-3低比特量化性能下降显著。

这可能正如研究提到的，模型在预训练阶段看到的数据越多，对量化的敏感性就越高。

与此同时，研究还发现了：

后训练量化（PTQ，即训练完成后对模型进行量化）引起的性能退化随着模型训练数据量的增加而增加。

换句话说，在大量数据上训练的模型，如果在推理时进行低精度的PTQ，可能会导致性能显著下降。

接下来，团队提出利用“精度感知”Scaling Laws来预测模型在不同精度下的性能，并指出：

在较低精度下进行训练可以减少模型的“有效参数数量（effective parameter count）”，从而预测在低精度下训练和后训练量化产生的额外损失。

其中包含两个关键公式，它们构成了一个统一的理论框架，用于预测不同精度下训练和推理的性能。

训练后量化（PTQ）引起的损失退化预测公式：

考虑训练精度的模型损失预测公式：

统一预训练与后训练的精度预测

BTW，研究最终将后训练量化和预训练量化的影响统一起来，以此实现：

预测在任何精度组合下的预训练和后训练损失

相关公式如下：

同时，为了验证预测的准确性，研究对超过465次预训练运行的数据进行拟合，并在高达1.7亿参数、训练了高达260亿个token的模型上进行了验证。

并在过程中提出了以下几点建议：

需要衡量精度与性能，在资源有限的情况下，可以考虑使用较低的精度来训练更大的模型；
需要衡量精度与参数，在低精度下训练时，可以考虑增加模型的规模（即参数数量），因为研究表明这样做可能是计算上最优的；
需要优化数据量，通过数据增强、选择性数据采样等技术提高数据使用率，并在预训练时应避免使用过多的数据，特别是在模型需要后期量化的情况下。

不过，这项研究目前也存在一定局限性，比如作者自述使用了一个固定的模型架构来控制变量。

这意味着，相关结果可能不适用于经过架构调整的低精度训练模型，因为架构的变化可能会影响模型对精度变化的敏感性。

最后，有网友还想得更远。提出一旦量化失败，还有3条路可以考虑：

扩展数据中心
转向更小的专业模型
知识蒸馏

你怎么看？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

MIT开发新方法，无需从头训练机器人即可执行复杂任务

DeepTech深科技 2024-11-05 18:05:35
4 跟贴 4
第一个100%开源的MoE大模型，7B的参数，1B的推理成本

机器之心Pro 2024-09-05 10:30:36
0 跟贴 0

大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
82 跟贴 82

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

机器之心Pro 2024-11-19 15:50:17
2 跟贴 2
AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

量子位 2024-09-08 13:27:35
65 跟贴 65

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

机器之心Pro 2024-11-14 17:08:05
3 跟贴 3

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

新智元 2024-11-24 12:41:25
30 跟贴 30
字节AI版小李子一开口：黄风岭，八百里

量子位 2024-09-13 22:49:29
0 跟贴 0

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

机器之心Pro 2024-06-21 15:20:08
0 跟贴 0
摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

机器之心Pro 2024-07-26 15:01:16
0 跟贴 0
AI眼镜是智能硬件的新方向，还是伪概念？

经济观察报 2024-11-24 14:58:10
0 跟贴 0
Scaling Law无法无限扩展？科学家揭示低精度训练的极限

DeepTech深科技 2024-11-13 21:38:25
2 跟贴 2
不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

机器之心Pro 2024-06-03 17:03:11
0 跟贴 0
无数据不智能，数据闭环重塑高阶智驾未来

钛媒体APP 2024-10-11 10:25:11
0 跟贴 0
传统酒企，数据备份恢复成功率如何提高85%？丨创新场景

钛媒体APP 2024-07-23 18:42:12
0 跟贴 0
婆婆学会网购后，低价买了一堆模型，网友：家里同款爸妈

青州融媒 2024-11-22 07:00:00
17 跟贴 17
马保国现身宿州奥斯卡酒吧，五连鞭轻松走起！嗨翻全场

动态新闻 2024-11-23 10:07:53
30363 跟贴 30363
残局极限贪炸，神操作打崩对手，真厉害

欢欢斗地主 2024-11-22 10:58:35
1 跟贴 1
拜登政府常务副国务卿放话：我们在努力"拆散"中俄

澎湃新闻 2024-11-23 23:18:48
2451 跟贴 2451
最新！俄方宣布：乌军“最强部队”被歼灭！视频曝光：俄先进导弹摧毁乌方目标！泽连斯基发声

每日经济新闻 2024-11-24 11:11:59
19320 跟贴 19320
菲副总统称“若我被害就去找总统算账” 菲军方回应

红星新闻 2024-11-24 18:15:31
1386 跟贴 1386
江西车主开仰望U8穿越赣江女子从天窗探出来看风景

征垣之路 2024-11-24 10:22:56
16103 跟贴 16103
宇宙的外面是什么？科学家做出预估，人类已不敢想象

心中的麦田 2024-11-22 17:52:22
67 跟贴 67
在阿里，痛苦的人开始信教

钛媒体APP 2024-07-26 19:01:14
2689 跟贴 2689
2轮1分！巴萨噩梦4分钟：染红+丢2球，揪出头号罪人皇马翻盘良机

风过乡 2024-11-24 07:03:00
697 跟贴 697
神来之笔！对手打出擦边接擦网王曼昱极限救球解说：这球也行？

林小湜体育频道 2024-11-23 16:24:00
4 跟贴 4
几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

机器之心Pro 2024-09-04 22:17:21
56 跟贴 56
库尔斯克的战损数据出来了

杨轶 2024-11-22 16:12:56
28 跟贴 28
人如果断绝所有人际关系，会变得怎么样？

乐达源心理 2024-11-22 13:00:28
1 跟贴 1
湖人惨败掘金詹姆斯18分浓眉19中6约基奇34+13+8

网易体育 2024-11-24 13:48:58
7256 跟贴 7256
几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

量子位 2024-07-23 18:10:04
531 跟贴 531
年轻人抛弃搜索引擎

虎嗅APP 2024-10-09 16:10:30
1047 跟贴 1047
纯手动机床，哪能有这么高精度啊

夏夏看影视 2024-11-24 13:05:26
1 跟贴 1
非法扫描中国装备，航展出现敌特？浑身顶级设备，解放军当场出手

东方点兵 2024-11-22 15:43:45
0 跟贴 0
Scaling Law 争议大揭秘：AI发展陷入绝境还是柳暗花明？

卢菁老师 2024-11-24 17:57:59
0 跟贴 0
马刺17分逆转勇士库里16中5文班亚马25+7+7

网易体育 2024-11-24 11:50:50
3749 跟贴 3749
零距离极限格斗,这就是顶级杀手

芳芳爱剪辑 2024-11-21 08:30:15
1 跟贴 1
为什么学线代时不知道：矩阵与图竟然存在等价关系

机器之心Pro 2024-08-19 14:19:28
25 跟贴 25
认知的丢失还是技术的升华？60度电池包怎么敢标600公里续航！

少数派报告Report 2024-11-22 19:09:19
464 跟贴 464
100万贱卖，曾坐拥2.4亿用户的“互联网全球500强”，被时代抛弃？

钛媒体APP 2024-08-23 18:19:34
300 跟贴 300

宇宙级房企大地震！

黯泉

2024-11-24 20:28:37

比90年代泡沫经济还夸张！曝东京151.99平米房子卖21.8亿，每平米接近70万人民币

比90年代泡沫经济还夸张！曝东京151.99平米房子卖21.8亿，每平米接近70万人民币

六子吃凉粉

2024-11-24 23:40:41

卢布花不出去了！中国大型银行已停止使用俄银行银联卡

卢布花不出去了！中国大型银行已停止使用俄银行银联卡

大风文字

2024-11-24 16:36:17

2025年村委换届已确定！取消村干部“本村管本村”？村委增设一个新组织？专家方案出炉！

2025年村委换届已确定！取消村干部“本村管本村”？村委增设一个新组织？专家方案出炉！

书法集

2024-11-24 12:03:06

坚壁清野，以迎领导！

家传编辑部

2024-11-24 15:18:47

退出北约！绝不与中俄为敌，美国万万没想到，盟友突然就跑掉了

退出北约！绝不与中俄为敌，美国万万没想到，盟友突然就跑掉了

猫小狸同学

2024-11-24 17:55:02

英超下课第2人！前冠军官宣解雇44岁主帅，近4轮1分+执教仅5个月

英超下课第2人！前冠军官宣解雇44岁主帅，近4轮1分+执教仅5个月

我爱英超

2024-11-25 00:34:35

大S发声:离婚协议已签署，无论要求有多么苛刻，汪小菲要遵守！

大S发声:离婚协议已签署，无论要求有多么苛刻，汪小菲要遵守！

圈里的甜橙子

2024-11-25 01:33:01

刚刚爆了！王楚钦夺冠，把张本智和打崩溃，锁定年终世界第一

刚刚爆了！王楚钦夺冠，把张本智和打崩溃，锁定年终世界第一

上观新闻

2024-11-24 18:13:46

中央定调！退休新规2025年起实施，65后70后和75后群体受影响？

中央定调！退休新规2025年起实施，65后70后和75后群体受影响？

云姐财说

2024-11-23 19:24:47

解说比赛时大骂张本智和，前国乒名将遭大量中国球迷抨击！

解说比赛时大骂张本智和，前国乒名将遭大量中国球迷抨击！

十点街球体育

2024-11-24 11:52:05

吴柳芳回应擦边争议，最大的荣誉给了国家，最美的一面给了网友

吴柳芳回应擦边争议，最大的荣誉给了国家，最美的一面给了网友

芊手若

2024-11-24 16:32:02

炸裂！女的被约到宾馆，捐精者亲身上阵，直接怀孕只收800元

炸裂！女的被约到宾馆，捐精者亲身上阵，直接怀孕只收800元

派大星纪录片

2024-11-24 10:21:50

军情一线：巴赫穆特再陷危机，俄南方军区司令“谎报军情”遭免职

军情一线：巴赫穆特再陷危机，俄南方军区司令“谎报军情”遭免职

史政先锋

2024-11-24 15:57:00

他俩离婚4年，全网心疼哭：这才是《再见爱人》最应该请的一对啊！

他俩离婚4年，全网心疼哭：这才是《再见爱人》最应该请的一对啊！

美芽

2024-11-24 20:33:54

1-1！想念范尼？阿莫林三度变阵无缘开门红曼联踢倒第2都没优势

1-1！想念范尼？阿莫林三度变阵无缘开门红曼联踢倒第2都没优势

狍子歪解体坛

2024-11-25 02:25:58

八村垒：若日本男篮继续这样下去，我无法为其效力

八村垒：若日本男篮继续这样下去，我无法为其效力

懂球帝

2024-11-24 19:08:16

一个人最高级的认知：看见因果

洞见

2024-11-24 00:27:24

中青报：农村老人自杀现象，已经到了触目惊心的地步！

中青报：农村老人自杀现象，已经到了触目惊心的地步！

尚曦读史

2024-11-23 21:35:02

你被中国保护得太好了，所以成了傻白甜

你被中国保护得太好了，所以成了傻白甜

一个坏土豆

2024-11-24 20:18:39

追踪人工智能动态

9649文章数 175710关注度

往期回顾全部

科技要闻

“这是中国的非凡机遇，德日远远落后了”

头条要闻

媒体：特朗普点将完毕对华政策方面其团队群"鹰"荟萃

头条要闻

媒体：特朗普点将完毕对华政策方面其团队群"鹰"荟萃

体育要闻

卡文迪什：公路自行车传奇谢幕

娱乐要闻

窦靖童演唱会：王菲助阵，谢霆锋助唱

财经要闻

特朗普任免对市场有何影响？券商研判

汽车要闻

尊界S800首张官图发布双色车身"尊的"很亮

态度原创

健康

本地

亲子

手机

军事航空

花18万治疗阿尔茨海默病，值不值？

本地新闻

云游中国 | 拒绝特种兵！北方也有“真江南”

亲子要闻

警惕！这些药物或可致智力残疾拉响警报

手机要闻

OPPO Reno13系列发布前瞻：外观、配置、影像、续航基本都清晰了

军事要闻

泽连斯基：俄乌冲突完全有可能在2025年结束

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版