网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

模型知识蒸馏新SOTA！告别传统散度蒸馏｜腾讯优图&中科大出品

2024-12-03 14:57:26　来源: 量子位

北京举报

0

分享至

用大模型“蒸馏”小模型，有新招了！

甚至能在不同类型和架构的LLMs（大语言模型）上达到新SOTA。

这就是来自中科大、腾讯优图实验室提出的一种基于Sinkhorn距离的知识蒸馏方法，能把大的、复杂的教师模型的知识“蒸馏”到小的、简单的学生模型中，从而让小模型也能像大模型一样工作。

之所以提出新方法，主要是现有的知识蒸馏（KD）方法都有各自的局限性：

当两个模型的输出差异较大时，它们就不太管用了。

KL散度：会导致学生模型的输出变得过于平滑，失去了区分性；
RKL散度：会让学生的输出变得太简单，不能很好地模仿教师模型；
JS散度：会让学生模型低估稀有事件的概率；

而基于Sinkhorn距离的新方法能更准确地衡量和缩小教师模型和学生模型之间的差异，从而提高了学生模型的性能。

此外，研究还提出了一种基于批量的重构方法，从而在高维空间中捕捉跨样本分布的几何复杂性。

最终，通过在两个流行的自然语言处理测试集（GLUE和SuperGLUE）上测试，新方法在编码器、编码器-解码器以及解码器等不同架构的所有类型LLMs上均优于当前的最先进方法。

研究背景

知识蒸馏的提出是为了通过对齐教师模型的软目标（例如输出logits和中间层表示）来将教师模型内在固有的知识传递给学生模型。

给定训练集中的一个样本x_i及其真实标签 ∈ ℝ，来自教师模型和学生模型的输出logits ∈ ℝ和 ∈ ℝ可以由以下式子得到：

其中为softmax函数， τ是温度参数, d是输出logits的维度。基于logit的知识蒸馏的目标是σΤ最小化测量散度J（，）以实现知识传递。

研究动机

现有研究已经尝试使用Kullback-Leibler（KL）散度、反Kullback-Leibler（RKL）散度和Jensen-Shannon（JS）散度。

所有这些度量都可以被视为f-散度度量的变体，而f-散度度量在量化缺乏实质性交集的任何两个分布时都存在明显局限性。

此外，每种度量都有其自身的缺陷：

KL蒸馏会导致模式平均，使学生学习到一个过于平滑的分布，涵盖了教师的整个支撑集；
RKL会引起模式塌陷，学生仅关注教师分布中高概率的显著区域，而忽视了其余部分；
JS蒸馏会产生模式低估，由于惩罚不足，学生会低估稀有事件的概率。

为了解决传统散度度量的问题，研究做出了以下贡献：

提出了一种知识蒸馏方法SinKD，采用Sinkhorn距离作为散度度量。它不仅解决了KL、RKL和JS散度在极端场景下的局限性，而且避免了计算Wasserstein距离的负担。
深入探讨了Sinkhorn距离的性质，并将SinKD重新reformulated为batch-wise OT，扩展了它在NLP任务中的适用性。
通过大量的可比性、有效性和泛化性实验证明了SinKD相较于目前最先进的方法的优越性。并为实际应用提供了使用SinKD进行蒸馏的实用指导方针。

传统散度度量的缺陷

首先，KL散度是不对称的，表现为JKL（，）≠ JKL（，），这一性质违反了距离度量的对称性特性，从而引入了一些不一致性。

其次，由于使用KL损失进行优化，学生模型试图对教师模型的多模态分布进行平均化，从而导致对这些模式的拟合不足。这被称为“模式平均问题”（mode-averaging problem）。

因此，学生模型无法捕获数据中的所有关键模式，最终影响模型性能。

第三，KL散度对应的是一个非平滑函数，这为优化过程带来了挑战。

与KL散度一样，具有内在的不对称性，从而导致在捕捉分布差异时出现不一致性。

此外，优化的学生模型倾向于仅关注教师分布中概率较高的事件，这被称为“模式崩塌问题”（mode-collapsing）。

如果教师对某个事件赋予零概率，学生模型也被迫做出相同的预测。

其中m = 1/2（+）受制于非平滑性，JS损失在优化过程中面临挑战。

另外，由于JS损失在低概率区域的匹配上惩罚不足，学生模型可能会过度低估稀有事件的概率。

对于分布之间重叠较少甚至完全不重叠的情况退化为常数时，还存在梯度消失的风险。

最优传输距离的优势

Wasserstein距离通过求解两个分布之间的最优传输计划来量化它们的差异。

直观地看，它可以被认为是将一个分布（即学生的logits分布）转换为另一个分布（即教师的logits分布）所需的最小“代价”，其中“代价”可以定义为被移动的质量与移动距离的乘积。

与传统的散度度量相比，Wasserstein距离作为蒸馏的成本函数更为合理，因为它不依赖于对被测量分布的隐式假设。此外，它几乎处处可微，从而便于优化。

另外，现有的散度度量只能独立处理每个样本对，进行逐一logit的匹配，对于一批样本，这些方法无法定位来自同一样本的教师和学生的logits对，从而无法实现整体距离的最小化。

由于计算Sinkhorn距离的过程可以实现来自同一样本的两个输出之间的精确逐元素匹配，研究提出了“批量化”的SinKD方法（batchified SinKD）。

通过这种方式，即使通过低维观测，也能够捕捉复杂且隐式分布的几何结构。

方法介绍

这里简要介绍SinKD的核心方法，详细推导过程可以参阅原论文。

批量重构的Sinkhorn距离

对于本问题，Wasserstein距离的定义如下：

其中，

Wasserstein距离本身在解析计算上存在困难，其计算成本对于蒸馏大型语言模型来说高得难以承受。

在这种情况下，研究使用Sinkhorn距离作为一种高效的近似方法。它不仅保留了Wasserstein距离的所有优点，同时也大大缓解了其在在线蒸馏中所面临的成本问题。

Sinkhorn距离的定义如下：

逐样本蒸馏将每个实例独立处理，但忽略了一个批次样本中的整体趋势。

研究摒弃了仅在每对教师-学生样本对上工作的逐样本知识蒸馏方法，转而在教师和学生样本组上执行知识蒸馏。

一个包含b个样本的批次会整体参与散度度量。通过批量重构，这种方法有效地增加了“观测”空间的维度，特别是在d远小于b的情况下表现尤为显著。

对于常规分类任务的蒸馏，研究使用如下“batchified”代价函数：

并初始化如下候选传输矩阵：

通过重构和化简，研究可以使用如下迭代式计算最优传输矩阵（具体推导过程参见论文）：

由此，可以算出最优传输距离：

SinKD的变体

拓展到回归任务：对于回归任务，模型不会为每个选项生成概率，而是仅生成一个标量（d=1）。对于一个包含b个样本的批次，教师模型和学生模型的输出分别表示为 ∈ ℝbx1和 ∈ ℝbx1。

为了计算教师和学生之间的批量化Sinkhorn距离，成本矩阵的元素由“批量化”回归输出之间的绝对差值确定：

拓展到独热标签微调：SinKD方法也适用于仅有独热（one-hot）标签且无法获取教师模型logits的模型微调。

在这种情况下，可以将单热标签视为“假想”的单热教师模型的logits。由于单热logits中以零为主，传统的散度度量（例如KL散度）在处理这种极端情况下的散度量化时显得无能为力。

实验与分析

（1）数值结果。与基线和SOTA方法对比，论文方法在大部分任务上均取得了更好的性能。

（2）消融实验。得出的结论如下：

Sinkhorn损失在所有损失中对学生模型的收益最大
批量化的SinKD优于逐样本的SinKD
SinKD超越了基于f-散度变体的蒸馏方法

（3）生成式大语言模型实验。SinKD可以推广到生成式大语言模型，并在基于类GPT架构的模型的蒸馏上取得不俗的成绩表现。

但同时研究也观察到，蒸馏效果的影响会随着PROMPT模板的变化而改变。

这意味着，同样的任务设置下，更加合理的PROMPT设计能够更充分地利用教师模型的固有知识。

（4）可视化结果如下。

为了增强内在评估，研究还进行了以下附加分析：

隐藏状态的表示
注意力机制的模式
层级性能分析

（5）拓展到独热标签微调。与现有的散度度量方法（例如KL散度）不同，SinKD方法还可以扩展用于使用独热标签 (one-hot label) 微调语言模型。

（6）拓展到计算机视觉领域深度网络。SinKD在所有测试的配置中均稳定地超越了所有基线方法。

总结

研究引入了SinKD以解决现有蒸馏方法的局限性。此外，作者们提出了基于批次的重构方法，以捕捉高维空间中样本分布的几何复杂性。最后，研究在各类任务、数据集和模型架构上进一步验证SinKD的有效性。

更多细节欢迎查阅原论文。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

研究生偷卖实验室「废品」月入过万，导师：这钱拿来补贴经费就闭环了

生物学霸 2024-09-26 18:03:10
120 跟贴 120
惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

生物学霸 2024-09-19 18:04:00
9 跟贴 9

几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

量子位 2024-07-23 18:10:04
536 跟贴 536

一篇论文没发，师兄竟获得诺贝奖，他当场致谢了让自己延毕的导师

生物学霸 2024-10-24 12:42:02
16 跟贴 16
Switch 2明年发布？网友:不是腾讯代理不买

极果酷玩 2024-12-02 12:57:00
11 跟贴 11

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

机器之心Pro 2024-06-21 15:20:08
89 跟贴 89

化学老师做实验，原来这样就可以演示，再也不用怕出意外！

幽默小火山 2024-12-02 14:35:59
1 跟贴 1
日媒业界分析索尼收购角川两大理由！曝腾讯也对收购角川感兴趣

Switch2来了 2024-12-01 15:54:04
11 跟贴 11

心理医生要靠实验才能确诊

嘟嘟追剧 2024-12-03 08:24:22
1 跟贴 1
网友用喷火枪测试杯子，有装水与没装水燃烧的区别，网友：这是什么原理？

兴国融媒体中心 2024-12-03 10:57:15
1456 跟贴 1456
谁是下一个张一鸣？

华商韬略 2024-10-21 10:22:53
0 跟贴 0
老师带着学生做实验，既惊险又刺激，花样操作看呆网友

时尚的嚯徽 2024-12-02 09:25:00
0 跟贴 0
腾讯成库洛游戏控股股东引热议：纯投资不干预就很好

游民星空 2024-12-02 10:04:37
4 跟贴 4
微信提现可免手续费?腾讯官方回应了

DJ阿喆 2024-12-03 16:57:43
0 跟贴 0
曝江苏一公园将长条椅焊上钢管市民：防止干日结的在这睡

猫头鹰视频 2024-12-03 18:22:06
34976 跟贴 34976
网红韩安冉自爆整容模板是赵露思，“她怎么改我就往那边靠”，此前直播时曾称自己三婚三离整容33次

重庆头条官方 2024-11-30 17:25:04
13 跟贴 13
宇宙奇观！超新星HOPE如何颠覆哈勃常数？

黑科技在身边 2024-12-02 23:18:54
3 跟贴 3
圆周率能算尽吗？普朗克长度意味着物体不能无限分割，是否矛盾？

宇宙时空 2024-12-01 15:04:40
24 跟贴 24
大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

机器之心Pro 2024-11-19 15:50:17
2 跟贴 2
已知函数的最大值为2，让我们求常数的一个取值！

三乐大掌柜 2024-12-03 21:32:35
1 跟贴 1
四维空间到底什么样？与三维空间有什么区别？

宇宙时空 2024-11-30 13:34:53
34 跟贴 34
亚马逊年末甩王炸！苹果罕见站台

智东西 2024-12-04 08:01:28
0 跟贴 0
249 亿公里远程“刷机”成功，“旅行者 1 号”恢复和地面通信

IT之家 2024-12-03 11:18:07
2637 跟贴 2637
宇宙为什么要限制光速，光速如果是无限大的，会发生什么？

科学认识论 2024-12-03 15:43:07
0 跟贴 0
李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖，具身智能又下一城！

新智元 2024-12-03 10:06:39
10 跟贴 10
为什么学线代时不知道：矩阵与图竟然存在等价关系

机器之心Pro 2024-08-19 14:19:28
55 跟贴 55
价值16万美元的模型，360度环绕观看，每一面都截然不同！

奇葩笑话大舞台 2024-12-02 10:33:20
4 跟贴 4
面积和二次函数有关的中考真题，熟悉二次函数性质是解题关键

吴国平教育研究社 2024-11-30 07:41:17
6 跟贴 6
称职吗？杜江锋任浙大校长两年，发论文仍署名中科大，引校友不悦

东东趣谈 2024-11-30 19:39:55
394 跟贴 394
几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

机器之心Pro 2024-09-04 22:17:21
66 跟贴 66
算计形式化一般是从势函数到态函数

白驹谈人机 2024-12-03 00:05:02
0 跟贴 0
这是只有中国人才会的酿酒技术，不用蒸馏工具，好喝不上头！

湘野红姐 2024-12-02 11:29:53
5 跟贴 5
中国霸气回应！老美被拒绝月壤后，NASN“谎言”被揭穿了！

小蘑菇壹号 2024-11-30 09:52:13
23 跟贴 23
宇宙中最大的结构：武仙-北冕座长城，长达100亿光年

观察宇宙 2024-12-03 21:57:20
3 跟贴 3
导师梦想成为诺奖得主，学生竟劝他：醒醒吧，你连一篇 Nature 都没发

生物学霸 2024-10-16 17:36:47
11 跟贴 11
阿里巴巴成2025年央视春晚独家电商互动平台

鞭牛士 2024-12-03 16:24:09
61 跟贴 61
1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

机器之心Pro 2024-11-14 17:08:05
0 跟贴 0
为何海上要用海里来描述距离，而不用公里？

中国科技新闻网 2024-12-02 17:09:21
15 跟贴 15
判断一个人是不是人才，就看这一点

互联网思维 2024-09-04 23:32:27
79 跟贴 79
美媒公布核爆模型，俄罗斯一旦发射核弹，美欧大城市会死多少人？

雷姐地机械空间 2024-12-02 17:09:42
0 跟贴 0

乔欣被曝结婚后首现身，小腹微凸没戴戒指，新婚丈夫疑似陪伴身边

乔欣被曝结婚后首现身，小腹微凸没戴戒指，新婚丈夫疑似陪伴身边

萌神木木

2024-12-03 16:26:05

湖南女子祭拜亡夫时听到求救，不顾反对撬开棺材，结局意外

湖南女子祭拜亡夫时听到求救，不顾反对撬开棺材，结局意外

青丝人生

2023-12-11 17:52:04

249 亿公里远程“刷机”成功，“旅行者 1 号”恢复和地面通信

249 亿公里远程“刷机”成功，“旅行者 1 号”恢复和地面通信

IT之家

2024-12-03 11:18:07

广东绝杀山西！徐杰怒吼，小胡狂嗨，阿旺捂脖子，杜锋大倒苦水

广东绝杀山西！徐杰怒吼，小胡狂嗨，阿旺捂脖子，杜锋大倒苦水

篮球资讯达人

2024-12-03 22:37:27

金华女老师事件，照片里确实文静，让人很难想象她会和学生谈恋爱

金华女老师事件，照片里确实文静，让人很难想象她会和学生谈恋爱

人情皆文史

2024-10-31 00:07:22

直击山东艺考现场一米九考生扎堆压迫感满满记者踮脚才能拍清楚

直击山东艺考现场一米九考生扎堆压迫感满满记者踮脚才能拍清楚

闪电新闻

2024-12-03 17:09:01

冯俊彦点赞足协：敢用日本教练宋凯亲自谈青训合作省去中间环节

冯俊彦点赞足协：敢用日本教练宋凯亲自谈青训合作省去中间环节

直播吧

2024-12-04 09:46:48

俄乌库尔斯克战役结束！俄军突破乌军防线引发全球关注

俄乌库尔斯克战役结束！俄军突破乌军防线引发全球关注

世界探索者发现

2024-12-03 22:00:42

记者谈魏震：踢不了穆斯卡特高位压迫战术，可能不想在海港踢了

记者谈魏震：踢不了穆斯卡特高位压迫战术，可能不想在海港踢了

直播吧

2024-12-03 21:54:28

某事业部经理的瓜！整碎三观！

挖掘机007

2024-12-03 09:05:41

关键时刻能保命,千万别掺和别人的因果!远离“怅鬼和白莲花”朋友

关键时刻能保命,千万别掺和别人的因果!远离“怅鬼和白莲花”朋友

有趣的火烈鸟

2024-12-03 13:33:19

冯绍峰新女友正脸照曝光，网友嘲讽又是“科技脸”，担心他成

冯绍峰新女友正脸照曝光，网友嘲讽又是“科技脸”，担心他成

农村教育光哥

2024-12-03 10:52:56

工资5万被上司使坏降至8千，我辞职后不久，公司就赔了500万

工资5万被上司使坏降至8千，我辞职后不久，公司就赔了500万

呆呆文化

2024-12-03 10:23:30

中国股市又爆猛料，今天A股或将要大变天，万千散户抄底还是逃跑

中国股市又爆猛料，今天A股或将要大变天，万千散户抄底还是逃跑

一丛深色花儿

2024-12-04 04:10:03

辽宁队自食恶果，7分惨败南京队，三人必须背锅，杨鸣要干废老将

辽宁队自食恶果，7分惨败南京队，三人必须背锅，杨鸣要干废老将

宗介说体育

2024-12-03 22:11:20

历史性一刻，福建舰实现舰载机触舰

历史性一刻，福建舰实现舰载机触舰

三叔的装备空间

2024-12-03 14:33:24

台湾妹子真大胆，穿“三块布”就敢去时装周，这身材不辣眼吗？

台湾妹子真大胆，穿“三块布”就敢去时装周，这身材不辣眼吗？

打麻将的仔

2024-12-04 08:19:09

马赫雷斯：我不是梅西，无法凭一己之力终结比赛！

马赫雷斯：我不是梅西，无法凭一己之力终结比赛！

历史第一人梅西

2024-12-03 17:54:13

昆明一饭店老板凌晨发地址要求女收银员前往，女方拒绝后11分钟被辞退，双方回应

昆明一饭店老板凌晨发地址要求女收银员前往，女方拒绝后11分钟被辞退，双方回应

极目新闻

2024-12-03 15:10:42

吴柳芳再回应管晨辰解释为何挂体操运动员头衔：荣誉不能被践踏

吴柳芳再回应管晨辰解释为何挂体操运动员头衔：荣誉不能被践踏

厝边人侃体育

2024-12-03 12:12:06

追踪人工智能动态

9699文章数 175735关注度

往期回顾全部

科技要闻

美国芯片慎用！中国四大行业协会发声

头条要闻

父亲带女儿"蹭跑"马拉松被禁赛：孩子10岁是临时起意

头条要闻

父亲带女儿"蹭跑"马拉松被禁赛：孩子10岁是临时起意

体育要闻

心里苦!凯恩退出本赛季第一项冠军争夺

娱乐要闻

50岁林志玲生日晒娃引热议

财经要闻

梁建章:建议对生孩子家庭发10万元

汽车要闻

标配Lion5.0科技座舱风云A8L将于12月17日上市

态度原创

本地

手机

亲子

数码

公开课

本地新闻

云游中国｜来伦布夏果感受充满Passion的人生

手机要闻

折叠手机遇冷：2024Q3 屏幕出货量首次下滑，增长停滞、挑战重重

亲子要闻

偷喝爸爸奶茶被发现，爸爸放到桌子上后他就赖在地上

数码要闻

苹果发布visionOS 2.2第四个开发者测试版将继续打磨

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版