网易首页 > 网易号 > 正文 申请入驻

模型知识蒸馏新SOTA!告别传统散度蒸馏|腾讯优图&中科大出品

0
分享至

用大模型“蒸馏”小模型,有新招了!

甚至能在不同类型和架构的LLMs(大语言模型)上达到新SOTA。

这就是来自中科大、腾讯优图实验室提出的一种基于Sinkhorn距离的知识蒸馏方法,能把大的、复杂的教师模型的知识“蒸馏”到小的、简单的学生模型中,从而让小模型也能像大模型一样工作。



之所以提出新方法,主要是现有的知识蒸馏(KD)方法都有各自的局限性:

当两个模型的输出差异较大时,它们就不太管用了
  • KL散度:会导致学生模型的输出变得过于平滑,失去了区分性;
  • RKL散度:会让学生的输出变得太简单,不能很好地模仿教师模型;
  • JS散度:会让学生模型低估稀有事件的概率;

而基于Sinkhorn距离的新方法能更准确地衡量和缩小教师模型和学生模型之间的差异,从而提高了学生模型的性能。

此外,研究还提出了一种基于批量的重构方法,从而在高维空间中捕捉跨样本分布的几何复杂性。

最终,通过在两个流行的自然语言处理测试集(GLUE和SuperGLUE)上测试,新方法在编码器、编码器-解码器以及解码器等不同架构的所有类型LLMs上均优于当前的最先进方法。



研究背景

知识蒸馏的提出是为了通过对齐教师模型的软目标(例如输出logits和中间层表示)来将教师模型内在固有的知识传递给学生模型。

给定训练集中的一个样本x_i及其真实标签 ∈ ℝ,来自教师模型和学生模型的输出logits ∈ ℝ和 ∈ ℝ可以由以下式子得到:



其中为softmax函数, τ是温度参数, d是输出logits的维度。基于logit的知识蒸馏的目标是σΤ最小化测量散度J(,)以实现知识传递。

研究动机

现有研究已经尝试使用Kullback-Leibler(KL)散度、反Kullback-Leibler(RKL)散度和Jensen-Shannon(JS)散度。

所有这些度量都可以被视为f-散度度量的变体,而f-散度度量在量化缺乏实质性交集的任何两个分布时都存在明显局限性。

此外,每种度量都有其自身的缺陷:

KL蒸馏会导致模式平均,使学生学习到一个过于平滑的分布,涵盖了教师的整个支撑集;
RKL会引起模式塌陷,学生仅关注教师分布中高概率的显著区域,而忽视了其余部分;
JS蒸馏会产生模式低估,由于惩罚不足,学生会低估稀有事件的概率。



为了解决传统散度度量的问题,研究做出了以下贡献:

  1. 提出了一种知识蒸馏方法SinKD,采用Sinkhorn距离作为散度度量。它不仅解决了KL、RKL和JS散度在极端场景下的局限性,而且避免了计算Wasserstein距离的负担。
  2. 深入探讨了Sinkhorn距离的性质,并将SinKD重新reformulated为batch-wise OT,扩展了它在NLP任务中的适用性。
  3. 通过大量的可比性、有效性和泛化性实验证明了SinKD相较于目前最先进的方法的优越性。并为实际应用提供了使用SinKD进行蒸馏的实用指导方针。



传统散度度量的缺陷



首先,KL散度是不对称的,表现为JKL(,)≠ JKL(,),这一性质违反了距离度量的对称性特性,从而引入了一些不一致性。

其次,由于使用KL损失进行优化,学生模型试图对教师模型的多模态分布进行平均化,从而导致对这些模式的拟合不足。这被称为“模式平均问题”(mode-averaging problem)。

因此,学生模型无法捕获数据中的所有关键模式,最终影响模型性能。

第三,KL散度对应的是一个非平滑函数,这为优化过程带来了挑战。



与KL散度一样,具有内在的不对称性,从而导致在捕捉分布差异时出现不一致性。

此外,优化的学生模型倾向于仅关注教师分布中概率较高的事件,这被称为“模式崩塌问题”(mode-collapsing)。

如果教师对某个事件赋予零概率,学生模型也被迫做出相同的预测。



其中m = 1/2(+)受制于非平滑性,JS损失在优化过程中面临挑战。

另外,由于JS损失在低概率区域的匹配上惩罚不足,学生模型可能会过度低估稀有事件的概率。

对于分布之间重叠较少甚至完全不重叠的情况退化为常数时,还存在梯度消失的风险。

最优传输距离的优势

Wasserstein距离通过求解两个分布之间的最优传输计划来量化它们的差异。

直观地看,它可以被认为是将一个分布(即学生的logits分布)转换为另一个分布(即教师的logits分布)所需的最小“代价”,其中“代价”可以定义为被移动的质量与移动距离的乘积。

与传统的散度度量相比,Wasserstein距离作为蒸馏的成本函数更为合理,因为它不依赖于对被测量分布的隐式假设。此外,它几乎处处可微,从而便于优化。

另外,现有的散度度量只能独立处理每个样本对,进行逐一logit的匹配,对于一批样本,这些方法无法定位来自同一样本的教师和学生的logits对,从而无法实现整体距离的最小化。

由于计算Sinkhorn距离的过程可以实现来自同一样本的两个输出之间的精确逐元素匹配,研究提出了“批量化”的SinKD方法(batchified SinKD)。

通过这种方式,即使通过低维观测,也能够捕捉复杂且隐式分布的几何结构。

方法介绍

这里简要介绍SinKD的核心方法,详细推导过程可以参阅原论文。

批量重构的Sinkhorn距离

对于本问题,Wasserstein距离的定义如下:



其中,



Wasserstein距离本身在解析计算上存在困难,其计算成本对于蒸馏大型语言模型来说高得难以承受。

在这种情况下,研究使用Sinkhorn距离作为一种高效的近似方法。它不仅保留了Wasserstein距离的所有优点,同时也大大缓解了其在在线蒸馏中所面临的成本问题。

Sinkhorn距离的定义如下:



逐样本蒸馏将每个实例独立处理,但忽略了一个批次样本中的整体趋势。

研究摒弃了仅在每对教师-学生样本对上工作的逐样本知识蒸馏方法,转而在教师和学生样本组上执行知识蒸馏。

一个包含b个样本的批次会整体参与散度度量。通过批量重构,这种方法有效地增加了“观测”空间的维度,特别是在d远小于b的情况下表现尤为显著。

对于常规分类任务的蒸馏,研究使用如下“batchified”代价函数:



并初始化如下候选传输矩阵:



通过重构和化简,研究可以使用如下迭代式计算最优传输矩阵(具体推导过程参见论文):



由此,可以算出最优传输距离



SinKD的变体

拓展到回归任务:对于回归任务,模型不会为每个选项生成概率,而是仅生成一个标量(d=1)。对于一个包含b个样本的批次,教师模型和学生模型的输出分别表示为 ∈ ℝbx1和 ∈ ℝbx1。

为了计算教师和学生之间的批量化Sinkhorn距离,成本矩阵的元素由“批量化”回归输出之间的绝对差值确定:



拓展到独热标签微调:SinKD方法也适用于仅有独热(one-hot)标签且无法获取教师模型logits的模型微调。

在这种情况下,可以将单热标签视为“假想”的单热教师模型的logits。由于单热logits中以零为主,传统的散度度量(例如KL散度)在处理这种极端情况下的散度量化时显得无能为力。

实验与分析

(1)数值结果。与基线和SOTA方法对比,论文方法在大部分任务上均取得了更好的性能。



(2)消融。得出的结论如下:

  • Sinkhorn损失在所有损失中对学生模型的收益最大
  • 批量化的SinKD优于逐样本的SinKD
  • SinKD超越了基于f-散度变体的蒸馏方法







(3)生成式大语言模型实验。SinKD可以推广到生成式大语言模型,并在基于类GPT架构的模型的蒸馏上取得不俗的成绩表现。

但同时研究也观察到,蒸馏效果的影响会随着PROMPT模板的变化而改变。

这意味着,同样的任务设置下,更加合理的PROMPT设计能够更充分地利用教师模型的固有知识。



(4)可视化结果如下。



为了增强内在评估,研究还进行了以下附加分析:

  • 隐藏状态的表示
  • 注意力机制的模式
  • 层级性能分析

(5)拓展到独热标签微调。与现有的散度度量方法(例如KL散度)不同,SinKD方法还可以扩展用于使用独热标签 (one-hot label) 微调语言模型。



(6)拓展到计算机视觉领域深度网络。SinKD在所有测试的配置中均稳定地超越了所有基线方法。



总结

研究引入了SinKD以解决现有蒸馏方法的局限性。此外,作者们提出了基于批次的重构方法,以捕捉高维空间中样本分布的几何复杂性。最后,研究在各类任务、数据集和模型架构上进一步验证SinKD的有效性。

更多细节欢迎查阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乔欣被曝结婚后首现身,小腹微凸没戴戒指,新婚丈夫疑似陪伴身边

乔欣被曝结婚后首现身,小腹微凸没戴戒指,新婚丈夫疑似陪伴身边

萌神木木
2024-12-03 16:26:05
湖南女子祭拜亡夫时听到求救,不顾反对撬开棺材,结局意外

湖南女子祭拜亡夫时听到求救,不顾反对撬开棺材,结局意外

青丝人生
2023-12-11 17:52:04
249 亿公里远程“刷机”成功,“旅行者 1 号”恢复和地面通信

249 亿公里远程“刷机”成功,“旅行者 1 号”恢复和地面通信

IT之家
2024-12-03 11:18:07
广东绝杀山西!徐杰怒吼,小胡狂嗨,阿旺捂脖子,杜锋大倒苦水

广东绝杀山西!徐杰怒吼,小胡狂嗨,阿旺捂脖子,杜锋大倒苦水

篮球资讯达人
2024-12-03 22:37:27
金华女老师事件,照片里确实文静,让人很难想象她会和学生谈恋爱

金华女老师事件,照片里确实文静,让人很难想象她会和学生谈恋爱

人情皆文史
2024-10-31 00:07:22
直击山东艺考现场 一米九考生扎堆 压迫感满满 记者踮脚才能拍清楚

直击山东艺考现场 一米九考生扎堆 压迫感满满 记者踮脚才能拍清楚

闪电新闻
2024-12-03 17:09:01
冯俊彦点赞足协:敢用日本教练 宋凯亲自谈青训合作省去中间环节

冯俊彦点赞足协:敢用日本教练 宋凯亲自谈青训合作省去中间环节

直播吧
2024-12-04 09:46:48
俄乌库尔斯克战役结束!俄军突破乌军防线引发全球关注

俄乌库尔斯克战役结束!俄军突破乌军防线引发全球关注

世界探索者发现
2024-12-03 22:00:42
记者谈魏震:踢不了穆斯卡特高位压迫战术,可能不想在海港踢了

记者谈魏震:踢不了穆斯卡特高位压迫战术,可能不想在海港踢了

直播吧
2024-12-03 21:54:28
某事业部经理的瓜!整碎三观!

某事业部经理的瓜!整碎三观!

挖掘机007
2024-12-03 09:05:41
关键时刻能保命,千万别掺和别人的因果!远离“怅鬼和白莲花”朋友

关键时刻能保命,千万别掺和别人的因果!远离“怅鬼和白莲花”朋友

有趣的火烈鸟
2024-12-03 13:33:19
冯绍峰新女友正脸照曝光,网友嘲讽又是“科技脸”,担心他成

冯绍峰新女友正脸照曝光,网友嘲讽又是“科技脸”,担心他成

农村教育光哥
2024-12-03 10:52:56
工资5万被上司使坏降至8千,我辞职后不久,公司就赔了500万

工资5万被上司使坏降至8千,我辞职后不久,公司就赔了500万

呆呆文化
2024-12-03 10:23:30
中国股市又爆猛料,今天A股或将要大变天,万千散户抄底还是逃跑

中国股市又爆猛料,今天A股或将要大变天,万千散户抄底还是逃跑

一丛深色花儿
2024-12-04 04:10:03
辽宁队自食恶果,7分惨败南京队,三人必须背锅,杨鸣要干废老将

辽宁队自食恶果,7分惨败南京队,三人必须背锅,杨鸣要干废老将

宗介说体育
2024-12-03 22:11:20
历史性一刻,福建舰实现舰载机触舰

历史性一刻,福建舰实现舰载机触舰

三叔的装备空间
2024-12-03 14:33:24
台湾妹子真大胆,穿“三块布”就敢去时装周,这身材不辣眼吗?

台湾妹子真大胆,穿“三块布”就敢去时装周,这身材不辣眼吗?

打麻将的仔
2024-12-04 08:19:09
马赫雷斯:我不是梅西,无法凭一己之力终结比赛!

马赫雷斯:我不是梅西,无法凭一己之力终结比赛!

历史第一人梅西
2024-12-03 17:54:13
昆明一饭店老板凌晨发地址要求女收银员前往,女方拒绝后11分钟被辞退,双方回应

昆明一饭店老板凌晨发地址要求女收银员前往,女方拒绝后11分钟被辞退,双方回应

极目新闻
2024-12-03 15:10:42
吴柳芳再回应管晨辰  解释为何挂体操运动员头衔:荣誉不能被践踏

吴柳芳再回应管晨辰 解释为何挂体操运动员头衔:荣誉不能被践踏

厝边人侃体育
2024-12-03 12:12:06
2024-12-04 10:23:00
量子位
量子位
追踪人工智能动态
9699文章数 175735关注度
往期回顾 全部

科技要闻

美国芯片慎用!中国四大行业协会发声

头条要闻

父亲带女儿"蹭跑"马拉松被禁赛:孩子10岁 是临时起意

头条要闻

父亲带女儿"蹭跑"马拉松被禁赛:孩子10岁 是临时起意

体育要闻

心里苦!凯恩退出本赛季第一项冠军争夺

娱乐要闻

50岁林志玲生日晒娃引热议

财经要闻

梁建章:建议对生孩子家庭发10万元

汽车要闻

标配Lion5.0科技座舱 风云A8L将于12月17日上市

态度原创

本地
手机
亲子
数码
公开课

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

手机要闻

折叠手机遇冷:2024Q3 屏幕出货量首次下滑,增长停滞、挑战重重

亲子要闻

偷喝爸爸奶茶被发现,爸爸放到桌子上后他就赖在地上

数码要闻

苹果发布visionOS 2.2第四个开发者测试版 将继续打磨

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版