网易首页 > 网易号 > 正文 申请入驻

ICLR 2022|唯快不破!面向极限压缩的全二值化BiBERT

0
分享至

作者 秦浩桐
量子位 转载 | 公众号 QbitAI

近年来,预训练语言模型在自然语言处理上表现出色,但其庞大的参数量阻碍了它在真实世界的硬件设备上的部署。

近日,机器学习顶会ICLR 2022接收论文结果已经正式公布,至少有9项工作展示了神经网络量化方向的相关进展。

本文将介绍首个用于自然语言任务的全二值量化BERT模型——BiBERT,具有高达56.3倍和31.2倍的FLOPs和模型尺寸的节省。

这项研究工作由北京航空航天大学刘祥龙教授团队、南洋理工大学和百度公司共同完成。

预训练语言模型在自然语言处理上表现出色,但其庞大的参数量阻碍了它在真实世界的硬件设备上的部署。

现有的模型压缩方法包括参数量化、蒸馏、剪枝、参数共享等等。

其中,参数量化方法高效地通过将浮点参数转换为定点数表示,使模型变得紧凑。

研究者们提出了许多方案例如Q-BERT[1]、Q8BERT[2]、GOBO[3]等,但量化模型仍旧面临严重的表达能力有限和优化困难的问题。

幸运的是,知识蒸馏作为一种惯用的辅助优化的手段,令量化模型模仿全精度教师模型的特征表达,从而较好地解决精度损失问题。

在本文中,来自北航、NTU、百度的研究人员提出了BiBERT,将权重、激活和嵌入均量化到1比特(而不仅仅是将权重量化到1比特,而激活维持在4比特或更高)。

这样能使模型在推理时使用逐位运算操作,大大加快了模型部署到真实硬件时的推理速度。

我们研究了BERT模型在二值化过程中的性能损失,作者在信息理论的基础上引入了一个高效的Bi-Attention(二值注意力)机制,解决前向传播中二值化后的注意力机制的信息退化问题;提出方向匹配蒸馏(Direction-Matching Distillation)方法,解决后向传播中蒸馏的优化方向不匹配问题。

△图 1 BiBERT的整体框架图

BiBERT首次证明了BERT模型全二值化的可行性,在GLUE数据集上的准确性极大地超越了现有的BERT模型二值化算法,甚至超过了更高比特表示的模型。

在模型计算量和体积上,BiBERT理论上能够带来56.3倍31.2倍的FLOPs和模型尺寸的减少。

方法

Bi-Attention:二值化注意力机制

我们的研究表明,在BERT模型的注意力机制中,softmax函数得到的归一化注意力权重被视为遵循一个概率分布,而直接对其进行二值化会导致完全的信息丧失,其信息熵退化为0(见图2)。

△图 2 直接对softmax函数应用二值化导致完全的信息丧失

一个缓解这种信息退化的常用措施是,在应用sign函数之前对输入张量的分布进行移位,可以表示为:

其中,移位参数也被认为是二值化的阈值,希望能使二值化后的熵达到最大。

我们注意到,softmax函数是保序的,这意味着存在一个固定的阈值使二值化表示的信息熵最大化。

受到Hard Attention的启发[4],作者用bool函数来二值化注意力权重A:

通过应用bool函数,注意权重中值较低的元素被二值化为0,因此得到的熵值最大的注意权重可以过滤出关键部分的元素。

最终二值注意力机制可以被表示为:

其中,BV是通过sign函数二值化得到的value值,BA是二值化注意力权重,是一个精心设计的Bitwise-Affine矩阵乘法(BAMM)运算器,由和位移组成,用于对齐训练和推理表征并进行有效的位计算。

DMD: 方向匹配蒸馏

作者发现,由于注意力权重是两个二值化的激活直接相乘而得。

因此,处于决策边缘的值很容易被二值化到相反一侧,从而直接优化注意力权重常常在训练过程中发生优化方向失配问题。(见图3)

△图 3 优化方向失配

因此,作者设计了新的蒸馏方案,即针对上游的Query、Key和Value矩阵,构建相似性矩阵进行对激活的蒸馏:

其中,||·||表示L2正则化。之前的研究工作表明,以这种方式构建的矩阵被认为能够反映网络对于特定模式的语义理解,并无视尺度和数值大小影响,能够更加稳定地表示特征之间的内生相关性,更适合二值和全精度网络之间的知识传递。

因此,蒸馏损失可以表示为对隐藏层、预测结果和上述激活相似性矩阵的损失之和:

其中L表示transformer的层数,

实验

作者的实验证明了所提出的BiBERT能够出色地解决二值化BERT模型在GLUE基准数据集的部分任务上精度崩溃的问题,使模型能够稳定优化。

表1表明所提出的Bi-Attention和DMD均可以显著提升模型在二值化后的表现。

△表 1 消融实验

表2和表3中,作者展示了BiBERT优于其他BERT二值化方法,甚至优于更高比特的量化方案:

△表 2 基于BERT的二值化方法对比(无数据增强)

△表 3 基于BERT的二值化方法对比(有数据增强)

其中,50%表示要求二值化后有一半的注意力权重为0,且表中无特殊说明均采用12层的BERT模型进行量化。

此外,作者测量了在训练过程中的信息熵(见图4),作者提出的方法有效地恢复了注意力机制中完全损失的信息熵。

△图 4 训练过程中的信息熵

同时,作者绘制了训练时的loss下降曲线和准确率,BiBERT相比于基线明显更快收敛、准确性更高。

△图 5 训练时的Loss和准确率曲线

总结

作者提出的BiBERT作为第一个BERT模型的全二值化方法,为之后研究BERT二值化建立了理论基础,并分析了其性能下降的原因,针对性地提出了Bi-Attention和DMD方法,有效提高模型的性能表现。

BiBERT超过了现有的BERT模型二值化方法,甚至优于采用更多比特的量化方案,理论上BiBERT能够带来56.3倍的FLOPs减少和31.2倍的模型存储节省。

希望该的工作能够为未来的研究打下坚实的基础。

BiBERT即将基于百度飞桨开源深度学习模型压缩工具PaddleSlim开源,尽情期待。

PaddleSlim:https://github.com/PaddlePaddle/PaddleSlim

传送门
会议论文:https://openreview.net/forum?id=5xEgrl_5FAJ

Reference
[1] Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W. Mahoney, and Kurt Keutzer. Q-BERT: hessian based ultra low precision quantization of BERT. In AAAI, 2020.
[2] Ofir Zafrir, Guy Boudoukh, Peter Izsak, and Moshe Wasserblat. Q8BERT: quantized 8bit BERT. In NeurIPS, 2019.
[3] Ali Hadi Zadeh, Isak Edo, Omar Mohamed Awad, and Andreas Moshovos. GOBO: quantizing attention-based NLP models for low latency and energy efficient inference. In MICRO, 2020.
[4] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, 2015.

*本文系量子位获授权刊载,观点仅为作者所有

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Here we go!罗马诺:阿莫里姆将任曼联新帅,违约金1000万欧

Here we go!罗马诺:阿莫里姆将任曼联新帅,违约金1000万欧

懂球帝
2024-10-29 23:36:19
最新!深圳梧桐山顶那个大石头竟然是人造石!网友:被骗的好惨啊

最新!深圳梧桐山顶那个大石头竟然是人造石!网友:被骗的好惨啊

金哥说新能源车
2024-10-30 00:44:02
始料未及!考迪克坑暴雪20多年,还不如微软“大搞”一年?

始料未及!考迪克坑暴雪20多年,还不如微软“大搞”一年?

17173游戏网
2024-10-29 17:46:36
1999年我请财政局长、交通局长吃饭,一顿饭居然花了两个月工资

1999年我请财政局长、交通局长吃饭,一顿饭居然花了两个月工资

书中自有颜如玉
2024-10-29 01:16:32
郭艾伦狂砍25分救主!赛后坐地痛哭:我TM能打球!全场高呼其名字

郭艾伦狂砍25分救主!赛后坐地痛哭:我TM能打球!全场高呼其名字

篮球资讯达人
2024-10-29 22:32:46
女性老不老,看看下半身,若有这5个信号,或许离衰老不远了

女性老不老,看看下半身,若有这5个信号,或许离衰老不远了

奇妙的本草
2024-10-28 19:00:03
李彩娟严重违纪违法被查,这个医学博士精彩人生落幕了

李彩娟严重违纪违法被查,这个医学博士精彩人生落幕了

肖飞说
2024-10-29 16:44:44
WTA总决赛签表及赛程出炉:郑钦文中上签,首秀对萨巴!高芙下下签

WTA总决赛签表及赛程出炉:郑钦文中上签,首秀对萨巴!高芙下下签

求球不落谛
2024-10-30 05:28:05
幻想长出翅膀的乡村少年 终成首位90后男航天员

幻想长出翅膀的乡村少年 终成首位90后男航天员

中国青年报
2024-10-29 10:23:06
国际乒联最新世界排名:小勒布伦升至男单第五,马龙降至第六

国际乒联最新世界排名:小勒布伦升至男单第五,马龙降至第六

懂球帝
2024-10-29 16:00:44
懂球帝创始人公开信:遭投资人和对手联合做局,商标被拍走,每天吃布洛芬缓解焦虑疼痛

懂球帝创始人公开信:遭投资人和对手联合做局,商标被拍走,每天吃布洛芬缓解焦虑疼痛

三言科技
2024-10-29 21:18:08
大战一夜打响!中国收到求助信号,帮不帮?中方出动引全球轰动!

大战一夜打响!中国收到求助信号,帮不帮?中方出动引全球轰动!

史海无崖
2024-10-29 13:33:54
易建联事件或惊天反转!有一点是关键,女主与男友大量照片流出

易建联事件或惊天反转!有一点是关键,女主与男友大量照片流出

大秦壁虎白话体育
2024-10-27 16:36:56
前瞻|曼联5-0莱斯特城:滕哈赫下课冤!首秀打升班马,范尼如换刀

前瞻|曼联5-0莱斯特城:滕哈赫下课冤!首秀打升班马,范尼如换刀

体育世界
2024-10-29 13:57:28
他曾担任副总理,次子被活埋,四子反对建设三峡,小儿子含冤去世

他曾担任副总理,次子被活埋,四子反对建设三峡,小儿子含冤去世

夏目历史君
2024-10-28 18:30:58
驻港大佬在香港贪腐卖国,被调查之际,携情妇叛逃美国

驻港大佬在香港贪腐卖国,被调查之际,携情妇叛逃美国

阿胡
2023-10-20 15:54:43
解放军已经预感到,大陆收台行动前,美军可能从这一方向攻击

解放军已经预感到,大陆收台行动前,美军可能从这一方向攻击

曹兴教授TALK
2024-10-27 15:56:57
从海湾战争开始告诉我们一个无情事实:现代战争以弱胜强不可能!

从海湾战争开始告诉我们一个无情事实:现代战争以弱胜强不可能!

翻开历史和现实
2024-10-29 09:00:43
在北京的省委书记、省长等,赴国家部委座谈

在北京的省委书记、省长等,赴国家部委座谈

政知新媒体
2024-10-29 21:13:19
阴阳大师?克罗斯晒自己金球奖排名第9:哇哦,真是多谢了

阴阳大师?克罗斯晒自己金球奖排名第9:哇哦,真是多谢了

懂球帝
2024-10-29 17:58:24
2024-10-30 10:22:44
量子位
量子位
追踪人工智能动态
9521文章数 175609关注度
往期回顾 全部

科技要闻

小米SU7 Ultra预售价超80万 加速推高端化

头条要闻

牛弹琴:中东遭遇非常血腥一天 欧盟外长说出狠话

头条要闻

牛弹琴:中东遭遇非常血腥一天 欧盟外长说出狠话

体育要闻

金球先生罗德里:拒绝社媒,住大学宿舍

娱乐要闻

74岁刘晓庆被曝曾出轨小20岁男生

财经要闻

张一鸣的首富与字节的烦恼

汽车要闻

不玩越野 主打智驾豪华 豹8凭什么抢豪华市场?

态度原创

教育
亲子
旅游
艺术
公开课

教育要闻

华杯赛小学数学竞赛,求面积,别说家长很多大学生都不会

亲子要闻

奶奶在专心的哄宝宝睡觉,一转头看见宝宝睁着大眼睛笑

旅游要闻

“流放宁古塔”项目 真的能让游客满意吗?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

AI如何揭开大自然和宇宙的奥秘

无障碍浏览 进入关怀版