网易首页 > 网易号 > 正文 申请入驻

Self-Attention 加速方法一览:ISSA、CCNet、CGNL、Linformer

0
分享至

Attention 机制最早在NLP 领域中被提出,基于attention 的transformer结构近年在NLP的各项任务上大放异彩。在视觉任务中,attention也收到了很多的关注,比较有名的方法包括Non-Local Network,能够在时空volume中对全局的关系进行建模,获得了很好的效果。但视觉任务中的self-attention模块通常需要进行大矩阵的矩阵乘法,显存占用大且比较耗时。所以近年有许多优化self-attention模块速度的方法,这篇笔记主要讨论几篇相关方法,有错误之处欢迎指正。

Self-Attention 简介

Attention 机制通常可以表达为如下的形式

其中, 为query, 为key, 为value。从检索任务的角度来看,query是要检索的内容,key是索引,value则是待检索的值。attention的过程就是计算query 和key之间的相关性,获得attention map,再基于attention map去获得value中的特征值。而在如下图所示的self-attention中,Q K V均为同一个feature map。

上图是一个self-attention模块的基本结构,输入为 , 分别通过1x1卷积获得 。则可以获得attention map为 。最后与 做矩阵乘法获得与输入shape想同的self-attention feature map。

在self-attention中,计算量和显存占用比较大的主要是生成attention map时的 和 最后的 两个步骤。对于64大小的feature map, 的大小为 。因此,self-attention 模块通常放在分辨率较低的网络后半段特征。

如何了优化attention的显存和计算量效率内,今天介绍的方法主要有两个方向的思路:

  • 改变attention的形式,避免直接全图attention

    • Long + Short range attention:Interlaced Sparse Self-Attention

    • 水平+垂直attention:Ccnet: Criss-cross attention for semantic segmentation

    • A2-Nets: Double Attention Networks

  • 降低attention计算过程中的某个维度

    • 降低N维度:Linformer: Self-Attention with Linear Complexity

    • 降低C维度:常用方法了,通常就是C/2 或者C/4

  • 其他

    • 优化GNL:Compact generalized non-local network


Attention 形式优化

ISSA: Interlaced Sparse Self-Attention

  • 论文基本思路: 这篇论文的基本思路是“交错”。如下图所示,首先通过permute将feature以一定规律打乱,然后将feature map分为几个块分别做self-attention,这样获得的是long-range 的attention信息;此后,再进行一次permute还原回原来的特征位置,再次进行分块attention,获得了short-range 的attention。通过拆解long/short range的attention,能够大大降低计算量。

  • 具体的性能表现如下图所示,可以看出,下降最明显的是显存的占用,主要是因为避免了attention过程中的大矩阵。而由于permute,divide等操作虽然不占flop,但是在inference的时候需要一定的时间,所以实际速度没有flops提升的那么多。不过总体而言,在效果没有明显下降的前提下,这个速度/显存的优化已经很优秀了。

  • 这篇文章在看的时候感觉既视感好强,后来想到这不就是hw上的shufflenet嘛。

CCNet: Criss-cross attention for semantic segmentation

  • 论文主要思路: 区别与Non-Local 中的全局attention,这篇文章提出只在特征点所对应的十字上进行attention。从而将复杂度从 降低到

  • CCNet 的具体做法是,对于 上的一个点 ,我们都可以得到对应的特征向量 ,对于这个点对应的十字形区域,我们可以从 中提取对应的特征,构成 ,针对 和 进行矩阵乘法,则可以得到attention map 为 。最后对 以同样的方式提取十字形特征并进行矩阵乘法,则可以得到最后的结果。

  • 那么如何从十字attention过渡到全局attention呢,方法其实很简单,只需要做两次十字attention,每个点就可以获得全局的信息了。

  • CCNet 的理论计算量(Flops and memory)比起Non-Local 是很有优势的。但是提取十字形特征这一步的效率可能并不是很高,论文中也并没有放出具体的代码实现。

A2-Nets: Double Attention Networks

  • 这篇论文的attention 方式看下图即可

  • 第一个 feautre gathering,可以理解为对每个channel,softmax找到最重要的位置,再去gathering所有channel上这个最重要位置上的特征;得到 CxC

  • 第二个 feautre distribution,可以理解为对每个channel,softmax找到最重要的位置,然后给每个channel的这个位置都分配一遍特征。

  • 这篇文章的attention 方式很有趣,值得仔细琢磨一下的。不过速度方面比起NL应该没有提升特别多。


Attention 维度优化

Linformer: Self-Attention with Linear Complexity

  • Attention的过程如上所说,可以看作是 ,这篇文章对N做降维,将attention 转化为 ,在K是定值的情况下,既将复杂度从 降低到了

  • 这篇文章大部分的篇幅,是在证明这样降低维度和原来的结果是近似的,没看太懂证明部分

  • 实验部分,K取得越大效果越好,但是并不明显。即降维会非常略微地影响效果,同时非常有效地提升速度。


其他

CGNL: Compact generalized non-local network

这篇文章主要是来优化一种计算量更大的Self-attention方法:Generalized Non-local (GNL)。这种方法不仅做H W两个spatial尺度上的non-local attention,还额外考虑了C维度。因此复杂度是 。

这篇文章的主要思路是:利用泰勒展开,将 近似成了 。从而可以通过先计算后两项,将复杂度从 降低到了

  • 这篇文章在视频理解、目标检测等任务上的实验效果都还不错,但是并没有给出速度方面的实验结果和分析。

来源:知乎

作者:林天威

深延科技|

深延科技成立于2018年1月,中关村高新技术企业,是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础,公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全卖光了,贵州一家人套现42亿,把麻烦留给了9万股民

全卖光了,贵州一家人套现42亿,把麻烦留给了9万股民

蜉蝣说
2024-11-12 17:00:01
1914年,阎锡山纳14岁小妾,圆房后,阎:你的任务只是传宗接代!

1914年,阎锡山纳14岁小妾,圆房后,阎:你的任务只是传宗接代!

百态人间
2024-11-12 16:34:08
男篮玻璃人?1800万赵睿刚复出又倒下 被搀扶离场新疆亏大吗

男篮玻璃人?1800万赵睿刚复出又倒下 被搀扶离场新疆亏大吗

厝边人侃体育
2024-11-16 20:44:41
特朗普第二个正式宣布来了,被中国制裁的蓬佩奥彻底凉凉

特朗普第二个正式宣布来了,被中国制裁的蓬佩奥彻底凉凉

趣说世界哈
2024-11-15 11:28:24
棱镜门事件内幕,美国派16名特种兵进入澳门,斯若登命运扭转!

棱镜门事件内幕,美国派16名特种兵进入澳门,斯若登命运扭转!

板栗说事
2024-10-13 12:40:43
刘少奇长子刘允斌,娶了苏联美女科学家,孙女是中央电视台主持人

刘少奇长子刘允斌,娶了苏联美女科学家,孙女是中央电视台主持人

历史龙元阁
2024-11-15 22:17:48
全红婵家乡投资326万元修建大桥,婵宝几乎承担一半的资金!

全红婵家乡投资326万元修建大桥,婵宝几乎承担一半的资金!

爱论历史
2024-11-16 08:40:02
杨绛:以前觉得喜欢谁,就对谁好;现在谁对你好,你就应该喜欢谁

杨绛:以前觉得喜欢谁,就对谁好;现在谁对你好,你就应该喜欢谁

清风拂心
2024-11-12 11:08:29
73球,维尔贝克是单赛季英超进球数从未上双球员中进球最多的

73球,维尔贝克是单赛季英超进球数从未上双球员中进球最多的

懂球帝
2024-11-16 01:16:09
不离不弃!拜仁官方:23岁女足门将患恶性肿瘤,已与其续约至2026

不离不弃!拜仁官方:23岁女足门将患恶性肿瘤,已与其续约至2026

直播吧
2024-11-16 18:19:52
“古装丑男”还爱炒CP?本就辣眼睛的画面更是雪上加霜...

“古装丑男”还爱炒CP?本就辣眼睛的画面更是雪上加霜...

8号风曝
2024-11-15 21:08:34
刘丹凭《乘船而去》获金鸡奖最佳女配角

刘丹凭《乘船而去》获金鸡奖最佳女配角

澎湃新闻
2024-11-16 19:58:28
笑麻了,养宠物千万别养一公一母!已笑晕在养宠物网友的评论区

笑麻了,养宠物千万别养一公一母!已笑晕在养宠物网友的评论区

晴晴给你讲故事
2024-11-15 16:21:21
教育部:没有“第一学历”!

教育部:没有“第一学历”!

柳叶刀学术
2024-11-14 21:31:38
对中国出手,特朗普团队莱特希泽的“关税计划”,传疯了!

对中国出手,特朗普团队莱特希泽的“关税计划”,传疯了!

魏家东
2024-11-16 08:14:25
太惨了!孩子还有两天就满月了,却死在月子中心,事发东莞厚街

太惨了!孩子还有两天就满月了,却死在月子中心,事发东莞厚街

水晶的视界
2024-11-16 17:26:37
文胖:锡安现在两个腿筋都伤了 两个腿筋分别结束了他前两个赛季

文胖:锡安现在两个腿筋都伤了 两个腿筋分别结束了他前两个赛季

直播吧
2024-11-16 16:54:27
饿了么创始人张旭豪:33岁将公司卖给马云套现665亿,如今怎样了

饿了么创始人张旭豪:33岁将公司卖给马云套现665亿,如今怎样了

惠然观史
2024-11-16 08:00:33
姜文:“我女儿世界第一美”,原以为是吹牛,照片流出惊艳网友

姜文:“我女儿世界第一美”,原以为是吹牛,照片流出惊艳网友

老埘谈历史
2024-11-07 15:09:24
男保姆照顾52岁阿姨,4个月后阿姨身体不适,女儿发现真相后愣住

男保姆照顾52岁阿姨,4个月后阿姨身体不适,女儿发现真相后愣住

红豆讲堂
2024-10-21 15:16:52
2024-11-16 22:44:49
深兰深延AI
深兰深延AI
让AI赋能更简单!
71文章数 0关注度
往期回顾 全部

科技要闻

杨植麟:每月有3600万用户在使用kimi

头条要闻

美籍老人找到中国失散近百年的亲人后代:相约明年见

头条要闻

美籍老人找到中国失散近百年的亲人后代:相约明年见

体育要闻

双手沾满鲜血的童年,塑造了NBA最拼命的球员

娱乐要闻

金鸡奖:赵丽颖未获奖,王骁拿奖

财经要闻

中铁七局致歉!对5人就地免职

汽车要闻

越野拉满 东风猛士917高地雄狮售69.9万元

态度原创

教育
时尚
本地
手机
公开课

教育要闻

学生质问学校没钱修宿舍,钱去了哪里?教育局回复耐人寻味

时尚女性秋季穿衣从不发愁,试试这27套穿搭,每周穿搭不重复

本地新闻

重庆记忆|山城特色“过山车”上天入地穿花海

手机要闻

努比亚Z70 Ultra性能大升级,AI交互新提升

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版