网易首页 > 网易号 > 正文 申请入驻

CAS-ViT:用于高效移动应用的卷积加法自注意力视觉Transformer

0
分享至


近年来,Vision Transformer(ViT)在计算机视觉领域取得了巨大突破。然而ViT模型通常计算复杂度高,难以在资源受限的移动设备上部署。为了解决这个问题,研究人员提出了Convolutional Additive Self-attention Vision Transformers (CAS-ViT),这是一种轻量级的ViT变体,旨在在效率和性能之间取得平衡。

这是8月份再arxiv上发布的新论文,我们下面一起来介绍这篇论文的重要贡献

核心创新:卷积加法token混合器(CATM)

CAS-ViT的核心创新在于提出了一种新颖的加法相似度函数,称为卷积加法token混合器(CATM)。与传统ViT中的多头自注意力机制相比,CATM大大降低了计算复杂度。

让我们来看看CATM与之前工作的对比:



  1. 传统ViT中的多头自注意力(图a):计算复杂度为O(N^2),其中N是序列长度。这在处理高分辨率图像时计算开销很大。
  2. MobileViTv2中的可分离自注意力(图b):将矩阵特征度量简化为向量,降低了复杂度。
  3. SwiftFormer中的swift自注意力(图c):将自注意力的键减少到两个(Q和K),进一步加速推理。
  4. 论文提出的卷积加法自注意力(图d):定义了一个新的相似度函数,将Q和K的上下文分数相加。

具体来说,CATM中的相似度函数定义为:

Sim(Q, K) = Φ(Q) + Φ(K)

其中Φ(·)是上下文映射函数,由基于Sigmoid的通道注意力C(·)和空间注意力S(·)具体化。CATM的输出为:

O = Γ(Φ(Q) + Φ(K)) · V

由于CATM中的操作都用卷积表示,其复杂度为O(N),大大低于传统自注意力的O(N^2)。

网络架构

CAS-ViT的整体架构如下:



主要特点包括:

  1. 4个编码阶段,每个阶段之间使用Patch Embedding进行2倍下采样。
  2. 每个阶段包含Ni个堆叠的块。
  3. 每个块包含三个部分:集成子网络、CATM和MLP,都使用残差连接。
  4. 集成子网络由3个使用ReLU激活的深度可分离卷积层组成。

通过调整通道数Ci和块数Ni,构建了一系列轻量级CAS-ViT模型。

实验结果

CAS-ViT在多个计算机视觉任务上进行了评估,包括图像分类、目标检测和语义分割。

图像分类

在ImageNet-1K数据集上的分类和计算量的对比如下:



可以看出,CAS-ViT模型(红色点)在精度和计算效率之间取得了很好的平衡。特别是XS和S变体,在参数量较少的情况下达到了很高的Top-1准确率。

目标检测和实例分割

在COCO val2017数据集上的目标检测和实例分割结果如下:



CAS-ViT作为主干网络,在RetinaNet和Mask R-CNN框架下都取得了很好的性能,尤其是在计算效率方面具有优势。

语义分割

在ADE20K数据集上的语义分割结果如下:



CAS-ViT在mIoU和计算效率之间也达到了很好的平衡。

可视化分析



热力图可视化显示,CAS-ViT能够准确定位关键区域,并获得更大的感受野,这有利于后续的密集预测任务。

消融实验



消融实验表明,CATM中的每个组件都对模型性能有重要贡献。当移除或替换某个组件时,准确率都会下降。

总结

CAS-ViT通过创新的卷积加法自注意力机制,在保持高性能的同时大大降低了计算复杂度。这使得它非常适合部署在资源受限的移动设备上,为高效移动视觉应用开辟了新的可能性。未来的工作可以探索在更大规模的数据集和模型上应用CAS-ViT,以及进一步优化其在移动设备上的部署效率。

论文地址:

https://avoid.overfit.cn/post/e7f68be55b014473a12aef501274b7b4

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东北网红身高2米26,长相貌美如花,母亲却愁:没有男孩敢追求

东北网红身高2米26,长相貌美如花,母亲却愁:没有男孩敢追求

史诗长歌
2024-11-03 07:40:03
退休老人注意了!从2025年1月起,将取消病退政策,这项补贴出台

退休老人注意了!从2025年1月起,将取消病退政策,这项补贴出台

社保小达人
2024-11-05 11:40:03
精液啥味道?竟然有人会觉得“香”有人觉得“苦”

精液啥味道?竟然有人会觉得“香”有人觉得“苦”

图灵灵2024
2024-11-04 11:43:21
世界上最伟大最邪恶的软件发明

世界上最伟大最邪恶的软件发明

码农翻身
2024-11-05 08:57:12
今起停牌!A股芯片领域,又一公司筹划重组

今起停牌!A股芯片领域,又一公司筹划重组

21世纪经济报道
2024-11-05 10:30:11
美国最新民调显示,川普优势仍在扩大,关键摇摆州数据引人注目

美国最新民调显示,川普优势仍在扩大,关键摇摆州数据引人注目

碳基生物关怀组织
2024-11-04 20:27:42
盘后突发,证券市场传来王炸消息,明天的A股剧本直接定调了!

盘后突发,证券市场传来王炸消息,明天的A股剧本直接定调了!

一丛深色花儿
2024-11-05 11:43:45
沈阳一男子将全裸女子扛出地铁?警方回应

沈阳一男子将全裸女子扛出地铁?警方回应

鲁中晨报
2024-11-05 17:55:04
传说以色列军队总参谋长哈勒维中将,被炸了!

传说以色列军队总参谋长哈勒维中将,被炸了!

星辰故事屋
2024-10-15 19:56:44
解决不了问题,就解决提出问题的人

解决不了问题,就解决提出问题的人

顾礼先生
2024-11-04 16:51:00
姜萍:别骂了,我不是骗子!

姜萍:别骂了,我不是骗子!

亚哥谈古论今
2024-11-04 19:47:08
42岁姚笛加拿大吃中餐,鼻翼变大素颜认不出,近况和文章迥然不同

42岁姚笛加拿大吃中餐,鼻翼变大素颜认不出,近况和文章迥然不同

花花lo先森
2024-11-05 11:32:15
就在明天,A股即将见证历史!

就在明天,A股即将见证历史!

付一夫
2024-11-05 07:30:28
古代专设“通房丫鬟”,主子同房要守床边,近身伺候才是重头戏!

古代专设“通房丫鬟”,主子同房要守床边,近身伺候才是重头戏!

刀刃历史
2023-10-24 20:08:15
牺牲太大了!神十八安全返航,3名航天员出舱被抬着走、脸部浮肿

牺牲太大了!神十八安全返航,3名航天员出舱被抬着走、脸部浮肿

阿霸聊事
2024-11-05 15:22:13
曾经很火,如今却“沦为笑柄”的5件家居用品,你买过几个呢?

曾经很火,如今却“沦为笑柄”的5件家居用品,你买过几个呢?

阿离家居
2024-11-04 11:07:40
被统战的瞬间,统战价值归零

被统战的瞬间,统战价值归零

求实处
2024-11-04 23:55:47
都是假大空的政策,网友吐槽不断,补贴不到位喊口号也没用!

都是假大空的政策,网友吐槽不断,补贴不到位喊口号也没用!

你食不食油饼
2024-11-04 16:41:10
战火纷飞!库尔斯克地区遭遇乌克兰军方空袭,8000名士兵陷入困境

战火纷飞!库尔斯克地区遭遇乌克兰军方空袭,8000名士兵陷入困境

世界探索者发现
2024-11-04 21:03:33
又见红毯!向佐穿女装,虞书欣暴瘦,赵露思变脸,关晓彤摇曳生姿

又见红毯!向佐穿女装,虞书欣暴瘦,赵露思变脸,关晓彤摇曳生姿

叶公子
2024-11-05 17:27:34
2024-11-05 20:36:49
deephub
deephub
CV NLP和数据挖掘知识
1488文章数 1417关注度
往期回顾 全部

科技要闻

字节跳动上半年营收直逼Meta:TikTok狂飙

头条要闻

选前“封关”民调:哈里斯领先特朗普4个百分点

头条要闻

选前“封关”民调:哈里斯领先特朗普4个百分点

体育要闻

一个想改变中国足球的日本人

娱乐要闻

周雨彤风波升级!阴阳怪气遭全网怒怼

财经要闻

超配!高盛:AH股未来一年回报率20%

汽车要闻

新款别克世纪将11月12日上市 预售价48.99万起

态度原创

旅游
亲子
教育
房产
公开课

旅游要闻

北京环球影城大巡游本周六起回归

亲子要闻

5月龄宝宝脑瘤术后肺炎 心急妈妈门诊咨询化疗效果

教育要闻

太匪夷所思了,这竟然是孩子写的

房产要闻

加急补货!三亚巨量住宅马上杀出!备案价最高飙到7万+/㎡!

公开课

AI如何揭开大自然和宇宙的奥秘

无障碍浏览 进入关怀版