当前位置: 首页 > article >正文

[Backbone]CAS-ViT: Convolutional Additive Self-attention Vision Transformers

1. BaseInfo

TitleCAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications
Adresshttps://arxiv.org/pdf/2408.03703
Journal/Time202408
Author清华
Codehttps://github.com/Tianfang-Zhang/CAS-ViT
Read20240829
TableVisonTransformer

2. Creative Q&A

  1. ViT 矩阵运算计算量大 -> CAS-ViT: Convolutional Additive Self-attention Vision Transformers 平衡效率和结果,轻量化的 backbone
    是 ViT 的进一步改版,可以应用在 image classfication、object detection 、 instance segmentation 、 semantic segmentation
    主要的创新在注意力模块。

3. Concrete

3.1. Model

在这里插入图片描述
a 是经典多头注意力
b 是 MobileViTv2 ,将最后的 NxN 矩阵变为了 1xC 的向量
c 是 SwiftFormer,去掉 V
d 是本文提出的卷积加和注意力,对空间和通道做了融合。
在这里插入图片描述
以分类为例。
下采样 4、8、16、32。
主要有 3 个部分,Integration subnet(借鉴 SwiftFormer 由 ReLU 激活的 3 个卷积层 ), CATM and MLP.

CATM 中的 空间和通道提取特征部分
SpatialOperation 只处理一个通道,为输入特征图的每个位置赋予了不同的权重
ChannelOperation, 它为输入特征图的每个通道赋予了不同的权重

3.1.1. Input

图片

3.1.2. Backbone

ModelParas(M)
CAS-ViT-XS3.20
CAS-ViT-S5.76
CAS-ViT-M12.42
CAS-ViT-T21.76

3.2. Training

3.2.1. Resource

16 V100 GPUs

3.2.2 Dataset

  • ImageNet-1K
  • ADE20K
  • COCO val2017
    几个经典数据集

3.3. Eval

  • ImageNet-1K Classification
    在这里插入图片描述
  • Semantic segmentation result on ADE20K
    在这里插入图片描述
  • Object detection and instance segmentation performance on COCO val2017
    在这里插入图片描述

3.4. Ablation

  1. CATM 的有效性
  2. 空间和通道注意力的有效性
  3. Q 和 K 的不同

在这里插入图片描述

4. Reference

  1. CNN-ViT 混合 [1] HATAMIZADEH A, HEINRICH G, YIN H, et al. FasterViT: Fast Vision Transformers with Hierarchical Attention[J]. 2023.
  2. PVTv2 [2] WANG W, XIE E, LI X, et al. PVT v2: Improved baselines with Pyramid Vision Transformer[J/OL]. Computational Visual Media, 2022: 415-424. http://dx.doi.org/10.1007/s41095-022-0274-8. DOI:10.1007/s41095-022-0274-8.
  3. FLatten Transformer: Vision Transformer using Focused Linear Attention 关注线性注意力模块 Focused Linear Attention
  4. EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers
  5. EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
  6. SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications
  7. EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers

5. Additional

代码挺简单的,主要看 CAS-ViT/classification/model/rcvit.py
实验部分的实验设置写的也挺详细。因为重点不在这就略过不写了。
Limitation 收敛速度快但可能模型越大或者数据集越大效果就不太好了。
结构确实简,参数量很小,试一下效果。


http://www.kler.cn/a/282251.html

相关文章:

  • 1 设计模式原则之开闭原则
  • Redis 5 种基本数据类型详解
  • 详细分析ip addr show 查看网络配置的命令
  • 大数据-226 离线数仓 - Flume 优化配置 自定义拦截器 拦截原理 拦截器实现 Java
  • 鸿蒙中如何实现图片拉伸效果
  • 录的视频怎么消除杂音?从录制到后期的杂音消除攻略
  • 【SpringCloud应用框架】GateWay网关
  • 微信小程序:手机联调同一个网段无法找到本地接口
  • Kali学习(ms17-010、ms08-067漏洞复现)
  • 直线公理使初等数学一直将各异直线误为同一线 ——数集相等定义凸显初数一直将各异假R误为R
  • 《C++模板元编程:编程世界的魔法艺术》
  • Leetcode 第 408 场周赛题解
  • Nginx实验-2
  • react native框架之 保存二维码方法
  • 学习记录——day40- 类中特殊的成员函数
  • 【C++ 面试 - 内存管理】每日 3 题(八)
  • 系统中没有安装 git
  • 鸿蒙南向开发:测试框架xdevice核心组件
  • pnpm国内源设置
  • 苹果手机系统修复如何操作,几种iOS系统修复办法分享
  • Oracle(89) 什么是等待事件(Wait Event)?
  • mysql-day03
  • 行为型设计模式-观察者(observer)模式
  • 机器学习/数据分析--通俗语言带你入门随机森林,并用随机森林进行天气分类预测(Accuracy为0.92)
  • Nginx中设置服务器备用(backup)状态的策略与实践
  • 16. 结构体占内存大小是怎么计算的,有哪些原则?