当前位置：首页 > article >正文

YOLOv9改进，YOLOv9引入CAS-ViT（卷积加自注意力视觉变压器）中AdditiveBlock模块，二次创新RepNCSPELAN4结构

article 2024/11/30 8:24:57

在这里插入图片描述

摘要

CAS-ViT 是一种为高效移动应用设计的视觉Transformer。模型通过结合卷积操作与加性自注意机制，在保持高性能的同时显著减少计算开销，适合资源受限的设备如手机。其核心组件 AdditiveBlock 通过多维度信息交互和简化的加性相似函数，实现了高效的上下文信息整合，避免了传统多头自注意机制（MSA）的复杂运算。
在这里插入图片描述

# 理论介绍

AdditiveBlock 模块结合了卷积操作与加性自注意机制，以提升视觉任务的性能与计算效。AdditiveBlock 的设计如下：

多信息交互：CAS-ViT 认为Token Mixer 获取全局上下文信息的能力依赖于多维度的信息交互，包括空间和通道域。
加性相似函数：引入一种新颖的加性相似函数，通过简单高效的操作实现上下文信息的整合，避免复杂的矩阵运算。

AdditiveBlock 包含 Integration 子网、CATM 和 MLP 三个部分，并使用残差连接。Integration子网由三个 ReLU 激活的深度卷积层组成。通过调整通道数和块的数量，形成了轻量级的ViT模型族。
CAS-ViT结构如下图（摘自论文）：

在这里插入图片描述

理论详解可以参考链接：论文地址
代码可在这个链接找到：代码地址
下文都是手把手教程，跟着操作即可添加成功

YOLOv9改进，YOLOv9引入CAS-ViT（卷积加自注意力视觉变压器）中AdditiveBlock模块，二次创新RepNCSPELAN4结构

摘要

# 理论介绍

目录

相关文章：