当前位置：首页 > article >正文

YOLOv10改进，YOLOv10添加TransNeXt中的ConvolutionalGLU模块，CVPR2024，二次创新C2f结构

article 2025/4/2 15:28:37

在这里插入图片描述

摘要

由于残差连接中的深度退化效应，许多依赖堆叠层进行信息交换的高效视觉Transformer模型往往无法形成足够的信息混合，导致视觉感知不自然。为了解决这个问题，作者提出了一种聚合注意力（Aggregated Attention），这是一种基于仿生设计的token混合器，模拟了生物的中央凹视力和连续眼动，同时使特征图上的每个token都具有全局感知能力。此外，作者引入了可学习的token，这些token可以与传统的查询和键进行交互，从而在生成亲和矩阵时不仅仅依赖于查询和键之间的相似性。作者的方法不依赖于堆叠进行信息交换，从而有效避免了深度退化，实现了自然的视觉感知。此外，作者提出了卷积GLU（Convolutional GLU），这是一种通道混合器，填补了GLU和SE机制之间的空白，使每个token基于其最近邻的图像特征拥有通道注意力，从而增强了局部建模能力和模型的鲁棒性。作者结合聚合注意力和卷积GLU创建了一个新的视觉骨干网络，称为TransNeXt。

在这里插入图片描述

理论介绍

Convolutional GLU（卷积GLU）是一种结合了通道注意力机制和最近邻图像特征的模块，用于增强局部建模能力和模型的鲁棒性。Convolutional GLU 的设计：

GLU（Gated Linear Unit）在自然语言处理任务中表现优于多层感知器（MLP）。GLU 由两个线性投影组成，其中一个投影被激活函数门控。与 SE 机制不同，GLU 的门控信号来自于 token 本身，而不是全局平均池化。
简单地在 GLU 的门控分支的激活函数之前添加一个最小形式的 3×3深度卷积，使其结构符合基于最近邻特征的门控通道注意力设计理，称这种方法为卷积GLU。
在卷积GLU中，每个 token 都拥有基于其最近邻精细特征的独特门控信号，克服了 SE 机制中全局平均池化过于粗粒度的缺点。该设计还满足了一些不使用位置编码设计的 ViT 模型的需求，这些模型需要深度卷积提供的位置信息。
Convolutional GLU 结构图如下（摘自论文）：

理论详解可以参考链接：论文地址
代码可在这个链接找到：代码地址

下文都是手把手教程，跟着操作即可添加成功

YOLOv10改进，YOLOv10添加TransNeXt中的ConvolutionalGLU模块，CVPR2024，二次创新C2f结构

摘要

理论介绍

目录

相关文章：