当前位置: 首页 > article >正文

YOLOv10改进,YOLOv10添加TransNeXt中的ConvolutionalGLU模块,CVPR2024,二次创新C2f结构


在这里插入图片描述


摘要

由于残差连接中的深度退化效应,许多依赖堆叠层进行信息交换的高效视觉Transformer模型往往无法形成足够的信息混合,导致视觉感知不自然。为了解决这个问题,作者提出了一种聚合注意力(Aggregated Attention),这是一种基于仿生设计的token混合器,模拟了生物的中央凹视力和连续眼动,同时使特征图上的每个token都具有全局感知能力。此外,作者引入了可学习的token,这些token可以与传统的查询和键进行交互,从而在生成亲和矩阵时不仅仅依赖于查询和键之间的相似性。作者的方法不依赖于堆叠进行信息交换,从而有效避免了深度退化,实现了自然的视觉感知。此外,作者提出了卷积GLU(Convolutional GLU),这是一种通道混合器,填补了GLU和SE机制之间的空白,使每个token基于其最近邻的图像特征拥有通道注意力,从而增强了局部建模能力和模型的鲁棒性。作者结合聚合注意力和卷积GLU创建了一个新的视觉骨干网络,称为TransNeXt。

在这里插入图片描述


理论介绍

Convolutional GLU(卷积GLU) 是一种结合了通道注意力机制和最近邻图像特征的模块,用于增强局部建模能力和模型的鲁棒性。Convolutional GLU 的设计:

  • GLU(Gated Linear Unit)在自然语言处理任务中表现优于多层感知器(MLP)。GLU 由两个线性投影组成,其中一个投影被激活函数门控。与 SE 机制不同,GLU 的门控信号来自于 token 本身,而不是全局平均池化。
  • 简单地在 GLU 的门控分支的激活函数之前添加一个最小形式的 3×3深度卷积,使其结构符合基于最近邻特征的门控通道注意力设计理,称这种方法为卷积GLU。
  • 在卷积GLU中,每个 token 都拥有基于其最近邻精细特征的独特门控信号,克服了 SE 机制中全局平均池化过于粗粒度的缺点。该设计还满足了一些不使用位置编码设计的 ViT 模型的需求,这些模型需要深度卷积提供的位置信息。
    Convolutional GLU 结构图如下(摘自论文):
    在这里插入图片描述

理论详解可以参考链接:论文地址
代码可在这个链接找到:代码地址

下文都是手把手教程,跟着操作即可添加成功


目录

  • 摘要
  • 理论介绍

http://www.kler.cn/a/413828.html

相关文章:

  • 软路由设置ip地址实现一机一IP
  • 简释下oracle的set define的使用场景
  • 最小生成树-Prim与Kruskal算法
  • 本地推流,服务器拉流全流程
  • 【ComfyUI】前景分割ComfyUI-BiRefNet-Hugo (无法选定分割的主体,背景鉴别由模型数据,也叫二分分割,显著性分割)
  • mysql in查询大数据量业务无法避免情境下优化
  • TypeScript 字面量类型与类型别名
  • Sqoop的安装和配置,Sqoop的数据导入导出,MySQL对hdfs数据的操作
  • AWS EC2设置用户名密码登录
  • 通过 SSH 进行WordPress网站的高级服务器管理
  • Android 16 开发者预览版抢先使用
  • 字节跳动青训营刷题笔记19
  • TDengine在debian安装
  • 【C++】C++新增特性解析:Lambda表达式、包装器与绑定的应用
  • 110KV地区变电站电气设计
  • LeetCode 3101. 交替子数组计数
  • ubuntu+ROS推视频流至网络
  • 源码分析Openlayers默认键盘交互实现
  • 记录pbootcms提示:登录失败:表单提交校验失败,请刷新后重试的解决办法
  • ATTCK红队评估实战靶场(二)
  • 可迭代(Iterable)对象与对应的迭代器(Iterator)对象
  • SQL常见面试题(四)
  • Zemax孔径类型
  • 模型输出可保存为数据集、支持配置社区活动作为课程作业|ModelWhale 版本更新
  • 说说 Redis 常用命令
  • 多线程(2)线程创建的两种方法