当前位置: 首页 > article >正文

YOLOv9改进,YOLOv9引入CAS-ViT(卷积加自注意力视觉变压器)中AdditiveBlock模块,二次创新RepNCSPELAN4结构


在这里插入图片描述


摘要

CAS-ViT 是一种为高效移动应用设计的视觉Transformer。模型通过结合卷积操作与加性自注意机制,在保持高性能的同时显著减少计算开销,适合资源受限的设备如手机。其核心组件 AdditiveBlock 通过多维度信息交互和简化的加性相似函数,实现了高效的上下文信息整合,避免了传统多头自注意机制(MSA)的复杂运算。
在这里插入图片描述


# 理论介绍

AdditiveBlock 模块结合了卷积操作与加性自注意机制,以提升视觉任务的性能与计算效。AdditiveBlock 的设计如下:

  • 多信息交互:CAS-ViT 认为Token Mixer 获取全局上下文信息的能力依赖于多维度的信息交互,包括空间和通道域。
  • 加性相似函数:引入一种新颖的加性相似函数,通过简单高效的操作实现上下文信息的整合,避免复杂的矩阵运算。

AdditiveBlock 包含 Integration 子网、CATM 和 MLP 三个部分,并使用残差连接。Integration子网由三个 ReLU 激活的深度卷积层组成。通过调整通道数和块的数量,形成了轻量级的ViT模型族。
CAS-ViT结构如下图(摘自论文):

在这里插入图片描述

理论详解可以参考链接:论文地址
代码可在这个链接找到:代码地址
下文都是手把手教程,跟着操作即可添加成功


目录

  • 摘要
  • # 理论介绍
  • 🎓一、YOLOv9原始版本代码下载
    • 🍀🍀1.yolov9模型结构图
    • 🍀🍀2.环境配置
  • 🎓二、AdditiveBlock代码
  • 🎓三、添加方法
  • <

http://www.kler.cn/a/415365.html

相关文章:

  • Idea 2024.3 突然出现点击run 运行没有反应,且没有任何提示。
  • 【机器学习】机器学习的基本分类-监督学习-逻辑回归(Logistic Regression)
  • 我的工作知识总览
  • 2024年11月29日deepin 23 更新公告
  • 命令行应用开发入门指南:从脚手架搭建到UI库与交互增强
  • Docker pull镜像拉取失败
  • TCGA 编码格式解读 | 怎么区分是不是肿瘤样品?
  • Langchain 实现 RAG
  • 韩国集运小卡业务:价格、包装、速度下的双赢策略
  • 用户该怎么管理维护自己的服务器?
  • Flink CDC Connector开发指南:逻辑复制协议实战与性能优化
  • React Native学习笔记(三)
  • uniapp实现小程序的版本更新
  • 深度学习1:从图像识别到自动驾驶:深度学习如何引领未来出行新趋势?
  • 视频流媒体服务解决方案之Liveweb视频汇聚平台
  • 【mysql】字段区分大小写,设置字符集SET utf8mb4 COLLATE utf8mb4_bin
  • Mysql--报表业务处理
  • uniapp连接mqtt频繁断开原因和解决方法
  • 滑动窗口讲解(c基础)
  • 《算法导论》英文版前言To the teacher第3段研习录:题海战术有没有?
  • 量化交易系统开发-实时行情自动化交易-4.4.1.做市策略实现
  • git merge :开发分支与主分支的交互
  • FTP介绍与配置
  • 【论文复现】上下位关系自动检测方法
  • 离线安装 Docker-IO:详细步骤指南
  • 非telnet方式测试端口状态