当前位置: 首页 > article >正文

FcaNet: Frequency Channel Attention Networks论文解读

0摘要

注意力机制,尤其是通道注意力,在计算机视觉领域取得了巨大的成功。许多工作集中在如何设计高效的通道注意力机制,而忽略了一个基本问题,即通道注意力机制使用标量来表示通道,由于大量信息丢失,这很困难。在这项工作中,我们从不同的角度出发,将信道表示问题视为使用频率分析的压缩过程。基于频率分析,我们从数学上证明了传统的全局平均池化是频域中特征分解的特例。有了这个证明,我们自然而然地推广了信道注意力机制在频域的压缩,并提出了我们的多光谱信道注意力方法,称为 FcaNet。FcaNet 简单但有效。我们可以在计算中更改几行代码,以便在现有的 channel attention 方法中实现我们的方法。此外,与其他通道注意力方法相比,所提出的方法在图像分类、目标检测和实例分割任务上取得了最先进的结果。我们的方法可以始终优于基线 SENet,具有相同的参数数量和相同的计算成本。

1引言

        卷积神经网络 (CNN) 的注意力机制作为特征建模中一个重要且具有挑战性的问题,近年来引起了相当大的关注,并广泛应用于计算机视觉 [40] 和自然语言处理 [34] 等许多领域。原则上,它们旨在选择性地集中在一些重要信息上,并有多种类型的变体(例如,空间注意力通道注意力自我注意力)对应更改为不同的特征尺寸。由于特征建模的简单性和有效性,通道注意力直接学会了与不同通道的重视权重,成为深度学习社区流行的强大工具。

        通常,由于计算开销有限,通道注意力方法的核心步骤是为每个通道使用标量来进行计算,而全局平均池化 (GAP) 因其简单性和效率而成为深度学习社区事实上的标准选择。然而,每朵玫瑰都有它的刺。GAP 的简单性使其难以很好地捕获各种输入的复杂信息。一些方法,如 CBAM [39] 和 SRM [23] 进一步使用全局最大池化和全局标准差池化来提高 GAP 的性能。与以前的工作不同,我们将通道的标量表示视为一个压缩问题。即,一个通道的信息应该用标量紧凑编码,同时尽可能保留整个通道的表示能力。这样,如何有效地用由于计算开销受限,标量是一个主要困难,并且对于引导注意力至关重要。

        基于上述动机,我们建议使用离散余弦变换 (DCT) 来压缩通道注意力机制中的通道,原因如下:1) DCT 是信号处理中广泛使用的数据压缩方法,尤其是数字图像和视频。许多广泛使用的图像和视频格式,如 JPEG、HEIF、MPEG 和 H.26x 都使用 DCT 来实现数据压缩。DCT 具有很强的能量压缩性能 [1, 30],因此它可以实现高质量的高数据压缩率 [2, 22]。此属性满足表示具有标量的通道的通道 attention 的需求。2) DCT 可以通过元素乘法来实现,并且它是可微分的。通过这种方式,它可以很容易地集成到 CNN 中。3) 令人惊讶的是,DCT 可以被视为 GAP 的泛化。从数学上讲,GAP(在 SENet [21] 中显示有效性)仅等同于 DCT 的最低频率分量,而许多其他可能有用的频率分量尚未探索。这强烈地激励我们为渠道注意力机制定制 DCT。

        在本文中,基于上述讨论,我们进一步提出了一种简单、新颖但有效的多光谱通道注意力 (MSCA) 框架。为了更好地压缩通道并探索 GAP 遗漏的成分,我们建议定制 DCT,并使用 DCT 的多个但有限频率的分量作为通道注意力机制。请注意,尽管我们使用多光谱通道注意力,但每个通道仍然只由一个标量表示。除了 MSCA 框架,如何为每个通道选择 DCT 的频率分量也很重要。通过这种方式,我们提出了三种频率分量选择标准来满足和验证 MSCA 框架,即 LF (Low Frequency based selection)、TS (Two-Step selection) 和 NAS (Neural Architecture Search selection)。有了这些选择标准,我们的方法与其他渠道的注意力相比取得了最先进的性能。

        总之,这项工作的主要贡献可以概括如下。

  1. 我们将通道注意力视为一个压缩问题,并在通道注意力中引入 DCT。然后,我们证明传统 GAP 是 DCT 的一个特例。基于这个证明,我们在频域中推广了信道注意力,并提出了我们的多光谱信道注意力框架的方法,称为 FcaNet。
  2. 我们提出了三种频率分量选择标准以及提出的多光谱信道注意力框架来实现 FcaNet。
  3. 广泛的实验证明了所提出的方法在 ImageNet 和 COCO 数据集上都获得了最先进的结果,计算成本与 SENet 相同。ImageNet 上的结果如图 1 所示。

2相关工作

CNN 中的注意力机制 在 [40] 中,首先提出了一种视觉注意方法来模拟图像标题任务中特征的重要性。然后很多方法开始关注注意力机制。该文提出了一种残差注意力网络[35],该网络采用下采样和上采样的空间注意力机制。此外,SENet [21] 提出了通道注意力机制。它对通道执行 GAP,然后使用全连接层计算每个通道的权重。此外,GE [20] 利用空间注意力更好地利用特征上下文,而 A2-Net [7] 构建了用于图像或视频识别的关系函数。

        受这些作品的启发,提出了一系列作品,如 BAM [28]、DAN [9]、CBAM [39]、scSE [32] 和 CoordAttention [19],以融合空间注意力 [45] 和引导注意力。其中,CBAM 声称 GAP 由于信息丢失,只能获得次优功能。为了解决这个问题,它同时使用了 GAP 和全局最大池化,并获得了显著的性能改进。同样,SRM [23] 也建议将 GAP 与全局标准差池化一起使用。受 CBAM 的启发,GSoP [11] 引入了一种用于降采样的二阶池化方法。NonLocal [37] 提议构建一个密集的空间特征图。AANet [3] 提议将带有位置信息的注意力图嵌入到特征中。SkNet [24] 引入了一种选择性通道聚合和注意力机制,ResNeSt [42] 提出了一种类似的分离注意力方法。由于注意力操作复杂,这些方法都比较大。为了提高效率,GCNet [4] 提议使用一个简单的空间注意力模块,并取代原来的空间下采样过程。ECANet [36] 引入了一维卷积层,以减少全连接层的冗余并获得更高效的结果。

        除了这些工作之外,许多方法都试图将注意力机制扩展到特定的任务,如多标签分类 [14]、显著性检测 [44]、视觉解释 [10] 和超分辨率 [43]。

频域学习 频率分析一直是信号处理领域的强大工具。近年来,在深度学习领域出现了一些引入频率分析的应用。在 [8, 13] 中,频率分析是通过 JPEG 编码引入 CNN 的。然后,将 DCT 合并到 [41] 中以减少通信带宽。在模型压缩和修剪任务中也有一些应用,如 [6, 27, 38]。

3方法

        在本节中,我们首先回顾了 DCT 和渠道注意力的公式。然后,基于这些工作,我们详细阐述了我们的多光谱通道注意力框架的推导。同时,结合多谱信道注意力框架,提出了 3 种频率分量选择方法。

3.1. 重新审视 DCT 和渠道注意力

3.2. 多光谱通道注意力

4实验

4.1实现细节

4.2消融研究

4.3讨论

4.4在imagenet上的图像分类

4.5在mscoco上的目标检测

4.6在mscoco上的实例分割

5总结


http://www.kler.cn/a/422202.html

相关文章:

  • MySQL如何区分幻读和不可重复读
  • 纯粹直播 1.7.7 |手机版和TV版,聚合六大直播平台,原画播放
  • (一)Linux下安装NVIDIA驱动(操作记录)
  • qt QToolBox详解
  • Meta-Llama-3-8B-Instruct 模型的混合精度训练显存需求:AdamW优化器(中英双语)
  • 【python】列表
  • CentOS7 虚拟机 双网卡绑定
  • 爬虫第四篇:Xpath 路径表达式全解析:从网页基础到爬取百度贴吧图片实战
  • protobuf使用说明
  • html+css网页设计马林旅行社移动端4个页面
  • Python Web 开发 FastAPI 入门:从基础架构到框架比较
  • Go 语言函数编程指南:定义、调用技巧与返回值机制
  • 40分钟学 Go 语言高并发:基准测试编写
  • 项目开发规范
  • 论文:IoU Loss for 2D/3D Object Detection
  • 明明的随机数
  • FPGA实战篇(触摸按键控制LED灯)
  • Mock.js的学习使用
  • 5G学习笔记之随机接入
  • 基于Java Springboot校园导航微信小程序
  • 658.找到K个最接近的元素(双指针)
  • 【深度学习】—CNN卷积神经网络 从原理到实现
  • 社区团购中 2+1 链动模式商城小程序的创新融合与发展策略研究
  • Linux 网卡收包流程如下
  • 手机ip地址取决于什么?可以随便改吗
  • 20240921解决使用PotPlayer在WIN10电脑播放4K分辨率10bit的视频出现偏色的问题