MCA:用于图像识别的深度卷积神经网络中的多维协同注意力
摘要
大量先前的研究已经表明,注意力机制在提高深度卷积神经网络(CNNs)性能方面具有巨大潜力。然而,现有的大多数方法要么忽略了在通道和空间维度上同时建模注意力,要么引入了更高的模型复杂度和更重的计算负担。为了缓解这一困境,本文提出了一种轻量级且高效的多维协同注意力(MCA)机制,这是一种使用三分支架构几乎不增加额外开销的同时在通道、高度和宽度维度上推断注意力的新方法。对于MCA的核心组件,我们不仅开发了一种自适应组合机制,用于在压缩变换中融合双跨维度特征响应,从而增强特征描述符的信息性和判别性,还在激励变换中设计了一种门控机制,该机制自适应地确定交互作用的覆盖范围以捕获局部特征交互,从而克服了性能和计算开销权衡之间的矛盾。我们的MCA方法简单且通用,可以轻松地作为即插即用模块插入各种经典CNN中,并可以与原始网络以端到端的方式进行训练。在CIFAR和ImageNet-1K数据集上的图像识别的大量实验结果证明了我们的方法相对于其他最先进(SOTA)方法的优越性。此外,我们还通过可视化GradCAM++结果直观地了解了MCA的实际益处。代码可在https://github.com/ndsclark/MCANet上获取。
1 引言
卷积神经网络(CNNs)因其强大的表示能力而在计算机视觉领域得到了普遍应用,其不断发展也不断