当前位置：首页 > article >正文

【CVPR 2025】局部区域自注意力LASA，用重叠补丁增强区域特征交互，即插即用！

article 2025/3/18 10:11:23

一、论文信息

论文题目：ATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution

中文题目：CATANet：轻量级图像超分辨率的高效内容感知标记聚合

论文链接：https://arxiv.org/pdf/2503.06896

官方github：https://github.com/EquationWalker/CATANet/tree/main

所属机构：南京大学软件新技术国家重点实验室

核心速览：本文提出了一种名为CATANet的轻量级图像超分辨率网络，该网络通过内容感知的标记聚合模块有效捕获长距离依赖关系，同时保持高效的推理速度。

二、论文概要

Highlight

图1. 在Urban100数据集上，放大因子×2的性能与模型复杂度比较。

图6. CATANet与其他先进轻量级超分辨率方法的视觉比较。各项指标（PSNR/SSIM）是在每个贴片上计算的。最佳和次佳结果分别用红色和蓝色标记。

1. 研究背景:

研究问题：图像超分辨率（SR）旨在从低分辨率（LR）图像中恢复出高分辨率（HR）图像。这一任务在计算机视觉和图像处理领域具有重要意义，广泛应用于医疗成像、数字摄影和流媒体传输等领域。然而，现有的基于卷积神经网络（CNN）的方法在捕捉全局依赖性方面存在局限性，导致需要非常深和复杂的网络结构来提高性能，这增加了计算资源的消耗，限制了它们的应用范围。
研究难点：尽管基于Transformer的方法在捕捉长距离依赖关系方面表现出色，但其计算复杂度随着空间分辨率的提高而呈二次方增长。为了解决这一问题，一些研究尝试将低分辨率图像划分为局部窗口、轴向条纹或扩张窗口进行处理。然而，这些方法仅限于在内容无关的局部区域进行注意力计算，限制了注意力捕捉长距离依赖的能力。此外，基于聚类的方法如SPIN虽然在长距离信息传播方面取得了一定效果，但其稀疏的图像标记表示和在推理阶段对聚类中心的迭代处理限制了其推理速度。
文献综述：文章提到了基于深度学习的SR方法，如SRCNN首次成功将CNN应用于SR领域，以及后续使用残差连接和U型架构的CNN方法。此外，还提到了引入注意力机制的SR方法，例如RACN、CSFM和DAT，它们利用通道注意力或空间和通道注意力的结合。最近，基于Transformer的方法如SwinIR刷新了SR领域的最新成果，展示了Transformer强大的表示学习能力。

2. 本文贡献:

内容感知标记聚合网络（CATANet）：提出了一种轻量级图像超分辨率网络CATANet，该网络通过内容感知标记聚合模块（CATA）聚合长距离内容相似的标记，共享图像标记的中心，并在训练阶段更新这些中心。此外，利用组内自注意力（Intra-Group Self-Attention）实现长距离信息交互，以及设计组间交叉注意力（Inter-Group Cross-Attention）进一步增强全局信息交互。
高效内容感知标记聚合模块（CATA）：CATA模块通过平均池化获得初始标记中心，并在训练阶段使用指数移动平均（EMA）更新这些中心。图像标记被划分为基于标记中心相似性的内容相似标记组，以实现更精确的标记分组。
局部区域自注意力（LRSA）：通过使用重叠的补丁来增强局部区域特征之间的交互。

三、创新方法

图 2. CATANet 的整体架构。

图2(c). 局部区域自注意力。

网络架构：CATANet网络由浅层特征提取、深层特征提取和图像重建三个模块组成。浅层特征提取通过3×3卷积层实现，深层特征提取通过顺序残差组（RG）实现，每个RG包括标记聚合块（TAB）、局部区域自注意力（LRSA）和3×3卷积。图像重建模块通过上采样操作和图像重建函数获得最终的高分辨率图像。

Local-Region Self-Attention (LRSA): 使用重叠的补丁来增强特征交互，LRSA模块负责学习更精细的局部细节。给定输入特征 Xo ∈ RN ×d，LRSA模块通过以下过程进行特征交互：

1. 使用重叠补丁来增强特征交互：这意味着输入特征被划分为重叠的区域，每个区域都用于计算自注意力。

2. 对于每个重叠的补丁，使用多头自注意力（Multi-Head Self-Attention, MSA）机制来学习补丁内的长距离依赖关系。这一步骤可以表示为：

其中 Xout 属于 RN×d，WQ，WK 和 WV 是在各个块之间共享的权重矩阵。通过这种方式，LRSA模块能够捕捉到局部区域内的长距离依赖关系，从而增强模型对局部细节的处理能力。

四、实验分析

1. 数据集：使用DIV2K数据集进行模型训练，并在Set5、Set14、B100、Urban100和Manga109五个公共超分辨率数据集上评估模型性能。使用PSNR和SSIM指标评估模型性能，并将这些指标转换到YCbCr颜色空间后在Y通道上计算。

2. 性能比较：CATANet在不同放大因子（×2、×3、×4）的基准数据集上均取得了优于其他轻量级SR模型的性能。特别是在×2放大因子下，CATANet在参数更少的情况下，PSNR值比SPIN方法高出0.33dB，且推理速度几乎快两倍

3. 消融研究：通过消融研究评估了IASA和IRCA模块的有效性，以及不同TAB设计的影响。实验结果表明，IASA和IRCA模块对于恢复受损图像的长距离依赖捕捉至关重要，而CATANet的TAB设计在性能上优于其他标记聚合方法。

https://github.com/AIFengheshu/Plug-play-modules

2025年全网最全即插即用模块，免费分享！包含人工智能全领域（机器学习、深度学习等），适用于图像分类、目标检测、实例分割、语义分割、全景分割、姿态识别、医学图像分割、视频目标分割、图像抠图、图像编辑、单目标跟踪、多目标跟踪、行人重识别、RGBT、图像去噪、去雨、去雾、去阴影、去模糊、超分辨率、去反光、去摩尔纹、图像恢复、图像修复、高光谱图像恢复、图像融合、图像上色、高动态范围成像、视频与图像压缩、3D点云、3D目标检测、3D语义分割、3D姿态识别等各类计算机视觉和图像处理任务，以及自然语言处理、大语言模型、多模态等其他各类人工智能相关任务。持续更新中......

查看全文

http://www.kler.cn/a/589609.html