《使用通道 Transformer 进行多尺度特征融合,引导热图像超分辨率》学习笔记
paper:Multi-Scale Feature Fusion using Channel Transformers for Guided Thermal Image Super Resolution
目录
摘要
1、介绍
2、相关工作
2.1 可见光图像超分辨率与恢复
2.2 热成像超分辨率
2.3 引导式热成像超分辨率
3、方法
3.1 网络架构(Network Architecture)
3.1.1 浅特征提取器(Shallow Feature Extractor)
3.1.2 融合块(Fusion Block)
3.1.3 Channel Transformer
3.1.4 重建块(Reconstruction Block)
3.2 损失函数(Loss Function)
3.2.1 L1损失(L1 Loss)
3.2.2 SSIM损失(SSIM Loss)
3.2.3 感知损失(Perceptual Loss)
3.2.4 最终损失函数(Final Loss Function)
4、实验
4.1 数据集
4.2 实验设置
4.3 验证数据集上的定量结果
4.4 测试数据集上的定量结果
4.5 验证数据集上的定性结果
摘要
热成像利用红外光谱,在低光照、遮挡和恶劣天气等具有挑战性的环境条件下,提供了一个与可见光谱(VIS)成像互补的强大选择。然而,由于其较低的空间分辨率,热成像在计算机视觉任务中的广泛应用受到了限制。为了解决这一问题,本文提出了一种名为 基于通道变换器的多尺度特征融合框架(MSFFCT) 的新方法,用于引导热图像超分辨率(Guided Thermal Image Super-Resolution, GTISR)。
GTISR 旨在解决热成像分辨率受限的问题。它通过利用高分辨率 RGB 图像作为指导,从低分辨率的热图像输入中重建出高分辨率的热图像。MSFFCT 的核心是一个新颖的深度学习架构,该架构结合了 通道变换器 和 多尺度融合 两种强大的方法。
MSFFCT 克服了通常用于超分辨率任务的卷积神经网络(CNN)固有的局限性。CNN 往往受到有限感受野的限制,难以捕获图像中的长距离依赖关系。此外,随着输入尺寸增大,CNN 的计算成本会显著增加。MSFFCT 通过高效处理全局信息并提供优越的可扩展性,解决了这些问题。MSFFCT 在 2024 年 超越可见光感知挑战赛(PBVS) 的 ×8 和 ×16 GTISR 任务中取得了最先进的性能,分别获得了第二名,并证明了其在实际场景中的有效性。
1、介绍
计算机视觉已成为包括自动驾驶、机器人、医学成像和安全系统在内的多种应用中的关键技术。在这一技术革命的前沿,是 RGB 摄像头,它们能够捕捉可见光谱中的丰富视觉信息。然而,RGB 摄像头依赖照明条件,这带来了根本性的限制。在低光环境下,图像清晰度会显著降低,而遮挡(物体阻挡视野)和恶劣天气(如雨、雾)会进一步妨碍准确的图像分析。例如,在低光或恶劣天气条件下,图像模糊的细节可能导致自动驾驶车辆中物体识别的错误。
为了克服这些限制并扩展计算机视觉的应用范围,研究人员探索了替代成像方式。虽然近红外或深度摄像头等主动传感器解决了部分限制,被动传感器也有独特优势。热红外成像作为一种多功能的成像方式,通过捕获物体发出的中长波辐射(热量)而脱颖而出。这种独特特性使得热摄像头能够在完全黑暗中“看见”,穿透烟雾或雾霾等遮挡物,并检测 RGB 摄像头不可见的热信号特征。即使是最先进的计算机视觉算法,在面对天气变化、阴影和背景干扰的非约束环境下进行物体识别时仍会遇到困难。而热传感器利用稳健的热信号,在这些具有挑战性的真实场景中实现了准确感知。
热成像的优势促进了其在农业、自动驾驶、医学成像、军事应用、行人检测和监控系统等领域的广泛应用。然而,尽管热成像有诸多优势,其面临的一个关键挑战是:热传感器的分辨率通常低于 RGB 摄像头。这一限制可能妨碍对图像中重要细节的识别,从而影响精确图像解析的能力。虽然高分辨率热传感器已经问世,但其成本通常在 200 到 20,000 美元之间,显著限制了其广泛应用。因此,超分辨率(Super-Resolution, SR) 作为一种计算机视觉技术,针对解决热图像分辨率限制的问题,展现了巨大的潜力。
超分辨率(SR) 旨在增强图像的空间分辨率,从低分辨率输入生成高分辨率版本。近年来,深度学习的崛起使卷积神经网络(CNN)成为许多超分辨率方法的核心。Dong 等人 首次将 CNN 引入超分辨率领域,为一系列成功的 CNN 基于 SR 方法铺平了道路。随后,研究人员开始专门探索基于 CNN 的热图像超分辨率方法。然而,CNN 存在固有的局限性,尤其是其有限的感受野,难以捕获图像中的长距离依赖关系。此外,随着输入尺寸的增大,其计算复杂性显著增加。
在 GTISR(引导热图像超分辨率) 中,高分辨率的 RGB 图像作为低分辨率热图像的指导信息。通过结合 RGB 图像中丰富的细节信息,GTISR 能够学习到高分辨率热图像重建所需的精细纹理和边缘。尽管最近的一些 CNN 方法已经在 GTISR 上取得了进展 ,但 CNN 的局限性促使我们探索变换器(Transformer)的应用。这种强大的深度学习架构在自然语言处理(NLP)任务中取得了最先进的性能,并正逐步被适配用于图像恢复 和超分辨率任务。变换器通过提供更大的感受野和改进的计算效率,克服了 CNN 的限制,尤其在处理大规模输入时表现出色。
我们设计了一种高效的基于通道的 Transformer(Channel-based Transformer),其灵感来自 MST++ 。该方法利用通道自注意力机制学习图像通道之间的特征依赖关系。我们提出的新框架 MSFFCT(基于通道变换器的多尺度特征融合框架),在 2024 年 超越可见光感知挑战赛(PBVS) 的 ×8 和 ×16 GTISR 任务 中均取得了最先进的结果,分别获得第二名,展示了其在实际场景中的有效性。
2、相关工作
2.1 可见光图像超分辨率与恢复
深度学习的兴起,特别是卷积神经网络(CNN)的应用,彻底变革了图像恢复与超分辨率领域。Dong 等人提出的超分辨率卷积神经网络(SRCNN)模型开创性地展示了CNN学习低分辨率(LR)与高分辨率(HR)图像复杂映射关系的能力,显著超越了传统方法。
后续研究致力于改进CNN架构:
- 网络深度增强:例如 VDSR 。
- 残差连接引入:例如 EDSR。
这些方法显著提升了SR性能。然而,CNN的感受野受限,难以捕获图像中的长距离依赖关系,这成为其内在局限性。
受自然语言处理(NLP)领域成功经验的启发,Transformer 开始在计算机视觉任务中崭露头角。Dosovitskiy 等提出的视觉变换器(ViT)首次展示了其在图像分类任务中的有效性。随后,变换器被逐步应用于图像恢复任务,包括去噪、去模糊和超分辨率。例如:
- Image Processing Transformer (IPT):基于ViT方法。
- U-Former和Restormer:分别采用窗口注意力机制和通道注意力机制。
- SwinIR:基于Swin Transformer架构,采用窗口平移注意力机制进行图像超分辨率。
《SwinIR:使用Swin-Transformer图像恢复》学习笔记-CSDN博客
2.2 热成像超分辨率
深度学习模型在SR领域的成功激励了研究者探索其在热成像增强中的应用。受SRCNN模型的启发,Choi等人提出了热成像增强(TEN)网络,用于热成像SR。然而,由于缺乏大规模热成像数据集,他们选择使用RGB图像进行训练。Rivadeneria等人提出了使用深度卷积层结合残差和密集连接的热成像SR网络,并探索了基于CycleGAN的热成像SR模型(图像生成模型)。Chudasama等人提出了TherISURNet,这是一种基于残差块的渐进放大策略,并在2020年PBVS CVPR挑战赛中表现出色。
Priya等人提出了一种多级架构,结合残差块用于热成像SR,采用多级监督、特征拼接以及受启发的注意力块。他们的研究强调了在重建过程中聚焦相关特征的重要性。在此基础上,Nathan等人提出了多尺度、多监督架构,利用Res2Net作为主干网络,替代传统残差块以提升性能。Prajapati等人提出了ChasNet网络,包含通道分割块、残差块以及具有密集连接的卷积层,旨在保留对热成像保真度至关重要的高频细节。
2.3 引导式热成像超分辨率
尽管热成像SR取得了进展,GTISR提出了一系列新的挑战。早期GTISR工作利用生成对抗网络(GAN)指导SR过程。Almasri等人提出了一个GAN模型,其中从RGB图像提取的特征指导热成像超分辨率。为了解决特征空间中的不对齐问题,Gupta等人 提出了非对齐引导式热成像SR方法。他们的模型包括两个部分:一个用于减少特征空间的不对齐,另一个用于估计热成像与指导图像之间的不对齐映射。这项研究强调了处理对齐问题对有效GTISR的重要性。
在2023年PBVS挑战赛中获胜的GTISR解决方案,将RGB图像和低分辨率热成像通过浅层特征提取阶段提取的特征拼接,随后通过多个NAF块处理,这些块构成了网络的核心部分。Kasliwal等人提出了一种编码器-解码器架构,分别编码低分辨率热成像和高分辨率RGB图像,通过最大操作合并这些编码特征后,输入解码器以学习高分辨率热成像。此外,他们引入了一种对比损失函数作为正则化项。Suarez等人提出了一个新颖的方法,通过CycleGAN架构创建一个合成热成像,这个合成热成像用于指导低分辨率热成像的SR过程。他们的研究探索了生成模型在GTISR任务中提供有效指导信息的潜力。
3、方法
3.1 网络架构(Network Architecture)
MSFFCT(Multi-Scale Feature Fusion with Channel-wise Transformer)架构如图所示
输入:高分辨率RGB图像 和低分辨率热图像。
其中,高分辨率RGB图像的分辨率是低分辨率热图像 的 或。为了处理这种分辨率差异,MSFFCT首先对低分辨率热图像应用双三次插值(bicubic upsampling)。
这样生成了与高分辨率RGB图像具有相同分辨率的上采样热图像。接着,将高分辨率RGB图像 和上采样热图像 拼接(concatenate),记为。
公式为:
接着,将拼接后的图像 通过像素重排(pixel unshuffling)进行下采样,比例为 2× 和 4×。下采样的目的是减少计算复杂度,同时在数据中捕获多尺度特征。下采样后的图像分别记为 和 ,其形状为:
这些下采样图像 和 会被送入核心网络。核心网络受到 TSFNet 的启发,包含三个主要组件:浅特征提取器(shallow feature extractor)、融合块(fusion block)和重建块(reconstruction block)。
3.1.1 浅特征提取器(Shallow Feature Extractor)
从 和 中提取多尺度特征,使用了双流(two-stream)架构: 输入到一个流,输入到另一个流。每个流中均使用两层 3×3 的可变形卷积(deformable convolution)进行处理,中间插入了 PReLU(Parametric ReLU)激活层。
双流架构(Two-Stream Architecture)是一种常见的深度学习模型设计方法,尤其在处理多模态数据(例如图像和视频)或需要多尺度特征的场景中应用广泛。其核心思想是通过两条独立的分支(流)对输入数据的不同部分进行特征提取,然后将这些特征融合,以实现更精细的特征学习和表达。
这两条并行流程统称为浅特征提取器。
公式如下:
其中, 和 分别表示对 和 的并行浅特征提取流程。和 分别表示经过可变形卷积处理后的 2×和 4× 下采样特征,其中 是卷积层的通道数。
浅特征提取器选择可变形卷积的原因是其能够处理 RGB 和热图像特征在拼接后可能存在的对齐误差,这些误差可能由于传感器的差异或目标姿态的变化引起。
3.1.2 融合块(Fusion Block)
在我们提出的网络架构中,另一个关键组件是由 N 个融合块(Fusion Block)组成的模块序列。每个融合块包含三个核心部分:两个并行残差块(Residual Block)、一个反卷积(Transposed Convolution) 和 一个通道注意力变换器(Channel-Wise Transformer)。
第一个融合块的输入是来自浅层特征提取器的输出特征 和 。这些特征分别被送入两个并行的残差块。
每个残差块都包含一个高效的通道注意力机制(Channel Attention)。通道注意力通过全局加权机制为不同的特征通道分配重要性,允许模型专注于对重建至关重要的关键特征。Chen 等人的研究表明,通道注意力在Transformer模型中能够实现优越的视觉表示。通过在残差块中利用这一策略,我们希望提升 MSFFCT 的特征提取能力。
公式如下:
其中和 表示具有增强通道注意力机制的残差块。
接着,4×下采样的特征 被输入一个反卷积操作进行上采样,以匹配 2×下采样特征的空间分辨率:
其中, 表示反卷积操作。此时,上采样特征的分辨率已经与 对齐。
然后,将和 拼接(Concatenate):
拼接后的特征将被传递给通道注意力Transformer(Channel-Wise Transformer)以进一步处理。
3.1.3 Channel Transformer
设计灵感: 通道 Transformer 的设计灵感来源于中提出的基于通道的多头自注意力机制。在基于 Transformer 的模型中,自注意力通常是在 token 上进行计算的。值得注意的是,诸如 Vision Transformer (ViT)的模型采用全局注意力机制,将特征图中的每个像素都视为一个 token。对于特征图,全局自注意力的时间复杂度为 。
相比之下,其他基于 Transformer 的架构(如 UFormer和 SwinIR )采用窗口或滑动窗口的自注意力方法来生成 token。这些模型并不将每个像素视为一个 token,而是将特征图划分为不重叠的 窗口,其中窗口内的每个像素都被视为一个 token。这种方法将时间复杂度从 降低到 。
在本研究中,我们采取了一种不同的方法,将特征图中的每个通道视为一个 token,在通道维度上计算自注意力,从而避免了与空间维度相关的复杂性。这种方法在计算效率上表现出优势,因为它专注于特征图的通道而非空间维度,将全局自注意力的时间复杂度从降低到 。
通道级自注意力机制的优势,时间复杂度的降低。
尽管基于窗口的自注意力在某些情况下可以达到与通道自注意力相当的效率,甚至更高,但其感受野受到窗口大小的限制,而通道自注意力的感受野可以涵盖整个空间维度。
更高效的全局信息建模:通道维度上的自注意力能够捕捉各个通道之间的关系,避免了传统方法中感受野的限制(如窗口的大小)。
输入与处理流程: 通道 Transformer 的输入来自多尺度网络的 2× 下采样分支。
输入特征为,其中 表示 2× 分支的特征通道数。首先,将特征 展平为 。接着,使用三个全连接层将 投影为查询 、键 和值,其中 :
其中 表示全连接层的权重参数,是可学习的。
接下来,将键 转置为,与查询 相乘以获得注意力矩阵 。注意力矩阵的大小为 :
其中,σ 是一个可学习参数,用于学习注意力图中每个通道的权重。
随后,自注意力通过以下公式计算:
多头自注意力机制: 为了计算多头自注意力,每个通道被划分为 k 个头,并行学习 k 个自注意力图。这些自注意力图经过全连接层进行线性投影,并加入位置嵌入作为残差:
其中, 是全连接层的权重,PE 是位置嵌入。位置嵌入通过两个 3×3 深度卷积层实现,中间有 GELU 激活函数。最终输出的特征图维度为。
在融合模块中的应用: 通道 Transformer 的输出将与残差块输出一起作为输入,传递到后续的 N−1个融合块中。在第 N 个融合块中,通道 Transformer 的输出将与 进行拼接。
残差链接,有助于融合通道 Transformer 提取到的全局信息与原始特征信息,进一步提升重建质量。
具体公式如下:
其中, 表示第 i个融合块, 表示第 i−1层融合块的输出。
3.1.4 重建块(Reconstruction Block)
输出将通过卷积操作并通过像素洗牌(Pixel Shuffling)进行 2 倍上采样。通过从原始的双三次上采样图像中获取残差,将学习重建高分辨率的热图像 。
其中,代表卷积层和 2 倍像素洗牌操作, 表示通过双三次插值获得的热图像上采样。
3.2 损失函数(Loss Function)
3.2.1 L1损失(L1 Loss)
L1损失度量了真实图像和预测图像之间的绝对差异。在GTISR中,真实图像是给定的高分辨率热图像 ,预测图像是重建的高分辨率热图像。L1损失定义如下:
其中, 和 分别是第 个像素的预测图像和真实图像的值。
这个损失函数计算了两幅图像在每个像素位置上的差异,并取其绝对值,通常用于图像重建任务中。
3.2.2 SSIM损失(SSIM Loss)
结构相似性指数(SSIM) 衡量了两幅图像之间的结构相似度,返回一个介于 -1 和 1 之间的值。1 表示两幅图像完全相同,0 表示没有相似性,-1 表示两幅图像是完全的反转图像。SSIM损失是根据给定的高分辨率热图像 和重建的高分辨率热图像 计算的。SSIM损失定义如下:
该损失函数通过计算两幅图像的结构相似性来评估它们的差异。较小的SSIM损失值表明两幅图像在结构上有更多的相似性。
3.2.3 感知损失(Perceptual Loss)
感知损失衡量了两幅图像的视觉相似度,主要用于基于GAN(生成对抗网络)的模型中。我们通过计算给定的高分辨率热图像 和重建的高分辨率热图像 在不同层次的VGG特征图之间的平均绝对误差来计算感知损失。感知损失定义如下:
其中, 表示给定图像在第 i 层VGG特征图。
通过计算不同层次特征图的差异,感知损失帮助评估两幅图像在高层语义上的差异,而不仅仅是在像素级别上的差异。
3.2.4 最终损失函数(Final Loss Function)
我们的最终损失函数是L1损失、SSIM损失和感知损失的加权平均:
α、β 和 γ是加权系数,用于控制每个损失项对最终损失的影响程度。
通过这种加权组合,可以平衡不同类型的损失,从而优化模型的性能,使其在图像的重建质量、结构相似性和视觉感知方面取得较好的效果。
4、实验
4.1 数据集
我们评估了MSFFCT在PBVS 24 GTISR数据集上的性能。该数据集包括×8和×16下采样的低分辨率热图像,并且与同一场景的高分辨率RGB图像配对,适用于GTISR任务。数据集包含700张用于训练,100张用于验证,以及40张用于测试的图像。由于地面真实标签未公开,我们仅在验证数据集上报告结果。
4.2 实验设置
在训练过程中,我们随机裁剪了低分辨率热图像,裁剪尺寸分别为32×32(用于×8 GTISR任务)或16×16(用于×16 GTISR任务)。我们将模型训练了100个epoch,批量大小为8,使用Adam优化器及默认参数,并设定初始学习率为1e-4。学习率通过余弦退火调度器逐渐降低至1e-6。我们采用了翻转和mixup数据增强方法,其中mixup增强作为训练过程中的正则化手段。
我们在融合块的大小为48时取得了最优性能。我们使用了64个特征通道,适用于2×和4×特征分支。损失函数的权重α为7,β为1,γ为0.15。我们使用PSNR和SSIM评估MSFFCT的性能,以便与PBVS 24 GTISR任务中排名提交的指标一致。
MSFFCT在PyTorch中实现,并使用2块NVIDIA RTX A6000 GPU进行了超过2天的训练。
4.3 验证数据集上的定量结果
我们全面评估了MSFFCT与几种最先进方法的性能,包括Restromer、基于注意力的分层多模态融合(AHMF)和PBVS 23 GTISR挑战赛获胜方法(基于NAFNet)。Restromer采用基于通道的自注意力机制进行图像恢复,AHMF是一个用于引导深度超分辨率任务的先进解决方案。值得注意的是,为了使Restromer模型适用于GTISR任务,我们实现了一个预处理步骤,通过对应的RGB图像对热图像进行上采样。然后将这些特征连接起来并作为输入送入网络。
如表1所示,MSFFCT在PSNR和SSIM值上超过了几种最先进的方法。在×8 GTISR任务上,MSFFCT比去年获胜的NAFNet提高了0.26 dB。在×16 GTISR任务上,这一改进更加明显,达到了0.4 dB。与Restromer相比,MSFFCT在×8 GTISR上获得了0.70 dB的PSNR增益,在×16 GTISR上为0.51 dB。值得注意的是,MSFFCT在实现优越性能的同时,所需的训练参数数量显著低于NAFNet。
表2展示了融合块大小的影响。我们实验了16、24、32和48的融合块大小,最佳性能是在融合块大小为48时取得的。融合块大小为32时,在×8和×16 GTISR任务上超越了基于NAFNet的模型,且训练参数数量显著更少,尽管运算量稍多。我们还观察到,融合块大小为16和24时,在参数数量和运算量较少的情况下,超越了Restromer。
4.4 测试数据集上的定量结果
表3展示了×8和×16比例因子的GTISR任务在测试数据集上的结果。我们在测试过程中采用了自集成学习方法,包括水平和垂直翻转测试图像,然后对预测结果进行平均。这一学习策略使得×8任务的PSNR提高了0.36 dB,×16任务提高了0.25 dB。我们进一步通过模型集成学习提高了性能。该策略涉及从多个模型中取预测的加权平均。模型集成学习包括:MSFFCT、去除可变卷积的MSFFCT,以及PBVS 23 GTISR挑战赛获胜模型。这种集成学习使得×8任务的PSNR提高了0.37 dB。为了进一步提高测试数据集上的结果,我们结合了模型集成和自集成学习。这一方法使得×8任务的PSNR较提出的方法提高了0.49 dB。在测试数据集上,模型在×8和×16 GTISR任务上的PSNR分别为30.05 dB和25.67 dB,最终在PBVS 24 GTISR任务中获得第二名。
4.5 验证数据集上的定性结果
图展示了×8 GTISR任务中各种重建方法在验证数据集上的预测热图像与地面真实图像之间的绝对差异图。第一列显示了地面真实热图像,后续列展示了与真实图像的绝对差异图。在这些差异图中,较深的蓝色区域表示更好的重建保真度,说明预测图像与真实图像之间的绝对差异较小。
基于定性对比,MSFFCT表现出比其他重建方法更为优越的性能。特别是,它超越了NAFNet和Restromer,这两个模型在架构中都使用了通道注意力机制。Restromer还具有通道级自注意力。这一观察表明,所提出的方法建立了更有效的特征空间关联,从而实现了更优的重建质量。