分而治之:用于 RGB-T 显著目标检测的 Confluent Triple-Flow 网络(问题)
摘要
问题一:RGB-thermal显著对象检测这是什么?
RGB图像是可见光的三通道图像,而thermal是热红外图像,通常为单通道,记录物体的热辐射信息。结合RGB和thermal两种模态的数据,可以利用两者的互补信息,例如在低光照或复杂背景下,热成像可能更可靠,而RGB提供颜色和纹理细节。
RGB-Thermal 显著对象检测(RGB-T Salient Object Detection)是一种结合 可见光(RGB) 和 热红外(Thermal) 双模态数据的计算机视觉任务,旨在通过融合两种模态的互补信息,精准定位图像中最吸引视觉注意力的目标(如行人、车辆等)。
问题二:传统的编码器架构虽然是为跨模式功能交互而设计的,但可能没有充分考虑针对有缺陷方式的噪声的稳健性,从而导致在复杂的场景中导致次优性能。什么意思?
跨模态特征交互是指在不同模态(如 RGB 图像和深度图)之间进行特征融合和信息交换,以充分利用每种模态的优势。例如,RGB 图像提供颜色和纹理信息,而深度图提供空间距离信息。
传统的编码器架构(如基于 CNN 或 Transformer 的模型)通常设计了一些机制来实现这种跨模态交互,例如通过注意力机制或特征拼接。
一 介绍
问题一:解释一下这张图?
(a) 单流架构(Single-flow)
- 结构特点:
- 输入:RGB和Thermal图像直接拼接(或早期融合)。
- 编码器-解码器:共享同一主干网络提取特征,仅通过单一路径处理双模态数据。
- 融合方式:浅层或末端简单融合(如通道拼接或相加)。
- 代表方法:MIA [1]。
- 优点:
- 计算量低,适合资源受限场景。
- 在强噪声场景下表现较好(噪声被双模态平均抑制)。
- 缺点:
- 模态差异被忽略,导致特征冲突(如RGB纹理与Thermal温度分布不匹配)。
- 在光照极端变化(欠/过曝光)时鲁棒性差。
(b) 双流架构(Dual-flow)
- 结构特点:
- 输入:RGB和Thermal分别输入独立的主干网络。
- 编码器-解码器:双分支独立提取特征,通过中间层跨模态交互(如注意力机制或特征相加)。
- 融合方式:多阶段跨模态融合(如MIDD的跨模态门控机制)。
- 代表方法:MIDD [2]。
- 优点:
- 保留模态特异性,适合欠曝光场景(Thermal主导检测,RGB辅助细节)。
- 通过交互缓解模态冲突。
- 缺点:
- 融合模块复杂,计算成本较高。
- 对复杂背景(如密集遮挡)敏感,易产生误检。
(c) 三流架构(Triple-flow)
- 结构特点(作者提出):
- 输入:双模态数据输入三个分支,可能包含:
- RGB专用分支:提取颜色/纹理细节。
- Thermal专用分支:捕捉温度分布。
- 跨模态联合分支:动态融合双模态特征(类似SCPC模块)。
- 融合策略:
- 分治策略(Divide-and-Conquer):专用分支挖掘模态独特信息,联合分支优化互补性。
- 调制融合:通过自适应权重平衡模态贡献(如热辐射权重在夜间增强)。
- 输入:双模态数据输入三个分支,可能包含:
- 优点:
- 在所有挑战场景下表现最优:
- 强噪声→联合分支抑制噪声;
- 欠/过曝光→专用分支保留有效信息;
- 复杂背景→跨模态联合推理排除干扰。
- 平衡模态特异性和互补性。
- 在所有挑战场景下表现最优:
- 缺点:
- 模型参数量大,需更高算力支持。
视觉显著性地图(d)分析
图表通过显著性地图(Saliency Map)直观对比不同方法在四类场景下的检测效果:
- 强噪声(Strong noise):
- 单流(MIA):噪声抑制较好(双模态平均效应),但目标边界模糊。
- 三流(Ours):目标完整且边界清晰(联合分支动态去噪)。
- 欠曝光(Underexposure):
- 双流(MIDD):依赖Thermal模态,目标定位准确,但丢失RGB细节(如纹理)。
- 三流(Ours):Thermal主导检测,RGB分支补充边缘信息。
- 过曝光(Overexposure):
- 单流(MIA):RGB信息过饱和,检测失效。
- 三流(Ours):Thermal分支稳定捕捉目标,联合分支恢复部分RGB结构。
- 复杂背景(Complex background):
- 双流(MIDD):易受背景干扰(如高温物体误检)。
- 三流(Ours):跨模态联合推理区分目标与背景(如利用RGB结构排除热源干扰)。
-
作者方案优势:
- 分治策略:专用分支充分挖掘模态独特信息(如RGB边缘、Thermal温度分布)。
- 动态调制:根据场景自适应调整融合权重(如夜间增强Thermal权重)。
- 轻量化联合分支:通过类似SCPC的高效融合模块减少计算开销。
实际应用启示
- 场景适配选择:
- 资源受限+强噪声环境→单流(MIA)。
- 常规光照+实时需求→双流(MIDD)。
- 极端环境+高精度要求→三流架构(Ours)
问题二:深度图是什么?
深度图是一种以像素值表示场景中物体到相机距离(或深度)的图像。每个像素的亮度或颜色编码了对应位置的深度信息,亮度越高(或颜色越暖)通常表示距离越近,亮度越低(或颜色越冷)表示距离越远。深度图通过捕捉三维空间的结构信息,为计算机视觉任务提供关键的几何感知能力。
在图表中的三种架构(单流、双流、三流)中,深度图可指导多模态特征融合:
- 单流架构(a):深度图作为额外输入通道,与RGB和Thermal拼接,增强早期融合的几何信息。
- 双流架构(b):深度图用于约束跨模态交互(如通过深度感知注意力机制,优先融合近距离目标的RGB和Thermal特征)。
- 三流架构(c):深度图可能作为独立分支输入,通过分治策略(Divide-and-Conquer)与RGB、Thermal分支联合优化,提升显著目标边界精度(如图1(d)中更清晰的显著性边界)。
三 研究方法
一、整体架构概述
ConTRiNET 是一种针对 多模态显著性检测(如RGB-Thermal)设计的网络,采用 “分而治之” 策略,通过 三个并行流 实现模态特定与互补特征的协同学习:
- 模态互补流(Modality-Complementary Flow)
- 目标:融合RGB和热模态的互补信息,生成综合显著性图。
- 模态特定流(Modality-specific Flows)
- 分支1:RGB流,专注于RGB图像的视觉特征提取。
- 分支2:热流(Thermal Flow),专注于热成像的温度特征提取。
核心特点:
- 参数共享的联合编码器:RGB和热模态的编码器共享部分参数,减少冗余并增强模态间知识迁移。
- 端到端训练:三流联合优化,通过多级监督提升性能。
- 模块化设计:包含 RASPM、MFM、MDAM 等定制化模块,解决跨模态特征融合与优化问题。
二、网络结构与数据流向
1. 模态共享联合编码器(Modality-based Union Encoder)
- 功能:提取RGB和热模态的共享底层特征。
- 结构:
- 编码块(EnB-1 至 EnB-5):层级式下采样,生成多尺度特征(如E1-E5层,分辨率逐步降低)。
- 参数共享:RGB和热模态的编码器在前几层(如EnB-1到EnB-3)共享权重,后几层(如EnB-4、EnB-5)独立提取模态特定特征。
- 输出:多级特征图(E1-E5)分别输入模态特定流和互补流。
2. 模态特定流(RGB Flow & Thermal Flow)
- 目标:保留模态独有的细节信息(如RGB的纹理、热成像的温度分布)。
- 核心模块:
- RASPM(Residual Attention-based Selective Propagation Module)
- 作用:通过残差注意力机制,选择性地增强有效特征并抑制噪声。
- 操作:特征图经过通道/空间注意力后与残差连接融合。
- MFM(Modality-specific Feature Modulation)
- 作用:动态调节模态特定特征的权重,适应不同场景下的模态贡献差异。
- MDAM(Multi-modal Dynamic Attention Module)
- 作用:在解码阶段引入跨模态注意力,引导模态特定流关注互补流中的关键区域。
- RASPM(Residual Attention-based Selective Propagation Module)
- 数据流向:
- 输入:联合编码器的多级特征(E1-E5)。
- 处理:通过RASPM和MFM逐级优化特征,结合上采样(Up×2)恢复分辨率。
- 输出:模态特异性显著性图(D1-D6),并通过监督信号(GT)进行损失计算。
3. 模态互补流(Modality-Complementary Flow)
- 目标:整合RGB和热模态的互补信息,生成鲁棒的综合显著性图。
- 核心模块:
- MDAM(Multi-modal Dynamic Attention Module)
- 作用:通过跨模态注意力机制,自适应融合RGB和热特征。
- 实现:计算模态间特征相似度矩阵,生成注意力权重以加权融合。
- RASPM:与模态特定流中的模块类似,用于特征优化。
- MDAM(Multi-modal Dynamic Attention Module)
- 数据流向:
- 输入:联合编码器的共享特征(E1-E5)与模态特定流的中间特征(M1-M3)。
- 处理:通过MDAM进行跨模态交互,结合上采样生成互补显著性图(D6)。
- 输出:最终融合的显著性图,并通过监督信号(GT)优化。
三、关键模块详解
1. RASPM(Residual Attention-based Selective Propagation Module)
- 结构:
- 输入:来自编码器的特征图(如E3)。
- 操作:
- 通道注意力(SE Block):计算通道权重,增强重要通道。
- 空间注意力(CBAM-like):生成空间掩码,突出关键区域。
- 残差连接:原始特征与注意力加权特征相加,保留底层信息。
- 作用:抑制噪声,增强显著性区域的特征响应。
2. MFM(Modality-specific Feature Modulation)
- 结构:
- 输入:当前层特征 + 上层调制后的特征。
- 操作:
- 特征拼接(Concatenation):融合多级特征。
- 动态卷积核:根据输入特征生成卷积权重,适应不同模态特性。
- 作用:自适应调整特征表达,提升模态特定信息的区分度。
3. MDAM(Multi-modal Dynamic Attention Module)
- 结构:
- 输入:来自两个模态的特征图(如RGB的M1和热模态的Mt)。
- 操作:
- 跨模态相似度计算:生成注意力矩阵,衡量模态间区域相关性。
- 特征加权:根据相似度矩阵对另一模态特征进行加权融合。
- 输出:跨模态增强后的特征。
- 作用:解决模态间不对齐问题,强化互补区域的协同检测。
四、训练与监督机制
- 多级监督:
- 模态特定流和互补流在多个解码层(D1-D6)均引入监督信号(GT),通过逐层损失(如交叉熵、IoU损失)约束特征学习。
- 端到端优化:
- 总损失函数为各层损失的加权和:Ltotal=i=1∑6λiLDi+λcL互补流