论文阅读之基于Syn2Real域的侧扫声纳类水雷目标探测
摘要
由于现实世界数据的稀缺性,基于深度学习的水下水雷探测受到了限制。这种稀缺性导致过拟合,即模型在训练数据上表现良好,但在未见数据上表现不佳。本文提出了一种使用扩散模型的Syn2Real (Synthetic to Real)域泛化方法来解决这一挑战。我们证明了由DDPM和DDIM模型产生的带有噪声的合成数据,即使不是完全真实的,也可以有效地增加真实世界的样本用于训练。最终采样图像中的残余噪声提高了模型对具有固有噪声和高变化的真实世界数据的泛化能力。基线Mask-RCNN模型在合成和原始训练数据集的组合上训练时,与仅在原始训练数据上训练相比,平均精度(AP)提高了约60%。这一重大改进突出了Syn2Real域泛化在水下水雷探测任务中的潜力。
引言
近年来,海洋机器人技术,特别是配备先进侧扫声纳(SSS)系统的自主水下航行器(AUVs),为大规模海洋探测任务(如制图、目标检测和环境监测)开辟了新天地 [1],[2]。虽然这些SSS图像为海床研究提供了宝贵的信息,但从数据中手动识别水下雷区(MLOs)是一个耗时的过程 [3]。为了应对这一挑战并提高探索效率,采用了基于深度学习的自动目标识别(ATR)技术。然而,使用深度学习进行水下雷区检测面临一个独特的障碍:现实数据的稀缺性。与鱼类检测等样本丰富的任务不同,水下雷区较为罕见,这就造成了稀疏检测问题。这种有限的数据可能导致过拟合,即模型在特定训练的SSS图像上表现良好,但无法泛化,可能在实际探索中错过真实的雷区 [4],[5]。
近年来,关于MLO检测和分割的研究主要依赖于基于纹理、几何和光谱特征的单一或组合方法 [4]。RPFNet是一种递归金字塔频率特征融合网络,在 [6] 中提出,解决了检测问题,但未能解决数据稀缺问题。在 [7] 中,利用深度神经网络(DNN)进行MLO检测,研究了深度、记忆和训练数据的影响。为应对数据稀缺问题,广泛研究了零-shot学习和合成数据生成两种策略。零-shot学习使得模型能够在没有针对特定训练的情况下对新实例进行分类 [8]。在 [9] 中,Xu 等人提出了MFSANet,一种使用深度神经网络(DNN)解决零-shot学习挑战的方法。MFSANet利用光学-声学图像对生成伪SSS图像。领域泛化旨在通过最小化合成数据与真实世界数据之间的领域差距,训练模型在合成数据上进行推理并在真实图像上进行推断 [10],[11]。合成数据生成通过创建与真实数据相似的人工数据来解决数据稀缺问题 [12],从而有助于实现领域泛化的目标 [13]。Li 等人 [14] 采用风格迁移将光学目标图像转换为来自侧扫声纳的背景图像,从而生成模拟图像。该方法取得了超过75%的目标分类准确率。
在解决侧扫声纳应用中的数据稀缺问题时,已探索了多种方法。最初,通过合成生成方法增强数据的努力因效果有限而受到阻碍,导致深度学习模型的过拟合问题持续存在 [15]。为此,开发了生成对抗网络(GAN) [16],旨在通过生成合成声纳数据来增强泛化能力,尽管这需要大量的计算资源。进一步的进展出现在 [17] 中,其中提出了一种用于多任务场景的少样本水下物体增强方法。通过利用扩散模型和迁移学习,他们为SSS样本微调了光学预训练模型,并取得了74.08%的有意义mIoU结果。
在本文中,我们研究了生成合成图像的不同方法,以创建一个专门用于水下感知的数据集,重点关注雷区物体(MLOs)进行领域泛化。我们的贡献是多方面的。首先,尽管扩散模型已被广泛研究,我们展示了其在生成MLOs的SSS图像中的新应用,并通过超参数微调取得了显著的改进。此外,我们还对Mask RCNN框架进行了调整,以更好地处理合成SSS数据的独特特性,增强了水雷检测任务中语义建模的有效性。我们还提供了不同合成数据生成技术的比较分析,并评估了它们在Mask RCNN中作为实例分割任务的表现。为了弥补现有数据集的不足,我们生成了一个定制的SSS数据集,重点关注MLOs。我们的研究突出了在SSS图像中实现领域泛化的有效合成数据模型,在有限的标注数据情况下提高了模型性能。
问题描述
本研究的目的有两个。第一个目标是修改和调优合成数据生成模型,用于侧扫声纳图像;第二个目标是评估合成数据生成模型在从合成数据到真实数据的领域泛化能力,使用分割模型进行评估。
为了实现这些目标,收集了一组侧扫声纳图像数据集,包含两种类型的水雷:圆锥形水雷和圆柱形水雷,如II-A节所述。这些图像(原始侧扫声纳图像)用于训练合成数据生成模型。此外,还使用了一个包含光学水下图像的数据集,用于训练合成数据生成模型,目的是仅仅对比这两种数据源在任务中的表现。使用所有的合成数据和原始数据,结合来自不同来源的数据生成了多个数据集,并基于这些数据集训练了一个语义分割模型,并对其进行了评估。
A. 数据集
尽管SSS图像是本研究的主要焦点,但我们也尝试了使用光学水下数据集生成的合成图像。我们使用了水下图像语义分割(SUIM)数据集 [18],该数据集包含超过1500张像素级标注的光学图像,使用光学相机拍摄,覆盖八种不同的物体类别:海床、人类潜水员、无脊椎动物珊瑚礁、水生植物、沉船/遗迹和脊椎鱼类。图像的分辨率为1906 × 1080。
由于缺乏开源的SSS数据,我们创建了一个包含MLOs(类似水雷物体)的新数据集。数据采集使用了Starfish454 OEM设备,频率为450KHz,安装在ROV上,以及Sea Scan ARC Scout MkII设备,频率为600 KHz和1200 KHz,安装在AUV上。这些侧扫声纳图像是通过在封闭水域和港口部署圆柱形和截锥形的类水雷物体获得的。图像是在不同动态条件下捕获的,如不同的深度、距离和方位。共捕获了461张图像,其中包括269张圆柱形水雷图像和192张圆锥形水雷图像。
III. 方法论
本节首先讨论了合成数据生成模型和所使用的超参数。接着,解释了语义分割模型和所使用的训练数据。图4展示了带有Mask RCNN的扩散模型的架构概述。绿色框表示工作流中的可训练部分,蓝色框表示用于训练的数据集。“原始数据集”指的是真实的SSS图像数据集。“合成数据集”表示通过扩散模型生成的图像。
比较的合成数据生成模型包括DCGAN和使用不同噪声调度器(DDPM和DDIM)的扩散模型。DCGAN [19] 是一种主要用于图像生成的模型。它在生成器和判别器中都使用深度卷积神经网络。在我们的实验中,我们使用了传统的DCGAN损失函数,如[19]中所给出。
扩散模型 [20] 在生成高质量图像方面与GANs竞争,通过从初始分布中重构数据。其核心是前向加噪过程和反向去噪过程之间的精彩互动 [21]。在[22]中,提出了一种算法来建模概率分布,允许精确的采样和概率评估。该算法专注于估计马尔可夫扩散链的逆过程,将数据映射到噪声分布。
文献中有两种流行的扩散模型方法:去噪扩散概率模型(DDPM)[21] 和去噪扩散隐式模型(DDIM)[23]。DDPM在生成高质量图像方面表现优异,不需要对抗性训练,但由于其马尔可夫链模拟的计算开销较大,需要1000步才能获得高质量的结果。为了解决这一问题,DDIM引入了非马尔可夫扩散,使得采样更快(50-100步),同时保持竞争力的图像质量。然而,这种效率的提升以稳定性和灵活性为代价,因为DDIM需要调节参数,并且图像质量可能比DDPM低。相比之下,DDPM确保了更好的图像质量和稳定性,尽管采样较慢。
经过几轮超参数调优,获得了稳定的结果,所使用的超参数如下:训练时使用了来自每种矿山类型的100张原始数据集图像。扩散模型(DDPM和DDIM)训练了200个epoch。beta的起始值和结束值分别设置为0.0001和0.02,beta调度器设置为线性模型。DCGAN模型训练了50个epoch(直到收敛)。所有模型的批次大小为16。
一旦使用合成模型创建了数据集,就在这些数据集上训练了一个语义分割模型,即Mask RCNN [24]。Mask RCNN具有用于特征提取的骨干网络、用于边界框提议的区域提议网络(RPN),以及用于像素级分割的Mask Head。骨干网络捕捉分层特征,而RPN生成候选物体提议。此次实验仅使用了圆锥形矿和侧扫声纳图像。由于在IV-B中解释的原因,DCGAN生成的数据没有进一步使用。总共使用了600张图像,其中200张来自DDIM和DDPM模型生成的图像,200张来自原始数据集(经过增强)的图像,这些图像经过标注后,用于训练语义模型。所有标注均为手动提供。通过DDIM、DDPM和原始图像的组合创建了七个数据集,即:原始、DDPM、DDIM、DDPM+DDIM、DDPM+原始、DDIM+原始、DDPM+DDIM+原始。为了验证,使用了一组新的100张原始圆锥形矿图像。SSS语义分割模型训练了50个epoch,批次大小为4,使用二元交叉熵+焦点损失(BCE + Focal)。初始模型权重来自在MS-COCO数据集上预训练的模型。
IV. 结果与讨论
在本节中,我们对生成方法GAN和扩散模型(DDPM和DDIM)进行了详细的定性和定量比较,涵盖了光学图像和侧扫声纳图像(SSS)。生成图像的质量通过启发式指标进行评估,如Frechet Inception Distance(FID)、Kernel Inception Distance(KID)、Inception Scores(IS)和Object Reconstruction Rate(ORR)。进一步地,呈现了DDPM和DDIM的定性评估。接着,对它们在语义分割领域泛化性能的评估也进行了介绍。使用的指标包括不同IOU下的平均精度(AP)和精度与IOU阈值曲线下的面积(AUPC)得分。
A. 评估指标
如前所述,我们采用启发式标准来评估生成模型的性能。FID的计算如公式4所示:
其中,µ表示特征向量的均值,Σ表示图像的协方差矩阵。
KID的计算如公式5所示:
其中,xi和yi分别是实际(经验)特征表示和一般特征表示。核函数k的选择可以有所不同,但常用的是高斯(RBF)核,如公式6所示。
对于ORR,我们通过计数具有清晰边界和阴影的独特地雷图像来定性评估图像质量。为了评估图像中的噪声量及其对语义分割模型的影响,我们计算图像中像素的标准差和信噪比(SNR)值。然后,信噪比(SNR)由以下公式给出:
其中,Ps表示信号,通过计算所有像素值的均值来得出,Pn表示噪声,通过计算所有像素值的标准差来得出。这个公式通常以分贝(dB)表示,以便为SNR值提供更易读的尺度。
最后,使用标注数据训练的语义模型进行下游分析的测试。使用不同IOU下的平均精度(AP)和精度与IOU阈值曲线下的面积(AUPC)得分来分析性能。相关公式如公式8所示。TP表示真正例,FP表示假正例。
B. 结果
我们首先比较了应用于光学图像与侧扫声纳(SSS)图像的模型性能。由于缺乏公开的包含地雷类物体(MLOs)的光学数据集,我们的重点是评估模型生成合成数据的能力及其在这些数据集上的表现。我们的定量分析显示,基于光学图像训练的模型比基于SSS图像训练的模型表现差。定性结果也表明,光学图像由于容易捕捉到过多的背景特征,常常遮挡了MLO的关键细节,使得它们更难以被清晰区分和表示。
光学图像虽然在生成合成图像时较为方便,但相比于SSS图像,其FID得分更高,表明重建的准确性较低。这个问题可能源于光学图像在低光、尘土和水面干扰的挑战性环境中的清晰度较差,而SSS图像则更能应对这些问题。SSS图像的优越性能进一步证明了它们在MLO检测中的适用性。
从表I中的结果可以看出,DDPM在数据生成方面的表现优于DDIM,这从较低的FID和KID得分中可以看出。然而,我们也看到推理时间几乎相差10倍,DDIM表现得更好。dcGAN在所有3个指标上一直表现较差,但具有最低的推理时间。
对生成图像的视觉评估也进行了;图3中展示了部分采样图像的例子。具体来说,DDPM在渲染地雷及其阴影方面表现出色,这从ORR得分中可见一斑。特别地,DDIM生成的图像显示出明显的噪声,如图3(a)和(d)所示。相比之下,DDPM生成的图像(见图3(b)和(e))呈现出明确的边界和最小的噪声。表II中的结果支持了这些结论。此外,DCGAN模型生成的图像准确地重建了背景,如图3(c)和(f)所示。表I中的ORR值进一步表明,这些合成图像难以捕捉到像地雷和阴影这样的关键细节。因此,由于ORR值极低,DCGAN生成的图像不适合用于分割任务。
我们还评估了扩散模型对噪声的鲁棒性。与DDPM生成的图像相比,DDIM生成的图像表现出更高的噪声水平。表II说明了这一点;与DDPM相比,DDIM的噪声水平大约高出10%,并且SNR降低了3%。
语义模型的结果呈现出有趣的结果,如表III所示,结果揭示了性能趋势的逆转。尽管DDPM在图像生成质量上表现明显更好,但DDIM生成的图像数据集在从合成到真实的领域泛化上表现优于DDPM。观察结果发现,结合所有三种数据集会获得最有利的结果。然而,在所有使用的指标中,当模型仅在DDIM数据集上训练时,其表现始终优于基于DDPM的同类数据集。仅使用合成图像训练时,性能几乎提高了2倍,而在原始+合成图像的组合上训练时,性能提高了大约14%。最佳结果出现在DDPM+DDIM+Original组合数据集上,AUPC为0.264,紧随其后的是DDIM+Original组合,AUPC为0.257。这表明将DDPM图像添加到数据集中并未产生太大影响。最低的结果是仅使用DDPM时,AUPC为0.096。
DDIM模型向采样图像中注入噪声,部分解释了观察到的结果变异性。以前的研究(包括[25]、[26])表明,添加噪声并增加变化可以增强语义分割模型的泛化能力,尽管这种噪声可能会导致更高的FID和KID得分。结果表明,噪声的添加有助于阻止由正则化引起的过拟合([26])。
V. 结论
本文探讨了生成侧扫声纳(SSS)图像的方法,特别是针对Syn2Real(从合成到真实)领域泛化。我们的目标是弥合在合成数据上训练与在真实世界SSS数据上取得良好表现之间的差距。
我们研究了两种生成模型:GAN和扩散模型。虽然这两种模型都在光学图像和SSS图像中进行了探索,但GAN生成的图像和光学图像的局限性使我们将重点放在SSS数据和扩散模型上。我们在下游任务中取得了显著的性能提升。将合成数据与原始数据集结合,使用Mask R-CNN进行语义分割时,分别获得了83.3%的AP和0.264的AUPC得分。通过在训练中同时使用合成图像和原始图像,我们可以看到性能比仅在原始图像上训练的模型提高了约60%。这表明,扩散模型可以生成多样化的合成数据,显著提高领域泛化能力和水下矿山检测的整体性能。
我们的分析表明,DDIM采样方法生成的合成SSS图像在领域泛化上最为有效。这是因为DDIM最终生成的图像包含更高程度的噪声,从而导致数据集更加多样化且具有更强的泛化能力。