当前位置：首页 > article >正文

【SAM模型应用于遥感影像|论文解读3】突破边界与一致性：SAM模型革新遥感影像语义分割

article 2025/2/28 15:36:18

【SAM模型应用于遥感影像|论文解读3】突破边界与一致性：SAM模型革新遥感影像语义分割

文章目录

【SAM模型应用于遥感影像|论文解读3】突破边界与一致性：SAM模型革新遥感影像语义分割
三、METHODOLOGY
- A.SAM-based Pre-processing
- B. Network Training
- - 1) 目标一致性损失：
  - 2) 边界保持损失：

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文：
可访问艾思科蓝官网，浏览即将召开的学术会议列表。会议入口：https://ais.cn/u/mmmiUz

论文链接：https://arxiv.org/abs/2312.02464
代码连接：https://github.com/sstary/SSRS

三、METHODOLOGY

在这里插入图片描述

该框架的示意图如图3所示。图3 (a) 展示了传统的语义分割方法，其中输入图像被输入到语义分割模型中以生成分割结果。随后，使用该输出计算分割损失，并通过反向传播进行模型更新。相比之下，我们的方法如图3 (b) 所示，加入了一个额外的阶段，该阶段使用了Meta AI提供的SAM。具体而言，我们直接使用SAM生成SGO（SAM生成的对象）和SGB（SAM生成的边界）。这些输出分别在计算对象一致性损失和边界保持损失中起到了关键作用，从而有助于模型的训练。在本节中，我们将详细解释基于SAM的预处理、网络训练以及相关的损失函数。

在这里插入图片描述

A.SAM-based Pre-processing

该基于SAM的预处理方法的示意图如图2 (b) 所示。SAM提供了一种网格提示技术，用于自动处理图像。给定输入的遥感图像 $X∈R^{H×W×3}$ ，SAM可以在网格提示设置下的所有可能位置生成整幅图像的分割掩码[44]。在本研究中，我们将分割掩码视为对象，并将每个分割掩码视为一个可以看作对象的独立封闭区域。生成的对象被存储在一个列表中，我们设置了一个阈值 $K$ 来限制图像 $X$ 中对象的最大数量。同时，我们还设定了一个阈值 S 来限制单个对象所包含的像素数量，从而有效过滤掉非常小的分割掩码。因此，可以获得一个SGO，记为 $Y_o∈R^{H×W}$ ，其中每个像素的值位于区间 $[0, K]$ 之内。未被分割为对象的像素以及边界被赋值为零，而 $Y_o$ 中的对象则通过一个标识符 $i$ 进行索引，其中 $i \in [1, K]$ 。SGO的数据组织如图4 (a) 所示。同时，从SGO中派生出边界先验图。这一过程包括勾画列表中每个对象的外部边界，并合并这些边界以生成一个综合的边界先验图，即SGB，记为 $Y_b∈R ^{H×W}$ 。除非另有说明，中边界像素的标识符设为255，其他像素设为0，如图4 (b) 所示。SGO和SGB的可视化示例如图1c和d所示。
在这里插入图片描述

B. Network Training

经典的编码器-解码器网络（如UNetformer[21]）在语义分割方法中被广泛使用。在本研究中，我们将其作为提出框架中的语义分割模型。给定输入图像 $X$ ，语义分割模型生成预测的分割输出，记为 $P∈R ^{H×W×C}$ ，其中 $C$ 是地物类别的数量。学习目标是最小化关于语义分割模型参数的基于交叉熵的分割损失，公式如下：
在这里插入图片描述

其中 $Y$ 表示地面真实值。

鉴于 SGO 和 SGB 仅用于计算损失函数，提出的框架无需对网络结构和训练策略进行任何额外的修改或调整。因此，我们的方法的学习目标是最小化以下复合损失函数：
在这里插入图片描述

其中 $L_{obj}$ 和 $L_{bdy}$ 分别表示目标一致性损失和边界保持损失。此外， $λ_o$ 和 $λ_b$ 是平衡三种损失的两个权重系数。

1) 目标一致性损失：

目标一致性损失旨在保持给定输入图像中目标内像素的一致性。给定输入 $X$ ，语义分割模型的输出表示为 $P$ 。为了计算目标一致性损失，我们遍历 $Y_o$ 中的所有目标。数据流如图 5 所示。对于每个目标，我们首先提取其掩膜 $M_i$ ，即 $Y_o$ 中像素值等于 $i$ 的区域。然后通过以下方式获取目标特征：
在这里插入图片描述

其中 $⊙$ 表示Hadamard积。目标特征 $F^i_o$ 表示基于第 $i$ 个目标区域筛选后的模型预测。接下来，我们可以计算该目标的平均特征，如下所示：
在这里插入图片描述

其中， $G$ 计算空间维度上所有像素的总和，并将其重塑为原始形状，而 $N_i$ 是第 $i$ 个目标中的点数。为了避免分母为零，添加了一个额外的值。 $F_i^{avg}$ 表示第 $i$ 个目标中所有像素的期望均值。因此，我们可以计算所有目标的目标一致性损失 $L_{obj}$ ，其公式为：
在这里插入图片描述

其中， $MSE (\cdot)$ 是均方误差函数。显然，所提出的 $L_{obj}$ 直接利用了由 SAM 生成的区域，充分利用了 SGO 中详细的分割掩码信息。

2) 边界保持损失：

先前的研究[61, 62, 42]已经证明，引入边缘约束可以有效提高遥感任务中语义分割模型的性能。我们的观察表明，SGO 本质上包含高度详细的边界信息，如图 1 (d) 所示。为了利用这些边界信息，我们在 Yo 中将边界设置为 0，并生成 SGB，记作 $Y_b$ 。在本研究中，采用能够直接从语义模型的分割输出 $P$ 计算边界保持损失的边界度量（BF1）[42] 来评估边界检测的精度。边界保持损失 $L_{bdy}$ 的定义为：