当前位置: 首页 > article >正文

【SAM模型应用于遥感影像|论文解读3】突破边界与一致性:SAM模型革新遥感影像语义分割

【SAM模型应用于遥感影像|论文解读3】突破边界与一致性:SAM模型革新遥感影像语义分割

【SAM模型应用于遥感影像|论文解读3】突破边界与一致性:SAM模型革新遥感影像语义分割


文章目录

  • 【SAM模型应用于遥感影像|论文解读3】突破边界与一致性:SAM模型革新遥感影像语义分割
  • 三、METHODOLOGY
    • A.SAM-based Pre-processing
    • B. Network Training
      • 1) 目标一致性损失:
      • 2) 边界保持损失:


欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

论文链接:https://arxiv.org/abs/2312.02464
代码连接:https://github.com/sstary/SSRS

三、METHODOLOGY

在这里插入图片描述

该框架的示意图如图3所示。图3 (a) 展示了传统的语义分割方法,其中输入图像被输入到语义分割模型中以生成分割结果。随后,使用该输出计算分割损失,并通过反向传播进行模型更新。相比之下,我们的方法如图3 (b) 所示,加入了一个额外的阶段,该阶段使用了Meta AI提供的SAM。具体而言,我们直接使用SAM生成SGO(SAM生成的对象)和SGB(SAM生成的边界)。这些输出分别在计算对象一致性损失和边界保持损失中起到了关键作用,从而有助于模型的训练。在本节中,我们将详细解释基于SAM的预处理、网络训练以及相关的损失函数。

在这里插入图片描述

A.SAM-based Pre-processing

该基于SAM的预处理方法的示意图如图2 (b) 所示。SAM提供了一种网格提示技术,用于自动处理图像。给定输入的遥感图像 X ∈ R H × W × 3 X∈R^{H×W×3} XRH×W×3,SAM可以在网格提示设置下的所有可能位置生成整幅图像的分割掩码[44]。在本研究中,我们将分割掩码视为对象,并将每个分割掩码视为一个可以看作对象的独立封闭区域。生成的对象被存储在一个列表中,我们设置了一个阈值 K K K 来限制图像 X X X 中对象的最大数量。同时,我们还设定了一个阈值 S 来限制单个对象所包含的像素数量,从而有效过滤掉非常小的分割掩码。因此,可以获得一个SGO,记为 Y o ∈ R H × W Y_o∈R^{H×W} YoRH×W,其中每个像素的值位于区间 [ 0 , K ] [0, K] [0,K] 之内。未被分割为对象的像素以及边界被赋值为零,而 Y o Y_o Yo中的对象则通过一个标识符 i i i 进行索引,其中 i ∈ [ 1 , K ] i∈[1,K] i[1,K]SGO的数据组织如图4 (a) 所示。同时,从SGO中派生出边界先验图。这一过程包括勾画列表中每个对象的外部边界,并合并这些边界以生成一个综合的边界先验图,即SGB,记为 Y b ∈ R H × W Y_b∈R ^{H×W} YbRH×W。除非另有说明,中边界像素的标识符设为255,其他像素设为0,如图4 (b) 所示。SGO和SGB的可视化示例如图1c和d所示。
在这里插入图片描述

B. Network Training

经典的编码器-解码器网络(如UNetformer[21])在语义分割方法中被广泛使用。在本研究中,我们将其作为提出框架中的语义分割模型。给定输入图像 X X X,语义分割模型生成预测的分割输出,记为 P ∈ R H × W × C P∈R ^{H×W×C} PRH×W×C,其中 C C C 是地物类别的数量。学习目标是最小化关于语义分割模型参数的基于交叉熵的分割损失,公式如下:
在这里插入图片描述

其中 Y Y Y 表示地面真实值。

鉴于 SGO 和 SGB 仅用于计算损失函数,提出的框架无需对网络结构和训练策略进行任何额外的修改或调整。因此,我们的方法的学习目标是最小化以下复合损失函数:
在这里插入图片描述

其中 L o b j L_{obj} Lobj L b d y L_{bdy} Lbdy分别表示目标一致性损失和边界保持损失。此外, λ o λ_o λo λ b λ_b λb是平衡三种损失的两个权重系数。

1) 目标一致性损失:

目标一致性损失旨在保持给定输入图像中目标内像素的一致性。给定输入 X X X,语义分割模型的输出表示为 P P P。为了计算目标一致性损失,我们遍历 Y o Y_o Yo 中的所有目标。数据流如图 5 所示。对于每个目标,我们首先提取其掩膜 M i M_i Mi,即 Y o Y_o Yo 中像素值等于 i i i 的区域。然后通过以下方式获取目标特征:
在这里插入图片描述

其中 ⊙ ⊙ 表示Hadamard积。目标特征 F o i F^i_o Foi表示基于第 i i i 个目标区域筛选后的模型预测。接下来,我们可以计算该目标的平均特征,如下所示:
在这里插入图片描述

其中, G G G 计算空间维度上所有像素的总和,并将其重塑为原始形状,而 N i N_i Ni 是第 i i i 个目标中的点数。为了避免分母为零,添加了一个额外的值。 F i a v g F_i^{avg} Fiavg表示第 i i i 个目标中所有像素的期望均值。因此,我们可以计算所有目标的目标一致性损失 L o b j L_{obj} Lobj,其公式为:
在这里插入图片描述

其中, M S E ( ⋅ ) MSE(·) MSE() 是均方误差函数。显然,所提出的 L o b j L_{obj} Lobj直接利用了由 SAM 生成的区域,充分利用了 SGO 中详细的分割掩码信息。

2) 边界保持损失:

先前的研究[61, 62, 42]已经证明,引入边缘约束可以有效提高遥感任务中语义分割模型的性能。我们的观察表明,SGO 本质上包含高度详细的边界信息,如图 1 (d) 所示。为了利用这些边界信息,我们在 Yo 中将边界设置为 0,并生成 SGB,记作 Y b Y_b Yb 。在本研究中,采用能够直接从语义模型的分割输出 P P P 计算边界保持损失的边界度量(BF1)[42] 来评估边界检测的精度。边界保持损失 L b d y L_{bdy} Lbdy的定义为:

其中,BF1 定义为:
在这里插入图片描述

其中 P b P_b Pb r b r_b rb分别表示边界的精确度和召回率,这可以全面评估从 P P P Y b Y_b Yb得到的边界检测结果的准确性[42]。

最后,训练语义分割模型所采用的整体目标函数由式 (2) 给出,该函数将语义分割损失 L s e g L_{seg} Lseg 、对象一致性损失 L o b j L_{obj} Lobj和边界保持损失 L b d y L_{bdy} Lbdy进行求和。

欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz


http://www.kler.cn/news/350824.html

相关文章:

  • 设计模式---模版模式
  • 数据结构——队列和栈
  • WPF中的<Style.Triggers>
  • 信息安全工程师(66)入侵阻断技术与应用
  • GO excelize 读取excel进行时间类型转换(自动转换)
  • three.js 灯光
  • 大模型入门到精通!大模型应用开发极简入门(含PDF)
  • 信息安全工程师(52)网络安全审计系统组成与类型
  • 第3篇:传输层协议
  • Spark高级用法-数据源的读取与写入
  • Centos 7.5上配置mailx发送邮件
  • 《C++开发 AR 游戏:开启未来娱乐新潮流》
  • 六、IPD 方法论框架(IPD的核心流程)
  • UPDATE 更新数据
  • 【FP60】林业害虫数据集——目标检测、图像分类
  • 微软十月补丁星期二发现了 118 个漏洞
  • windows性能调优--基本性能优化
  • 传感器应用注意事项
  • PDF-XChange PRO v10.4.2.390 x64 已授权中文特别版
  • C++面试速通宝典——29
  • java代码生成器集成dubbo,springcloud详解以及微服务遐想
  • 【Golang】Go语言Web开发之模板渲染
  • Tortoise SVN 安装汉化教程(乌龟SVN)
  • git清除提交
  • 一步步讲解:如何通过动态规划解决「爬楼梯最低花费」问题
  • Linux--firewalld服务