当前位置：首页 > article >正文

论文阅读笔记：Tree Energy Loss: Towards Sparsely Annotated Semantic Segmentation

article 2025/2/21 19:43:18

论文阅读笔记：Tree Energy Loss: Towards Sparsely Annotated Semantic Segmentation

1 背景
2 创新点
3 方法
4 模块
- 4.1 出发点
- 4.2 总体框架
- 4.3 树能量损失
- - 4.3.1 树亲和力生成
  - 4.3.2 级联过滤
  - 4.3.3 软标签分配
5 效果
- 5.1 总体效果
- 5.2 消融实验
- - 5.2.1 损失形式
  - 5.2.2 亲和等级
  - 5.2.3 亲和力生成
  - 5.2.4 亲和力聚合
  - 5.2.5 超参数
  - 5.2.6 伪标签的质量
6 结论

1 背景

稀疏注释语义分割（SASS）旨在训练具有粗粒度（即点式、涂鸦式和块式）监督的分割网络，其中每个图像中仅标记一小部分像素。

如图1（a-d）所示，现有方法主要基于辅助任务、伪标签、正则化损失和一致性学习来解决SASS。然而，这些方法也存在一些缺点。
在这里插入图片描述

辅助任务的预测误差可能会阻碍语义分割的性能。

伪标签非常耗时，通常需要多阶段训练策略。

正则化损失忽视视觉信息和高级语义之间的领域差距。

一致性学习无法直接监督类别级别的未标记像素。

在本文中，作者旨在减轻这些缺点并介绍一种简单而有效的解决方案。

在SASS中，每张图像可以分为标记区域和未标记区域。标记区域可以直接受GT监督，而如何从未标记区域中学习是一个悬而未决的问题。对于同一对象的区域，标记和未标记像素在低级颜色（图像的 RGB 值）和高级响应（CNN 生成的特征）上共享相似的模式。在 SASS 中利用这种先验相似性是直观的。受树过滤器的启发，树过滤器可以利用其结构保持特性对成对相似性进行建模，作者利用该特性为未标记区域生成软伪标签并实现在线自训练。

2 创新点

为 SASS 提出了一种新颖的树能量损失（TEL）。 TEL 利用最小生成树来模拟像素之间的低层和高层结构关系。进一步引入级联过滤操作，以从粗到细的方式从网络预测动态生成软伪标签。 TEL 干净且易于插入大多数现有分段网络。

3 方法

在本文中，通过为未标记像素提供语义指导，提出了一种新颖的 SASS 树能量损失。树能量损失将图像表示为最小生成树，以对低级和高级成对亲和力进行建模。通过将这些亲和力顺序应用到网络预测中，以从粗到细的方式生成未标记像素的软伪标签，实现动态在线自训练。通过将树能量损失与传统的分割损失相结合，树能量损失是有效的并且易于合并到现有框架中。

具体来说，引入了一种基于图像的低级和高级相似性的新颖的树能量损失（TEL）（见图1 （e））。在 TEL 中，两个最小生成树（MST）分别建立在低级颜色和高级语义特征上。每个MST都是通过依次消除相异度较大的相邻像素之间的连接来获得的，因此分离出相关性较小的像素，并保留了像素之间的本质关系。然后，通过沿 MST 累积边缘权重获得的两个结构感知亲和力矩阵以级联方式与网络预测相乘，产生软伪标签。最后，将生成的伪标签分配给未标记的区域。将 TEL 与标准分割损失（例如交叉熵损失）相结合，任何分割网络都可以通过动态在线自训练从未标记区域学习额外的知识。
在这里插入图片描述

为了全面验证TEL的有效性，通过引入逐块注释设置（见图2（e））进一步丰富SASS场景，其中标注数量位于完整设置和涂鸦设置之间。这样，作者就可以将SASS分为三个级别，即点、涂鸦和块。实验结果表明，TEL 可以显着提高分割性能，而不会在推理过程中引入额外的计算成本。

4 模块

4.1 出发点

SASS 任务旨在训练具有粗粒度（即点式、涂鸦式或块式）标签的密集预测模型，其中大多数像素的标注在训练期间是不可见的。在 SASS 中，整个图像可以分为两部分：标记集 $Ω_L$ 和未标记集 $Ω_U$ 。对于标记集 $Ω_L$ ，可以简单地使用相应的GT进行训练。至于 $Ω_U$ ，在传统的语义分割框架中往往被忽略，导致性能下降。本文旨在为 SASS 提供一个简单而有效的解决方案。由于属于同一对象的像素在不同的特征级别共享相似的模式，因此本文利用这些相似性为 $Ω_U$ 中未标记的像素提供额外的监督。受树过滤器的启发，本文基于其结构保持特性对这种成对相似性进行建模。成对相似性与网络预测一起用于为未标记像素生成软伪标签。配合 $Ω_L$ 中的监督学习，构建在线自训练框架，实现训练过程中网络预测和伪标签的逐步改进。

4.2 总体框架

在这里插入图片描述

图3说明了本文方法的整体架构，它由标记像素的分割分支和未标记像素的辅助分支组成。分割分支将稀疏标注的标签 $Y$ 分配给标记的像素。对于辅助分支，成对的亲和力矩阵 $A^{low}$ 、 $A^{high}$ 由原始图像 $I$ 和嵌入特征 $F$ 生成。然后使用亲和力矩阵 $A^{low}$ 、 $A^{high}$ 来细化网络预测 $P$ 并生成软伪标签 $\widetilde{Y}$ 。生成的软标签被分配给未标记的像素。因此，整体损失函数包括分割损失 $L_{seg}$ 和树能量损失 $L_{tree}$ 。
在这里插入图片描述

对于 $L_{seg}$ ，使用pCE损失
在这里插入图片描述

4.3 树能量损失

给定带有稀疏标注的训练图像，TEL 学会为未标记的像素提供类别指导。 TEL主要包括以下三个步骤：（1）树亲和力生成步骤，用于建模成对关系。 (2) 级联过滤步骤生成伪标签。 (3)软标签分配步骤，为未标记的像素分配伪标签。

4.3.1 树亲和力生成

在这里插入图片描述

图像可以表示为无向图 $G = (V, E)$ ，其中顶点集 $V$ 由所有像素组成，两个相邻顶点之间的边组成边集 $E$ 。如图4 所示，采用4个连通平面图的架构，其中每个像素最多与4个相邻像素相邻。设图上顶点 $i$ 和顶点 $j$ 相邻，它们之间的低层和高层权重函数可以分别定义为
在这里插入图片描述

$F (i)$ 由 $1 \times 1$ 卷积层根据分割模型分类层之前的特征产生。一旦获得边权重，就可以通过从 $E$ 中顺序删除权重最大的边来构建MST，同时保证图的连通性。作者使用 Boruvka 算法构建低级和高级 MST。基于MST的拓扑结构，同一对象内的顶点共享相似的特征表示，并且倾向于优先相互交互。

MST的两个顶点之间的距离可以通过其连接边的权重求和来计算。顶点间最短路径的距离，记为 $E$ ，构成MST的距离图

在这里插入图片描述

为了捕获顶点之间的远程关系，将距离图投影到正亲和力矩阵
在这里插入图片描述

其中 $σ$ 是预设的常数值，用于调制颜色信息。给定训练图像，低级亲和力 $A^{low}$ 是静态的，而高级亲和力 $A^{high}$ 在训练期间是动态的。它们捕获不同特征级别的成对关系。通过共同利用它们，可以学习互补的知识。

4.3.2 级联过滤

由于低层亲和力矩阵 $A^{low}$ 包含对象边界信息，而高层亲和力矩阵 $A^{high}$ 保持语义一致性，因此引入级联过滤策略来从网络预测生成伪标签 $\widetilde{Y}$

在这里插入图片描述

其中 $P$ 是 softmax 操作后的预测。通过与低级和高级亲和力连续相乘，可以以从粗到细的方式细化网络预测，从而产生高质量的软伪标签。滤波运算 $F (\cdot)$ 表示如下（只针对 $i$ 像素）

在这里插入图片描述

其中 $Ω = Ω_L ∪ Ω_U$ 是所有像素的完整集合， $z_i = Σ_j A_{i,j}$ 是归一化项。为加速式-7的计算，采用LTF[26]中的高效实现来实现线性计算复杂度。如图5所示，通过考虑结构信息，级联过滤生成的伪标签可以比原始预测保留更清晰的语义边界。由于语义边界对语义分割很重要，而在稀疏标注中被错误标记，因此可以通过为未标记像素分配伪标签来提高分割模型的性能。
在这里插入图片描述

4.3.3 软标签分配

现在获得了伪标签，TEL 被设计用于软伪标签分配

其中 $δ$ 是标签分配函数，它测量预测概率 $P$ 和伪标签 $\widetilde{Y}$ 之间的距离。 $δ$ 的一些自然选择可以是 $L_1$ 距离、 $L_2$ 距离等。凭经验选择 $L_1$ 距离作为标签分配函数。最终形成的TEL描述如下

在这里插入图片描述

请注意，TEL 仅关注未标记区域，因为标记区域是通过明确准确的监督来学习的。TEL 不是从稀疏注释生成伪标签，而是从网络预测生成软标签。因此，数据驱动的模型学习过程将有利于在线自我训练策略。

5 效果

5.1 总体效果

不同模型之间的指标对比。
在这里插入图片描述

模型的可视化效果。
在这里插入图片描述

5.2 消融实验

在这里插入图片描述

5.2.1 损失形式

TEL 学习为未标记的像素分配软标签。进行了关于式-8中损失形式的实验来评估 TEL 的有效性。基线模型在pCE损失的情况下达到了 68.8%。如表3(a)所示，可以通过不同形式的TEL来提高性能。其中，L1距离取得了最好的结果，达到了77.1% mIoU，因此选择它作为TEL的最终实现。

5.2.2 亲和等级

TEL 利用低级和高级结构信息来为未标记的像素生成伪标签。为了评估其有效性，在表3(b)中进行了消融研究。与基线相比，引入低层和高层信息可以分别实现 7.5% 和 3.1% mIoU 的改进。采用这两种方法，本文的方法达到了 77.1% mIoU，比基线高 8.3%。

5.2.3 亲和力生成

TEL 捕获低级和高级结构信息以生成式-5中的亲和力矩阵。如表3©所示，比较了成对亲和力生成的不同方法，包括用于低级别亲和力的双边过滤器（BF）和用于高级别亲和力的非本地操作（NL）。本文的方法基于 MST 生成亲和力矩阵。与 BF 相比，本文的方法需要更少的超参数，同时实现更高的精度。至于高水平亲和力，本文的方法实现了比 NL 高 1.7% 的 mIoU。这些结果证明了 TEL 在低水平和高水平亲和力生成中的有效性。

5.2.4 亲和力聚合

如何聚合多级别的信息对于伪标签的生成至关重要，参考式-6。作者根据聚合策略构建不同的 TEL 变体。如表3(d)所示，LH-P表示并行聚合的变体。在这种情况下，低层和高层亲和力矩阵分别与网络预测相乘以产生两个伪标签，并且它们都用作未标记像素的指导。与并行聚合策略相反，级联聚合策略将网络预测与多级亲和力矩阵一一合并，以顺序细化伪标签。在级联策略中，作者发现首先聚合低级信息（表示为 LH-C）比首先聚合高级信息的变体（表示为 HL-C）获得更好的结果。

5.2.5 超参数

式-1中的 $λ$ 和式-5中的 $σ$ 。λ是平衡分割损失和TEL的因子。结果报告在表 3(e)中。作者为 TEL 选择 λ = 0.4。 $σ$ 是低级亲和力矩阵投影的归一化项。评估 $σ$ 的影响并将结果报告在表 3“(f)” (Liang 等, 2022, p. 16914) (pdf) 中。 $σ$ 的值对分割精度不敏感，在Pascal VOC 2012数据集上当 $σ$ 等于 0.02 时获得最高mIoU。

5.2.6 伪标签的质量

作者评估 Cityscapes 数据集上未标记像素的伪标签的质量。基线分割模型是HRNet。如图7所示，对于使用TEL学习的模型，训练过程开始时伪标签的精度高于网络预测，这为模型学习提供了重要指导。随着迭代次数的增加，预测和伪标签之间的精度差距逐渐缩小，而两者的性能一直在提高。与基线相比，TEL可以帮助分割模型从未标记的数据中学习额外的知识并实现性能提升（训练期间从5.6％mIoU到7.3％mIoU）。
在这里插入图片描述