当前位置：首页 > article >正文

【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割

article 2025/4/2 13:08:07

【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割

文章目录

【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割
2. Related work
- 2.1. CNN-based semantic segmentation methods
- 2.2. Global contextual information modelling
- 2.3. Transformer-based semantic segmentation methods

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文：
可访问艾思科蓝官网，浏览即将召开的学术会议列表。会议入口：https://ais.cn/u/mmmiUz

论文地址：https://www.sciencedirect.com/science/article/abs/pii/S0924271622001654
在这里插入图片描述

2. Related work

2.1. CNN-based semantic segmentation methods

全卷积网络（FCN）（Long et al., 2015）是首个有效的CNN结构，旨在以端到端的方式解决语义分割问题。从那时起，基于CNN的方法在遥感领域的语义分割任务中占据了主导地位（Kemker et al., 2018；Kotaridis and Lazaridou, 2021；Ma et al., 2019；Tong et al., 2020；Zhao and Du, 2016；Zhu et al., 2017）。然而，FCN的简化解码器导致了粗分辨率的分割，限制了分割的保真度和准确性。

为了解决这个问题，提出了一种编码器-解码器网络，即UNet，用于语义分割，包含两个对称路径：收缩路径和扩展路径（Ronneberger et al., 2015）。收缩路径通过逐渐下采样特征图的空间分辨率来提取层次特征，而扩展路径则通过逐步恢复空间分辨率来学习更多的上下文信息。

随后，编码器-解码器框架成为遥感图像分割网络的标准结构（Badrinarayanan et al., 2017；Chen et al., 2018a；Sun et al., 2019）。基于编码器-解码器结构的研究（Diakogiannis et al., 2020；Yue et al., 2019；Zhou et al., 2018）设计了不同的跳跃连接以捕捉更丰富的上下文，而（Liu et al., 2018；Zhao et al., 2017b；Shen et al., 2019）则开发了各种解码器以保留语义信息。尽管基于编码器-解码器的CNN方法取得了良好的性能，但在城市场景理解中仍面临瓶颈（Sherrah, 2016；Marmanis et al., 2018；Nogueira et al., 2019）。具体而言，受限于感受野的CNN分割网络仅能提取局部语义特征，缺乏建模整个图像的全局信息的能力。然而，在高分辨率的遥感城市场景图像中，复杂的模式和人造物体频繁出现（Kampffmeyer et al., 2016；Marcos et al., 2018；Audebert et al., 2018）。仅依靠局部信息很难识别这些复杂物体。

2.2. Global contextual information modelling

为了使网络摆脱CNN局部模式的局限，许多研究致力于建模全局上下文信息，其中最流行的方法是将注意力机制引入网络。例如，Wang等（2018）修改了点积自注意力机制并将其应用于计算机视觉领域。Fu等（2019）在扩张全卷积网络（dilated FCN）上添加了两种类型的注意力模块，以自适应地整合局部特征及其全局依赖。Huang等（2020）**提出了交叉注意力块，以聚合信息丰富的全局特征。Yuan等（2020）开发了物体上下文块，以探索基于物体的全局关系。

注意力机制还提高了遥感图像分割网络的性能。Yang等（2021b）提出了一种注意力融合网络，融合了高层和低层语义特征，在高分辨率遥感图像的语义分割中取得了领先的结果。Li等（2020a）集成了轻量级的空间和通道注意力模块，以自适应地精炼语义特征，从而提高高分辨率遥感图像的分割效果。Ding等（2021）设计了一个具有嵌入模块的局部注意力块，以捕捉更丰富的上下文信息。Li等（2021a）开发了一种线性注意力机制，降低计算复杂度同时提升性能。然而，上述注意力模块因过度依赖卷积操作而限制了全局特征表示。此外，单一的注意力模块无法在解码器中对多层次语义特征进行全局信息建模。

2.3. Transformer-based semantic segmentation methods

近期，多个研究尝试将Transformer应用于全局信息提取（Vaswani等，2017）。与CNN结构不同，Transformer将基于二维图像的任务转换为基于一维序列的任务。**由于其强大的序列到序列建模能力，Transformer在提取全局上下文方面的表现优于上述仅依赖注意力的模型，并在基础视觉任务中取得了先进的结果，**如图像分类（Dosovitskiy等，2020）、目标检测（Zhu等，2020）和语义分割（Zheng等，2021）。受到此影响，许多遥感领域的研究者开始应用Transformer进行遥感图像场景分类（Bazi等，2021；Deng等，2021）、高光谱图像分类（He等，2021；Hong等，2021）、目标检测（Li等，2022a）、变化检测（Chen等，2021a）、建筑物和道路提取（Chen等，2021c；Sun等，2022），尤其是在语义分割任务中（Wang等，2021b，2022）。

现有的语义分割Transformer大多遵循编码器-解码器框架，依据不同的编码器-解码器组合可分为两类。第一类是由Transformer编码器和Transformer解码器构成的纯Transformer结构，典型模型包括Segmenter（Strudel等，2021）、SegFormer（Xie等，2021）和SwinUNet（Cao等，2021）。第二类采用混合结构，由Transformer编码器和CNN解码器组成。基于Transformer的语义分割方法通常遵循第二种结构。例如，TransUNet使用混合视觉Transformer（Dosovitskiy等，2020）作为编码器，以增强特征提取能力，并在医学图像分割中取得了领先的结果（Chen等，2021b）。DC-Swin则引入Swin Transformer（Liu等，2021）作为编码器，并设计了一个密集连接的卷积解码器，针对高分辨率遥感图像分割，显著超越了基于CNN的方法（Wang等，2022）。Panboonyuen等（2021）也选择了Swin Transformer作为编码器，并利用多种基于CNN的解码器，如UNet（Ronneberger等，2015）、FPN（Kirillov等，2019）和PSP（Zhao等，2017a），进行遥感图像的语义分割，取得了较高的精度。

尽管如此，基于Transformer的编码器因其平方复杂度的自注意力机制（Vaswani等，2017）而计算复杂度远高于基于CNN的编码器，这严重影响了其在与城市相关的实时应用中的潜力和可行性。

因此，为了充分利用Transformer在全局上下文提取中的能力而不导致高计算复杂度，本文提出了一种UNet-like Transformer，结合CNN编码器和Transformer解码器，用于高效的遥感城市场景图像语义分割。具体来说，我们为UNetFormer选择了轻量级的ResNet18作为编码器，并开发了高效的全局-局部注意力机制来构建解码器中的Transformer模块。所提出的高效全局-局部注意力机制采用双支路结构，即全局支路和局部支路。这种结构使注意力模块能够同时捕捉全局和局部上下文，从而超越了仅捕捉全局上下文的单支路高效注意力机制（Liu等，2021；Zhang和Yang，2021）。

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！