当前位置：首页 > article >正文

论文笔记：基于并行注意力 UNet的裂缝检测方法

article 2025/3/10 3:52:06

0 简介

论文：基于并行注意力 UNet的裂缝检测方法（Parallel Attention Based UNet for Crack Detection）；
发表：2021年发表在《计算机研究与发展》上。

1 问题分析

问题：裂缝图像中存在噪声、光线、阴影等因素干扰；
解决方法：比较流行的解决方案是嵌入注意力机制以抑制各种干扰；
缺点：现有的注意力机制大都采用串行结构，能有效抑制大部分干扰，但仍受到明亮噪声的影响，导致效果降低；
本文的方法：设计一种并行注意力机制，从空间和通道２个维度抑制干扰，通过并行结构融合两者特征以获取更具互补性的裂缝特征，有效抑制了各种干扰。

2 具体方案

在这里插入图片描述
三个部分组成：

网络的编码层，由卷积和池化组成；
网络的解码层，由卷积、反卷积和sigmoid函数组成；
注意力模块。

在这里插入图片描述
并行注意力机制分为三条线来说明。
第一条线：

输入：特征图 $\in \mathbb{R}^{H \times W \times C}$ ；
输出：特征图 $\in \mathbb{R}^{H \times W \times C}$ ；
处理：
– 利用最大池化提取全局特征 $\in \mathbb{R}^{1 \times 1 \times C}$
– 利用下面的公式计算得到权重图 $\in \mathbb{R}^{1 \times 1 \times C}$ ，第 $i$ 通道的权重值 $e_i$ 为：
$e_{i}=\sigma\left(\sum_{j=1}^{k} w_{i}^{j} z_{i}^{j}\right), z_{i}^{j} \in \Omega_{i}^{k}$
其中 $w_{i}^{j}$ 表示第 $i$ 个通道的第 $\in [1, k]$ 个权重参数, $\Omega_{i}^{k}$ 表示第 $i$ 个通道的 $k$ 个相邻通道全局特征的集合；【这个公式有两个问题：（1） $w_{i}^{j}$ 是通过学习得到的吗？（2） $z_{i}^{j} \in \Omega_{i}^{k}$ 是从 $\Omega_{i}^{k}$ 中任取一个，还是遍历所有特征点，由于作者没有提供源代码，我们只能猜，如果是遍历，我觉得这个公式还应该有一层循环才对。】

第二条线：

输入：特征图 $\in \mathbb{R}^{H \times W \times C}$ ；
输出：特征图 $\in \mathbb{R}^{H \times W \times C}$ ；
处理：
– 利用最大池化得到 $F_{\mathrm{max}}^s \in \mathbb{R}^{H \times W \times 1}$ ;
– 利用平均池化得到 $F_{\mathrm{avg}}^s \in \mathbb{R}^{H \times W \times 1}$ ;
– 权重图 $H$ ：将这２个单通道的特征图结合，生成一个权重图【具体怎么做的没说？】