论文笔记:基于并行注意力 UNet的裂缝检测方法
0 简介
论文:基于并行注意力 UNet的裂缝检测方法(Parallel Attention Based UNet for Crack Detection);
发表:2021年发表在《计算机研究与发展》上。
1 问题分析
问题:裂缝图像中存在噪声、光线、阴影等因素干扰;
解决方法:比较流行的解决方案是嵌入注意力机制以抑制各种干扰;
缺点:现有的注意力机制大都采用串行结构,能有效抑制大部分干扰,但仍受到明亮噪声的影响,导致效果降低;
本文的方法:设计一种并行注意力机制,从空间和通道2个维度抑制干扰,通过并行结构融合两者特征以获取更具互补性的裂缝特征,有效抑制了各种干扰。
2 具体方案
三个部分组成:
- 网络的编码层,由卷积和池化组成;
- 网络的解码层,由卷 积、反卷积和sigmoid函数组成;
- 注意力模块。
并行注意力机制分为三条线来说明。
第一条线:
- 输入:特征图 F ∈ R H × W × C F \in \mathbb{R}^{H \times W \times C} F∈RH×W×C;
- 输出:特征图 Q ∈ R H × W × C Q \in \mathbb{R}^{H \times W \times C} Q∈RH×W×C;
- 处理:
– 利用最大池化提取全局特征 M ∈ R 1 × 1 × C M \in \mathbb{R}^{1 \times 1 \times C} M∈R1×1×C
– 利用下面的公式计算得到权重图 N ∈ R 1 × 1 × C N \in \mathbb{R}^{1 \times 1 \times C} N∈R1×1×C,第 i i i通道的权重值 e i e_i ei为:
e i = σ ( ∑ j = 1 k w i j z i j ) , z i j ∈ Ω i k e_{i}=\sigma\left(\sum_{j=1}^{k} w_{i}^{j} z_{i}^{j}\right), z_{i}^{j} \in \Omega_{i}^{k} ei=σ(j=1∑kwijzij),zij∈Ωik
其中 w i j w_{i}^{j} wij表示第 i i i个通道的第 j ∈ [ 1 , k ] j \in [1, k] j∈[1,k]个权重参数, Ω i k \Omega_{i}^{k} Ωik表示第 i i i个通道的 k k k个相邻通道全局特征的集合;【这个公式有两个问题:(1) w i j w_{i}^{j} wij是通过学习得到的吗?(2) z i j ∈ Ω i k z_{i}^{j} \in \Omega_{i}^{k} zij∈Ωik是从 Ω i k \Omega_{i}^{k} Ωik中任取一个,还是遍历所有特征点,由于作者没有提供源代码,我们只能猜,如果是遍历,我觉得这个公式还应该有一层循环才对。】
第二条线:
- 输入:特征图 F ∈ R H × W × C F \in \mathbb{R}^{H \times W \times C} F∈RH×W×C;
- 输出:特征图 P ∈ R H × W × C P \in \mathbb{R}^{H \times W \times C} P∈RH×W×C;
- 处理:
– 利用最大池化得到 F m a x s ∈ R H × W × 1 F_{\mathrm{max}}^s \in \mathbb{R}^{H \times W \times 1} Fmaxs∈RH×W×1;
– 利用平均池化得到 F a v g s ∈ R H × W × 1 F_{\mathrm{avg}}^s \in \mathbb{R}^{H \times W \times 1} Favgs∈RH×W×1;
– 权重图 H H H:将这2个单通道的特征图结合,生成一个权重图【具体怎么做的没说?】
第三条线:
- 输入:特征图 P ∈ R H × W × C P \in \mathbb{R}^{H \times W \times C} P∈RH×W×C和特征图 Q ∈ R H × W × C Q \in \mathbb{R}^{H \times W \times C} Q∈RH×W×C;
- 输出:特征图 G ∈ R H × W × C G \in \mathbb{R}^{H \times W \times C} G∈RH×W×C;
- 处理:融合。