Frequency-Adaptive Dilated Convolution for Semantic Segmentation
频率自适应膨胀卷积语义分割
论文链接:https://arxiv.org/abs/2403.05369
项目链接:https://github.com/ying-fu/FADC
Abstract
膨胀卷积通过在连续元素之间插入间隙来扩展感受野,在计算机视觉中得到了广泛的应用。在本研究中,我们从频谱分析的角度提出了三种策略来改进膨胀卷积的各个阶段。与将全局膨胀率固定为超参数的传统做法不同,我们引入了频率自适应膨胀卷积(FADC),它基于局部频率分量在空间上动态调整膨胀率。随后,我们设计了两个插件模块来直接提高有效带宽和感受野大小。自适应核(AdaKern)模块将卷积权重分解为低频和高频分量,并在每个通道的基础上动态调整这些分量之间的比例。通过增加卷积权值的高频部分,AdaKern捕获更多的高频分量,从而提高有效带宽。频率选择(FreqSelect)模块通过空间可变重加权来最佳地平衡特征表示中的高频和低频分量。它抑制了背景中的高频,以鼓励FADC学习更大的膨胀,从而增加了扩大范围的感受野。大量的分割和目标检测实验一致地验证了我们的方法的有效性。
1. Introduction
膨胀卷积以膨胀率(D)在滤波器值之间插入间隙,以扩大感受野,而不会显著增加计算负荷。该技术广泛应用于计算机视觉任务,如语义分割[9,78]和目标检测[55]。
虽然以较大的膨胀率有效地扩大了感受野的大小,但这是以高频分量响应为代价的[78]。将膨胀率从1增加到D,相当于通过插入零将卷积核膨胀一个因子D。根据傅里叶变换的缩放特性[51,56],卷积核的频响曲线和带宽都会缩放到 1 D \frac{1}{D} D1。如图1所示,D = 4时红色曲线的带宽仅为D = 1时蓝色曲线的四分之一。减少的带宽极大地限制了层处理高频组件的能力。例如,当特征映射的频率高于膨胀卷积的采样率时,就会出现网格伪影[67,78]。
本文从频谱分析的角度,引入频率自适应膨胀卷积(FADC)来增强膨胀卷积。如图2所示,FADC包括三个关键策略,即自适应膨胀率(AdaDR)、自适应核(AdaKern)和频率选择(FreqSelect),旨在增强vanilla膨胀卷积的各个阶段。AdaDR空间调节膨胀率,AdaKern对卷积核权值进行操作,而FreqSelect直接平衡输入特征的频率功率,以鼓励感受野的膨胀。
与传统的全局确定膨胀率的方法不同,我们的AdaDR基于频谱动态地局部分配膨胀率。例如,在图1(a)的patch1中,车辆边界呈现出大量高频成分(用蓝色实线表示),AdaDR应用较小的膨胀率(D = 1),有效带宽较宽(用蓝点曲线表示)。相反,对于patch2中的车门,其中频率功率主要集中在低频域,AdaDR将膨胀率D增加到4,因为减少的带宽仍然可以包含大量的频率功率。这两个斑块的扩张图如图1(d)所示。与固定的扩张率相比(例如,D = 1,2,4在[41,78]中),我们的AdaDR将图1的理论平均感受野大小从~ 440提高到~ 1000像素。
AdaKern是一个插件模块,通过操作卷积核来优化图3中的频率响应曲线,增强有效带宽。如图3所示,该模块将卷积权值分解为低频和高频分量。这允许我们在每个通道的基础上动态地操作这两个组件。例如,增加高频核的权重(图2底部用红色标记),高频分量的响应会更强,从而增加有效带宽,如图3左侧λh/λl = 2曲线所示。
FreqSelect在输入扩张卷积之前,通过平衡特征中的高频和低频分量来增加感受野的大小。由于卷积倾向于放大高频成分[48],经过膨胀卷积的特征往往表现出更高比例的高频成分。为了捕获这些增加的高频成分,较小的膨胀率D将受到青睐,因为它具有较大的有效带宽,但代价是受损的感受野大小。通过抑制输入特征上的高频功率,我们的FreqSelect模块能够增加相应的字段大小。如图2所示,FreqSelect将feature map从low到high分解为4个频率通道。然后,我们使用选择映射在空间上重新加权每个通道以平衡频率功率,使FADC能够有效地学习更大的感受野。
在语义分割方面的实验结果表明,本文提出的方法持续地带来了改进,从而验证了本文方法的有效性。特别是,当我们提出的方法应用于PIDNet时,它在城市景观上实现了推理速度和精度之间的最佳平衡,在37.7 FPS下获得了81.0 mIoU。此外,我们提出的策略还可以集成到可变形卷积和膨胀注意力中,从而在分割和目标检测任务中获得一致的性能提升。我们的贡献可以总结如下:
- 我们使用频率分析对膨胀卷积进行了深入的探索,将膨胀分配重新定义为一个涉及平衡有效带宽和感受野的权衡问题。
- 我们引入了频率自适应膨胀卷积(FADC)。它采用自适应膨胀率(AdaDR)、自适应核(AdaKern)和频率选择(FreqSelect)策略。AdaDR以空间变化的方式动态调整膨胀率,以实现有效带宽和感受野之间的平衡。AdaKern自适应地调整核以充分利用带宽,FreqSelect学习频率平衡特性以鼓励更大的感受野。
- 我们通过在分割任务中的综合实验验证了我们的方法,一致地证明了它的有效性。此外,本文提出的AdaKern和FreqSelect在与可变形卷积和膨胀注意力相结合的情况下,在目标检测和分割任务中也被证明是有效的。
2. Related work
Content-Adaptive网络。随着深度学习技术的进步[? ? ? ? ? ? ? ],内容自适应特征的有效性已被各种研究证明[13,20,57,59,65,83]。一种内容自适应策略涉及权重调整,这种策略被广泛采用。最近的视觉Transformer[15,22,42]结合了注意力机制来预测输入自适应注意值。这些模型在感受野大的情况下取得了显著的成功,但存在计算量大的问题。
除了权值调整外,[1,13,30,68,74,84]还修改了卷积核的采样网格,这与我们的工作密切相关。可变形卷积[13,68,84]用于各种计算机视觉任务,包括目标检测。它为采样网格中的每个位置引入K ×K ×2不对称偏移量,导致提取的特征呈现空间偏差。在目标检测任务中,通过回归来校正估计框以减轻这些偏差。然而,在语义分割等位置敏感任务中,每个位置的密度和特征的强一致性至关重要,具有空间偏差的特征可能导致错误的学习。相比之下,提出的频率自适应膨胀卷积只需要一个值作为每个位置的膨胀率。这种方法需要更少的额外标准卷积来计算采样坐标,使其轻量级。此外,它消除了空间偏差,从而减少了错误学习的风险,有利于位置敏感任务。
自适应膨胀卷积[1,30,74]也放弃了全局固定膨胀的使用。[30]将核中每个点的膨胀作为习得的固定权值,而[1,74]则根据膨胀值与卷积层之间的层间模式或物体尺度相关联的假设,经验性地调整膨胀率。与[1,30,74]依赖于直觉假设不同,我们提出的方法是由定量频率分析驱动的。此外,它们忽略了当特征频率超过采样率时发生的混叠伪影,使它们暴露于潜在的退化风险中。
神经网络中的混叠伪影。神经网络中的混叠伪影问题在计算机视觉界受到越来越多的关注。一些研究分析了神经网络下采样过程中由于采样不足导致的混叠伪影[27,32,64,80,85]。其他人已经扩大了他们的重点,包括各种应用中的抗混叠技术,如视觉Transformer[52],微小物体检测[45],以及生成对抗网络(GAN)中的图像生成[29]。对于膨胀卷积中的混叠伪影,通常称为网格伪影,当特征映射包含比膨胀卷积的采样率更高的频率内容时,就会出现混叠伪影[78]。先前的研究要么经验地应用学习卷积来获得低通滤波器以抗混叠[78],要么采用多种膨胀率的膨胀卷积[61,67],要么使用完全连接层平滑膨胀卷积[69]。然而,这些方法主要是经验设计的,涉及堆叠更多的层,并且没有从频率的角度明确地处理问题。相反,我们提出的方法通过基于局部频率动态调整膨胀率来避免网格伪影。此外,FreqSelect有助于抑制背景或物体中心的高频。这种方法为解决混叠工件提供了更有原则和更有效的解决方案。
频域学习。传统的信号处理长期依赖于频域分析作为基本工具[2,50]。值得注意的是,这些成熟的方法最近在深度学习中得到了应用,发挥了关键作用。在这种情况下,它们被用来研究深度神经网络(DNN)的优化策略[75]和泛化能力[66]。此外,这些频域技术已经无缝集成到深度神经网络架构中。这种整合促进了非局部特征[11,19,28,35,54]或域概化表示[36]的学习。最近的研究[48,79]表明,捕获高频和低频成分的平衡表示可以提高模型的性能。因此,我们的方法为膨胀卷积提供了一个频率视图,并提高了其捕获不同频率信息的能力。
3. Frequency Adaptive Dilated Convolution
拟议的FADC概述如图2所示。在本节中,我们首先介绍AdaDR策略,概述我们如何平衡带宽和感受野。随后,我们深入研究了AdaKern和FreqSelect策略的细节,旨在充分利用带宽并促进大的感受野。
3.1. 自适应膨胀率
膨胀卷积。广泛使用的膨胀卷积可表述为:
Y
(
p
)
=
∑
i
=
1
K
×
K
W
i
X
(
p
+
Δ
p
i
×
D
)
,
(1)
\mathbf{Y}(p)=\sum_{i=1}^{K\times K}\mathbf{W}_i\mathbf{X}(p+\Delta p_i\times D), \tag{1}
Y(p)=i=1∑K×KWiX(p+Δpi×D),(1)
式中,
Y
(
p
)
Y(p)
Y(p)为输出特征图中
p
p
p位置的像素值,
K
K
K为核大小,Wi为核的权值参数,
X
(
p
+
∆
p
i
)
X(p +∆p_i)
X(p+∆pi)为输入特征图中
p
p
p被
∆
p
i
∆p_i
∆pi偏移对应位置的像素值。变量
∆
p
i
∆p_i
∆pi表示预定义网格采样的第
i
i
i个位置(−1,−1),(−1,0),(−1,+1),… ,(+ 1, + 1)。通过增加膨胀率可使感受野扩大。
频率分析。先前的研究已经发现,膨胀的增加会导致频率信息捕获的退化[67,69,78]。具体来说,根据傅里叶变换的缩放特性,将膨胀率从1增加到D,将卷积核放大D倍。因此,卷积核的响应频率降低到$\frac{1}{D} ,导致频率响应从高频向低频偏移 [ 51 , 56 ] ,如图 1 所示。此外,膨胀卷积在 ,导致频率响应从高频向低频偏移[51,56],如图1所示。此外,膨胀卷积在 ,导致频率响应从高频向低频偏移[51,56],如图1所示。此外,膨胀卷积在\frac{1}{D} 的采样率下有效地工作,使其无法捕获 N y q u i s t 频率以上的频率,即采样率 的采样率下有效地工作,使其无法捕获Nyquist频率以上的频率,即采样率 的采样率下有效地工作,使其无法捕获Nyquist频率以上的频率,即采样率\frac{1}{2D} $的一半。
具体来说,我们首先使用离散傅立叶变换(DFT)将特征映射
X
∈
R
H
×
W
X∈R^{H×W}
X∈RH×W变换到频域,
X
F
=
F
(
X
)
X_F = \mathcal{F}(X)
XF=F(X),它可以表示为:
X
F
(
u
,
v
)
=
1
H
W
∑
h
=
0
H
−
1
∑
w
=
0
W
−
1
X
(
h
,
w
)
e
−
2
π
j
(
u
h
+
v
w
)
,
(2)
\mathbf{X}_{F}(u,v)=\frac{1}{HW}\sum_{h=0}^{H-1}\sum_{w=0}^{W-1}\mathbf{X}(h,w)e^{-2\pi j(uh+vw)}, \tag{2}
XF(u,v)=HW1h=0∑H−1w=0∑W−1X(h,w)e−2πj(uh+vw),(2)
其中
X
F
∈
R
H
×
W
\mathbf{X}_F\in\mathbb{R}^{H\times W}
XF∈RH×W表示DFT输出的复数数组。
H
H
H和
W
W
W表示其高度和宽度。
h
,
w
h,w
h,w表示特征映射
X
\mathbf{X}
X的坐标。高度和宽度维度的归一化频率由
∣
u
∣
|u|
∣u∣和
∣
v
∣
|v|
∣v∣给出。将低频移到中心后,
u
u
u取集合
{
−
H
2
,
−
H
+
1
2
,
…
,
H
−
1
2
}
\{-\frac H2,-\frac{H+1}2,\ldots,\frac{H-1}2\}
{−2H,−2H+1,…,2H−1}中的值,
v
v
v取
{
−
W
2
,
−
W
+
1
2
,
…
,
W
−
1
2
}
\{-\frac{W}{2},-\frac{W+1}{2},\ldots,\frac{W-1}{2}\}
{−2W,−2W+1,…,2W−1}。因此,无法准确捕获大于Nyquist特频率
H
D
+
=
\mathcal{H}_D^+=
HD+=
{
(
u
,
v
)
∣
∣
k
∣
>
1
2
D
\{(u,v)\mid|k|>\frac{1}{2D}
{(u,v)∣∣k∣>2D1或
∣
l
∣
>
1
2
D
}
|l|>\frac1{2D}\}
∣l∣>2D1}的高频集,限制了其带宽。
自适应膨胀率。基于上述分析,膨胀率的选择可以看作是大感受野和有效带宽之间的权衡。考虑到输入的特征映射是空间变化的,每个像素的最优膨胀可能是不同的。因此,我们引入自适应膨胀率(AdaDR)策略来实现更好的平衡。它为每个像素分配不同的膨胀率:
Y
(
p
)
=
∑
i
=
1
K
×
K
W
i
X
(
p
+
Δ
p
i
×
D
^
(
p
)
)
.
(3)
\mathbf{Y}(p)=\sum_{i=1}^{K\times K}\mathbf{W}_i\mathbf{X}(p+\Delta p_i\times\mathbf{\hat{D}}(p)). \tag{3}
Y(p)=i=1∑K×KWiX(p+Δpi×D^(p)).(3)
D
^
(
p
)
\hat{D}(p)
D^(p)可以通过具有参数
θ
θ
θ的卷积层来预测。特别是,我们加入了ReLU层来确保膨胀的非负性,我们还采用了调制机制[84]。它的目标是最大化感受野,最小化每个像素的丢失频率信息。对于以p为中心,窗口大小为
s
s
s的局部特征,我们称其为
X
(
p
,
s
)
X(p,s)
X(p,s)。其感受野
R
F
(
p
)
=
(
K
−
1
)
×
D
^
(
p
)
+
1
\mathrm{RF}(p) = (K-1)\times\hat{\mathbf{D}}(p) + 1
RF(p)=(K−1)×D^(p)+1与
D
^
(
p
)
\hat{\mathbf{D}}(p)
D^(p)呈正相关。一组
H
D
^
(
p
)
+
\mathcal{H}_{\mathbf{\hat{D}}(\mathbf{p})}^{+}
HD^(p)+中的频率不能被准确捕获。因此,可以通过计算高频功率
H
P
(
p
)
=
∑
H
D
^
(
p
)
∣
X
F
(
p
,
s
)
(
u
,
v
)
∣
2
\mathrm{HP}(p)=\sum_{\mathcal{H}_{\hat{\mathbf{D}}(p)}}|\mathbf{X}_{F}^{(p,s)}(u,v)|^{2}
HP(p)=∑HD^(p)∣XF(p,s)(u,v)∣2来测量丢失的频率信息。因此,
θ
θ
θ的优化可以写成:
θ
=
max
θ
(
∑
RF
(
p
)
−
∑
HP
(
p
)
)
.
(4)
\theta=\max_\theta\left(\sum\text{RF}(p)-\sum\text{HP}(p)\right). \tag{4}
θ=θmax(∑RF(p)−∑HP(p)).(4)
然而,由于频率集
H
D
^
(
p
)
+
\mathcal{H}_{\mathbf{\hat{D}}(\mathbf{p})}^{+}
HD^(p)+的离散性,以及HP的计算不可微的事实,直接优化可能是不切实际的。因此,我们选择直接优化
D
^
(
p
)
\mathbf{\hat{D}}(p)
D^(p),即在
H
P
(
p
)
HP(p)
HP(p)较低的
p
p
p位置增加膨胀率以鼓励大的感受野,在
H
P
(
p
)
HP(p)
HP(p)较高的位置抑制膨胀率以减少频率信息的损失。为了形式化这种优化,我们将其表示如下:
θ
=
max
θ
(
∑
p
∈
HP
−
D
^
(
p
)
−
∑
p
∈
HP
+
D
^
(
p
)
)
.
(5)
\theta=\max_\theta\left(\sum_{p\in\text{HP}^-}\mathbf{\hat{D}}(p)-\sum_{p\in\text{HP}^+}\mathbf{\hat{D}}(p)\right). \tag{5}
θ=θmax
p∈HP−∑D^(p)−p∈HP+∑D^(p)
.(5)
这里,
H
P
+
{HP}^{+}
HP+和
H
P
−
{HP}^{−}
HP−分别表示具有最高/最低(例如,25%)高频功率的像素,即图4(b)中较亮/较暗的区域。
3.2. 自适应核
AdaDR通过对每个像素单独分配扩张率,实现了有效带宽和感受野之间的微妙平衡,共同优化了这两个因素。有效带宽与卷积核的权重密切相关,起着关键作用。传统的卷积核学习捕捉不同频带的特征,这对于理解复杂的视觉模式至关重要,但一旦训练,它们就会变得静态。为了进一步提高有效带宽,我们将卷积核参数分解为低频和高频分量,然后引入动态加权来调整频率响应。这个过程只增加了很少的额外参数和计算开销。对于静态卷积核,其权重W可以分解为:
W
=
W
ˉ
+
W
^
.
(6)
\mathbf{W}=\mathbf{\bar{W}}+\mathbf{\hat{W}}. \tag{6}
W=Wˉ+W^.(6)
这里,
W
ˉ
=
1
K
×
K
∑
i
=
1
K
×
K
W
i
\bar{\mathbf{W}}=\frac1{K\times K}\sum_{i=1}^{K\times K}\mathbf{W}_{i}
Wˉ=K×K1∑i=1K×KWi表示核平均
W
\mathbf{W}
W,它的作用是一个低通
K
×
K
K\times K
K×K均值滤波器,然后是一个1×1卷积,参数由
W
ˉ
\bar{\mathbf{W}}
Wˉ定义。如[62]所述,较高的平均值更有可能使高频分量衰减。术语
W
^
=
W
−
W
ˉ
\hat{\mathbf{W}}=\mathbf{W}-\bar{\mathbf{W}}
W^=W−Wˉ表示残差部分,捕获局部差异并提取高频分量。分解后,我们的AdaKern动态调整高、低频分量,可以形式化表示为
W
′
=
λ
l
W
ˉ
+
λ
h
W
^
,
(7)
\mathbf{W}^{\prime}=\lambda_l\bar{\mathbf{W}}+\lambda_h\hat{\mathbf{W}}, \tag{7}
W′=λlWˉ+λhW^,(7)
其中
λ
l
λ_l
λl,
λ
h
λ_h
λh为每个通道的动态权值,通过简单轻量级的全局池化+卷积层来预测。根据输入上下文动态调整
λ
l
λ
h
\frac{λ_l}{λ_h}
λhλl的比值,使网络能够专注于特定频段,并适应特征中视觉模式的复杂性。这种动态频率自适应方法增强了网络捕获低频上下文和高频局部细节的能力。这反过来又增加了有效带宽,从而提高了需要在不同频率上提取不同特征的分割任务的性能。
3.3. 频率选择
如先前的研究[48]所示,常规卷积通常起到高通滤波器的作用。因此,所得到的特征往往表现出更高比例的高频成分。这种倾向导致采用较小的总体膨胀率以保持较高的有效带宽,不幸的是损害了感受野的大小。FreqSelect通过平衡特征表示中的高频和低频分量来增强感受野。
具体来说,FreqSelect最初通过在傅里叶域中应用不同的掩模将特征分解为不同的频带:
X
b
=
F
−
1
(
M
b
X
F
)
,
(8)
\mathbf{X}_b=\mathcal{F}^{-1}(\mathcal{M}_b\mathbf{X}_F), \tag{8}
Xb=F−1(MbXF),(8)
其中
F
−
1
\mathcal{F}^{-1}
F−1表示快速傅里叶反变换。Mb是用于提取相应频率的二进制掩码:
M
b
(
u
,
v
)
=
{
1
if
ϕ
b
≤
max
(
∣
u
∣
,
∣
v
∣
)
<
ϕ
b
+
1
0
otherwise
(9)
\mathcal{M}_b(u,v)=\begin{cases}1&\text{if }\phi_b\leq\max(|u|,|v|)<\phi_{b+1}\\0&\text{otherwise}\end{cases} \tag{9}
Mb(u,v)={10if ϕb≤max(∣u∣,∣v∣)<ϕb+1otherwise(9)
这里,
ϕ
b
,
ϕ
b
+
1
\phi_b,\phi_{b+1}
ϕb,ϕb+1来自于
B
+
1
B+1
B+1预定义的频率阈值
{
0
,
ϕ
1
,
ϕ
2
,
.
.
.
,
ϕ
B
−
1
,
1
2
}
.
\{ 0, \phi _1, \phi _2, . . . , \phi _{B- 1}, \frac 12\} .
{0,ϕ1,ϕ2,...,ϕB−1,21}.。然后,FreqSelect在空间上动态地对不同频段的频率分量进行加权。其公式为:
X
^
(
i
,
j
)
=
∑
b
=
0
B
−
1
A
b
(
i
,
j
)
X
b
(
i
,
j
)
,
(10)
\mathbf{\hat{X}}(i,j)=\sum_{b=0}^{B-1}\mathbf{A}_b(i,j)\mathbf{X}_b(i,j), \tag{10}
X^(i,j)=b=0∑B−1Ab(i,j)Xb(i,j),(10)
式中,
X
^
(
i
,
j
)
\hat{\mathbf{X}}(i,j)
X^(i,j)为FreqSelect后学习到的频率平衡特征,
A
b
∈
R
H
×
W
\mathbf{A}_b\in\mathbb{R}^{H\times W}
Ab∈RH×W为第
b
b
b个频段的选择映射。具体来说,我们以八度方向[60]的方式将频率分解为四个频段,即
[
0
,
1
16
)
,
[
1
16
,
1
8
)
,
[
1
8
,
1
4
)
[ 0, \frac 1{16}) , [ \frac 1{16}, \frac 18) , [ \frac 18, \frac 14)
[0,161),[161,81),[81,41),和
[
1
4
,
1
2
]
[\frac14,\frac12]
[41,21]。
4. Experiments
4.1. 实验设置
数据集和指标。我们在几个具有挑战性的语义分割数据集上评估了我们的方法,包括cityscape[12]和ADE20K[82]。我们在语义分割[4,8,18,39,44]和目标检测/实例分割[5 - 7,23,26]中使用平均相交超过联合(mIoU)作为我们的评估指标。
实现细节。Mask2Former [10], PIDNet [72], ResNet/HorNet+UPerNet,我们保持与原始论文[10,53,72]相同的设置。在COCO[37]数据集上,我们遵循惯例[21,53,68],训练12个(1x调度)或36个(3x调度)epoch的目标检测和实例分割模型。在dilated - resnet的情况下,我们用提出的FADC代替了第3 ~ 4阶段的dilated卷积。对于PIDNet,bottleneck处的卷积被提议的FADC取代。对于ResNet,我们用提出的FADC替换阶段2 ~ 4的卷积。
4.2. 主要结果
在本节中,我们通过标准语义分割基准初步评估了所提出方法的有效性。随后,我们报告了实时语义分割的结果。最后,我们将所提出的方法无缝集成到相关的可变形卷积(DCNv2[84])和高级框架(如基于DCN3的InternImage[68])中,并结合DiNAT[21]所示的膨胀注意力机制。
标准语义分割。如表1所示,我们将提出的FADC与膨胀卷积[78]、可变形卷积(DCNv2)[84]和自适应膨胀卷积(ADC)[74]进行了比较。在广泛使用的城市景观数据集[12]上,当配备我们的FADC时,PSPNet, DeepLabV3+和Mask2Former分别改善了+2.6,+1.1和+1.2 mIoU。这些增强性能比DCNv2高出0.7、0.4和0.2个mIoU,同时减少了额外的计算和参数。FADC也比采用自适应扩张策略的ADC高出0.8 mIoU。
此外,如表2所示,使用更具挑战性的ADE20K数据集,FADC显著提高了使用UPerNet的ResNet-50的mIoU 3.7,甚至超过了更重的ResNet-101 (44.4 vs.42.9)。当与更大的HorNet-B一起使用时,它可以获得+0.6的增益,并且优于最近最先进的方法,包括Swin, ConvNeXt, RepLKNet-31L, InternImage和DiNAT。值得注意的是,与应用学习扩张间隔的ConvNeXt-B-dcls相比,HorNet-B-FADC表现出更优越的性能和改进(51.1比49.3,+0.6比+0.2)[30]。
实时语义分割。实时语义分割对于自动驾驶汽车[17]和机器人手术[58]等应用至关重要。我们在Cityscape数据集[12]上进一步评估了所提出的实时语义分割方法,如表3所示。配备FADC,我们的PIDNet-M在帧率为每秒37.7帧(FPS)的情况下实现了81.0的mIoU,超过了较重的PIDNet-L的性能,同时保持了更快的速度(37.7 vs. 31.1),从而建立了新的技术水平。这证明了所提方法的有效性。
与DCNv2、InternImage和DiNAT集成。存在一组有效的技术来调整卷积或注意的采样坐标,类似于膨胀卷积。例子包括DCNv2[84]、InternImage[68](基于dcnv3的模型)和DiNAT[21]。DCNv2和InternImage可以被定义为动态地为核的每个点分配一个膨胀率。相反,DiNAT以类似于膨胀卷积的方式调整采样坐标以计算注意力,因此遇到了与膨胀卷积相关的类似挑战。在这里,我们将提出的AdaKern和FreqSelect与DCNv2、InternImage(基于DCNv3的模型)和DiNAT结合起来评估它们的有效性。表4说明了这种集成的影响。DCNv2之前在目标检测任务中取得了显著的成功,我们提出的AdaKern和FreqSelect在box AP中进一步增强了0.9。此外,FreqSelect在ADE20K数据集上将InternImage的性能提高了0.8,在mask AP上在COCO上将DiNAT的性能提高了0.6[38]。这些结果有力地证明了我们的方法的有效性。
可视化的结果。我们在图5中展示了具有代表性的可视化结果。最上面一行表明,膨胀卷积不能准确地提取高频信息,如细极的细节。相比之下,我们提出的频率自适应膨胀卷积(FADC)准确地捕获了这些细节,从而产生了更好的预测。在下面一行中,很明显,由于没有足够的感受野来提取局部信息,膨胀卷积很难对大型卡车做出一致的响应。另一方面,FADC统一响应大型卡车,导致更一致和准确的分割预测。这些可视化显示了我们提出的FADC在解决卷积的局限性方面的有效性。
5. Analysis and Disccusion
我们使用膨胀的ResNet-50[78]作为基线模型,并对拟议的FADC进行了彻底的分析。补充材料中提供了更多的分析。
AdaDR分析。如图6所示,AdaDR学习预测高频区域的小扩张率,例如汽车、自行车和人的边界(参见图4©),以保持捕获高频精细细节的高带宽。相反,它会给高频水平较低的平滑区域分配较大的膨胀率,以扩大感受野。
此外,与可变形卷积相比[13,84],AdaDR避免了如图7所示的空间偏差,防止了错误的学习,有利于位置敏感任务。
AdaKern的分析。AdaKern通过根据输入特征自适应调整静态核中高频与低频分量的比值,调制卷积核的频率响应,使FADC能够提取更多的高频细节信息。如图3右侧所示,我们对特征映射中的频率功率进行统计分析。与膨胀卷积相比,FADC提取了更多的高频信息,这对于捕获分割细节至关重要,而使用AdaKern进一步增强了这一能力。
FreqSelect分析。我们对FreqSelect生成的不同频段的平均权重进行统计分析,如表8所示。FreqSelect预测较高频带的平均权值较低,与逆幂律一致[63]。
在可视化图8中的热图之后,我们注意到FreqSelect倾向于给物体边界分配更高的注意力权重。对于更高的频段,这一点更为明显。它有选择地抑制那些无法做出准确预测的高频区域,比如背景和物体中心。这鼓励FADC学习更高的膨胀率,从而扩大感受野。
感受野。大的感受野在场景理解任务中的重要性已经得到了强调[14,15]。采用AdaDR策略,FADC可以采用更高的整体膨胀率来扩张感受野,超过了广泛使用的膨胀ResNet[78],其整体膨胀率固定,如表7所示。
图8直观地展示了FreqSelect如何提高FADC的平均膨胀率。通过选择性地对特征映射中的频率进行加权,FreqSelect进一步促进了更高的扩张率,最终导致接受野的升高,如表7所示。
带宽。测量复杂模型的带宽并不简单[57],相反,我们直接评估提取特征中的频率信息。在图3中,与膨胀卷积相比,FADC在[1/8,1/4]和[1/4,1/2]的高频频段功率增加。AdaKern进一步增强了频段内的功率[1/4,1/2]。这表明提取了更多的高频信息,表明带宽得到了改善。
混叠伪影。如[67,78]所述,当特征图的频率内容超过膨胀卷积的采样率时,就会出现混叠伪影,通常称为网格伪影,如图5所示。详细地说,当特征映射内的频率超过膨胀卷积的有效带宽时,这些伪影就会发生。先前的研究试图通过结合额外的卷积层来学习低通滤波器来去除伪像[61,67],或者通过使用多次扩张率来提高采样率[61,67],来解决这个问题。与这些方法相比,我们提出的方法通过基于局部频率动态调整膨胀率来减轻网格伪影。此外,FreqSelect通过抑制在背景或对象中心无法准确预测的区域中的高频来实现这一点。
6. Conclusion
在这项工作中,我们从频率的角度回顾了膨胀卷积,并引入了FADC,通过三种关键策略:AdaDR, AdaKern和FreqSelect来改善各个阶段。AdaDR不同于传统的采用固定全局膨胀率的方法,它基于局部频率分量动态调整膨胀率,增强了空间适应性。AdaKern在每个通道的基础上动态调整卷积权重中低频和高频分量的比例,捕获更多的高频信息,提高整体有效带宽。FreqSelect通过空间变量重加权来平衡高频和低频分量,鼓励FADC学习更大的膨胀,从而扩大感受野。在未来,我们的目标是将我们的定量频率分析扩展到可变形/膨胀注意力。此外,由于FADC被证明可以无缝地取代现有架构中的标准卷积层,我们将为FADC设计特定的架构。