当前位置：首页 > article >正文

可变性卷积的认识

article 2025/3/1 7:32:25

可变形卷积

Deformable Convolution。

可变形卷积由微软亚洲研究院的研究团队提出的：

（1）DCNv1

（2）DCNv2: More Deformable, Better Results

https://arxiv.org/abs/1811.11168https://arxiv.org/abs/1811.11168

传统卷积是对输入特征图的每一个位置施加相同的权重，并在固定的感受野上进行计算。这种固定的几何结构对空间上存在复杂变形（如旋转、缩放、非刚性变形等）的目标存在局限性。

可变形卷积的核心思想是引入自适应的空间位移（offsets），灵活应对几何变形，从而更好的捕捉和建模物体细节。

1.DCNv1

1.实现步骤：

图解：

Conv： 用于生成特征图和偏移量的卷积层。
Offset Field： 通过卷积生成的偏移量，用于指导后续的可变形卷积如何“变形”。
2N：
- 对于 N 大小的卷积核（如 3 x 3 的核 N=9），需要生成 N 个偏移向量。
- 偏移向量包含 x 和 y 两个方向，因此偏移量的维度是 2 x N。
Deformable Convolution： 最终结合偏移量后，在输入特征图上进行自适应采样的卷积操作。
偏移量共享，权重独立；

$\mathcal{R}=\{(i,j)|i,j\in[-\frac{k-1}{2},\frac{k-1}{2}]\}$

$\mathcal{R}=\{(i\cdot d,j\cdot d)|i,j\in[-\frac{k-1}{2},\frac{k-1}{2}]\}$

于是就有了上面的R： 3 x 3，且 d = 1：

$\mathcal{R}=\{(-1,-1),(-1,0),(-1,1),(0,-1),(0,0),(0,1),(1,-1),(1,0),(1,1)\}$

$y(\mathbf{p}_0)=\sum_{\mathbf{p}_n\in\mathcal{R}}w(\mathbf{p}_n)\cdot x(\mathbf{p}_0+\mathbf{p}_n)$

p_0：中心位置坐标
$\mathcal{R}$ ：卷积核的采样点集合。
$\mathbf{p}_n$ ：相对于中心点 $\mathbf{p}_0$ 的第 n 个采样点的位置。
$w(\mathbf{p}_n)$ ：卷积核在第 n 个位置的权重。
$x(\mathbf{p}_0 + \mathbf{p}_n)$ ：输入特征图 x 在位置 $\mathbf{p}_0 + \mathbf{p}_n$ 处的像素值。