当前位置: 首页 > article >正文

可变性卷积的认识

可变形卷积

Deformable Convolution。

可变形卷积由微软亚洲研究院的研究团队提出的:

(1)DCNv1

  • 论文地址: https://arxiv.org/abs/1703.06211icon-default.png?t=O83Ahttps://arxiv.org/abs/1703.06211

(2)DCNv2: More Deformable, Better Results

  • 论文链接:

https://arxiv.org/abs/1811.11168icon-default.png?t=O83Ahttps://arxiv.org/abs/1811.11168

标准卷积

传统卷积是对输入特征图的每一个位置施加相同的权重,并在固定的感受野上进行计算。这种固定的几何结构对空间上存在复杂变形(如旋转、缩放、非刚性变形等)的目标存在局限性

Deformable Convolution

可变形卷积的核心思想是引入自适应的空间位移(offsets),灵活应对几何变形,从而更好的捕捉和建模物体细节。

图解可变形卷积

1.DCNv1

1.实现步骤:

  • 学习偏移量:通过额外的卷积层来学习卷积核在每个位置的偏移量(offsets)。
  • 采样和卷积:根据学习到的偏移量对输入特征图进行采样,进而完成卷积操作。

图解:

  • Conv: 用于生成特征图和偏移量的卷积层。

  • Offset Field: 通过卷积生成的偏移量,用于指导后续的可变形卷积如何“变形”。

  • 2N:

    • 对于 N 大小的卷积核(如 3 x 3 的核 N=9),需要生成 N 个偏移向量。

    • 偏移向量包含 x 和 y 两个方向,因此偏移量的维度是 2 x N。

  • Deformable Convolution: 最终结合偏移量后,在输入特征图上进行自适应采样的卷积操作。

  • 偏移量共享,权重独立;

数解可变形卷积

采样点集合
  • 卷积核的采样点集合 R 公式如下表示:k 是卷积核大小

$ \mathcal{R}=\{(i,j)|i,j\in[-\frac{k-1}{2},\frac{k-1}{2}]\} $

  • 如果考虑膨胀卷积:d 是膨胀率, d = 1 就是不膨胀

$ \mathcal{R}=\{(i\cdot d,j\cdot d)|i,j\in[-\frac{k-1}{2},\frac{k-1}{2}]\} $

于是就有了上面的R: 3 x 3,且 d = 1:

$ \mathcal{R}=\{(-1,-1),(-1,0),(-1,1),(0,-1),(0,0),(0,1),(1,-1),(1,0),(1,1)\} $

标准卷积
  • 标准卷积操作公式

$ y(\mathbf{p}_0)=\sum_{\mathbf{p}_n\in\mathcal{R}}w(\mathbf{p}_n)\cdot x(\mathbf{p}_0+\mathbf{p}_n) $

  • p_0:中心位置坐标
  • \mathcal{R}:卷积核的采样点集合。
  • \mathbf{p}_n:相对于中心点 \mathbf{p}_0 的第 n 个采样点的位置。
  • w(\mathbf{p}_n):卷积核在第 n 个位置的权重。
  • x(\mathbf{p}_0 + \mathbf{p}_n):输入特征图 x 在位置\mathbf{p}_0 + \mathbf{p}_n处的像素值。
可变形卷积

该公式是可变形卷积操作,其中p_0表示中心位置坐标:

$ \mathbf{y}(\mathbf{p}_0)=\sum_{\mathbf{p}_n\in\mathcal{R}}\mathbf{w}(\mathbf{p}_n)\cdot\mathbf{x}(\mathbf{p}_0+\mathbf{p}_n+\Delta\mathbf{p}_n) $

  • \Delta \mathbf{p}_n:卷积核第 n 个位置的偏移量,它通过额外的卷积层动态学习得到。

非整数位置
  • 学习到的偏移位置并非整数,通过双线性插值计算得到。

实验效果

  • 标准卷积和可变形卷积的效果对比:数据来自论文

  • 可变形卷积通过将采样位置与感兴趣的实例对齐来帮助更好地进行特征采样,并更好地处理比例、旋转和纵横比的变化。


http://www.kler.cn/a/469750.html

相关文章:

  • MySQL日志基础知识
  • 一种融合联邦学习和大模型特点的全新系统架构
  • [Linux]信号底层概念与操作
  • ZYNQ初识10(zynq_7010)UART通信实验
  • 计算机网络——数据链路层—局域网和广域网
  • 华为OD机试E卷 --羊、狼、农夫过河--24年OD统一考试(Java JS Python C C++)
  • 探秘前沿科技:RFID 与 NFC,开启智能识别新篇
  • ARP(地址解析协议)攻击;TCP SYN Flood(SYN洪流)攻击
  • git 常用命令和本地合并解决冲突
  • 关于单片机的基础知识(一)
  • Linux系统操作笔记
  • LeetCode-合并两个有序链表(021)
  • 《从零到一:深入浅出解析支持向量机的对偶问题》
  • Java Web开发进阶——Spring Boot基础
  • 配置管理工具和k8s功能重叠部分的优势比较
  • GitHub - riscv-software-src/riscv-isa-sim: Spike, a RISC-V ISA Simulator
  • QT----------文件系统操作和文件读写
  • Java解析PDF数据库设计文档
  • MyBatis 配置文件全解析
  • 发电厂冷水降电导 超纯水的制备和应用 抛光树脂