YOLOv11改进,YOLOv11添加ASFF检测头,并添加小目标检测层(四头检测),适合目标检测、分割等任务,全网首发
摘要
一种新颖的数据驱动的金字塔特征融合策略,称为自适应空间特征融合 (ASFF)。它学习了在空间上过滤冲突信息以抑制不一致的方法,从而提高了特征的尺度不变性,并引入了几乎免费的推理开销。
# 理论介绍
目标检测在处理不同尺度的目标时,常采用特征金字塔结构。然而,这种金字塔结构在单步检测器中存在尺度不一致性问题,即不同尺度的特征层在检测过程中可能产生冲突,导致精度下降。ASFF方法通过学习每个尺度特征的自适应融合权重,过滤掉无用的或冲突的信息,只保留有助于检测的特征,从而提高特征的尺度不变性。ASFF核心步骤如下:
-
特征重缩放:首先将不同层次的特征进行上采样或下采样,使它们具有相同的分辨率。
-
自适应融合:对每个层次的特征,模型学习空间位置的权重参数,自动决定每个位置该融合哪些特征,并通过Softmax函数保证权重总和为1。融合后的特征用于目标检测。
-
梯度一致性优化:通过自适应融合,ASFF能够在梯度传播过程中减少不同特征层之间的冲突,优化训练过程中的梯度一致性
ASFF自适应空间特征融合机制的工作原理如下图(摘自论文):
理论详解可以参考链接:论文地址
代码可在这个链接找到:代码地址
小目标理论
在YOLOv11 中,输入图像的尺寸为 640x640x3,经过 8 倍、16 倍和 32 倍下采样后分别得到 80x80、40x40 以及 20x20 大小的特征图,网络最终在这三个不同尺度的特征图上进行目标检测。在这三个尺度的特征图中,局部感受野最小的是 8 倍下采样特征图,即如果将该特征图映射到原输入图像,则每个网格对应原图 8x8 的区域。对于分辨率较小的目标而言,8 倍下采样得到的特征图感受野仍然偏大,容易丢失某些小目标的位置和细节信息。为了改善目标漏检现状,对 YOLOv8 的 Head 结构进行优化,在原有的三尺度检测头的基础之上,新增一个针对微小目标检测的检测头 ,YOLOv11 原有 P3、P4 和 P5 这 3 个输出层,分别用于检测小、中、大目标,增加 P2 检测层后,网络能在4个不同尺度的特征图上做检测,P2 能检测到最小目标分辨率为 4x4。通过增加小尺度检测头的方式,整个网络能在 4 倍、8 倍、16 倍和 32 倍下采样特征图上预测不同尺度的目标,大幅度提高了算法的多尺度目标检测性能。四个检测头如下表格所示:
名称 | 特征图大小 | 检测目标大小 | 用于 |
---|