当前位置：首页 > article >正文

YOLO系列正传（五）YOLOv4论文精解（上）：从CSPNet、SPP、PANet到CSPDarknet-53

article 2025/3/1 12:34:14

系列文章

YOLO系列基础

YOLO系列基础合集——小白也看得懂的论文精解-CSDN博客

YOLO系列正传

YOLO系列正传（一）类别损失与MSE损失函数、交叉熵损失函数-CSDN博客

YOLO系列正传（二）YOLOv3论文精解(上)——从FPN到darknet-53-CSDN博客

YOLO系列正传（三）神经网络的反向传播（back propagation）与公式推导-CSDN博客

YOLO系列正传（四）YOLOv3论文精解(下)——损失函数推导与其他优化项-CSDN博客

YOLO系列正传（五）YOLOv4论文精解（上）：从CSPNet、SPP、PANet到CSPDarknet-53-CSDN博客

系列文章

YOLO系列基础

YOLO系列正传

YOLOv4基础介绍

从CSPNet开始

背景与改进

过渡层详解

跨阶段连接分支卷积层详解

SPP模块详解

SPP背景介绍

什么是空间金字塔池化（SPP）？

PANet网络详解

背景与挑战

从FPN网络到PANet网络

CSPDarknet-53模型

CSP模块改进说明

SPP模块改进说明

SPP模块的结构

解释每一部分

PANet网络改进说明

总结

YOLOv4基础介绍

YOLOv4进一步优化了YOLOv3，主要改进点包括：

主干网络：使用了CSPDarknet-53替代原YOLOv3中的Darknet-53。
新方法引入：例如Mish激活函数、Mosaic数据增强、DropBlock正则化和自对抗训练（SAT）。
优化策略：使用了CIoU Loss和多锚点匹配策略，使得模型在准确率和速度上实现了更好的平衡。

我们本文专注与YOLOv4网络结构的内容，即CSPDarknet-53的结构梳理。

从CSPNet开始

背景与改进

跨阶段部分连接网络CSPNet（Cross Stage Partial Network）是针对现有CNN设计的一种改进结构，旨在解决冗余梯度问题并减少计算成本。其实是类似残差结构中的一种，但是相比较于最基本的残差结构，CSPNet有两点不同：

CSPNet在密集层之后还有一层卷积作为过渡层
CSPNet在跨阶段连接分支上也有一层卷积进行信息的选择性传递。

有关CSPNet的基础内容，可以查看以下博客：

深度学习中的残差网络、加权残差连接（WRC）与跨阶段部分连接（CSP）详解-CSDN博客

以上博客讲诉了残差网络Residual、加权残差连接WRC、以及跨阶段部分连接CSP的基础信息。
本博文在上诉的基础上更进一步详解CSPNet的此两点不同

过渡层详解

过渡层的主要作用是用以在反向传播中梯度传导过程中过渡传导过程。图例如下：

(c)图是没有过渡层的CSPNet，(d)图是有过渡层的CSPNet

我们先看a图，a图两层分支直接进行了concat拼接后进行Transition后续处理，那么在反向传播中，梯度传播到concat形成的大特征图的时候会对左右两条分支产生一样的前序梯度信息，那么在很大程度上，左右两条分支会产生冗余和重复。

我们此时看b图，b图中密集层(DenseBlock)处理完之后先进行了一次过渡层(Transition)操作（大多是卷积）再和另外一条分支进行concat操作。此时，当我们进行反向传播的时候，抵达concat之后的大特征图的时候梯度信息是一致的，但是梯度信息传递到过渡层的之后再传递给密集层的时候，梯度信息和另一分支就产生了差异性，这在很大程度上避免了梯度冗余和重复。

跨阶段连接分支卷积层详解

在基础残差网络中，我们是没有这一层卷积的，图例如下：

图a：普通的神经网络密集层，图b：Part1为一层卷积操作的CSP改造网络

此处CSP增加这里的卷积的理由有哪些呢？有如下两点：

避免硬件计算资源浪费
增加模型表达能力

在传统残差网络中，密集层大多采用瓶颈层来降低计算量，那么很明显，针对低层的瓶颈层是无法吃满硬件计算资源的，这就给另一分支的构建提供了机会。也就是说另一分支完全可以增加复杂度而不会影响模型速度。给另一分支增加卷积层等处理模块可以避免计算资源的浪费。

其次，在残差网络中，我们采用跳跃连接的方式是为了使得低层特征可以传递给高层输出，以不丢失低层特征信息，并以此使得模型的深度可以无限往下延深。实际上我们真正需要做的，是在尽可能少的层数里（降低推理速度）获取足够有效的特征信息，也就是说我们不需要模型无限延展，我们需要的是模型每一层的效率足够高，可以处理输出足够有效的特征信息，所以，在另一分支上增加卷积层提高模型效果的思路是完全可行的。

综上CSPNet的结构我们完全解释清晰了。

SPP模块详解

YOLOv4这一版本引入了空间金字塔池化技术（SPP：Spatial Pyramid Pooling）

图例如下：

SPP背景介绍

卷积层对所有的输入size都能正常运行，但是对于最后的检测头，若是采用了FC层（FC层的具体输出维度是固定的）就会产生对输入图像size的要求，这也是传统的CNN架构通常要求输入图像具有固定尺寸的原因，这一要求限制了网络的灵活性，直接resize又会导致图像尺寸信息的丢失。为了克服这一限制，许多研究者提出了不同的解决方案，其中之一就是空间金字塔池化（Spatial Pyramid Pooling，SPP）。SPP通过引入多层次的池化结构，有效地解决了图像尺寸固定的问题，使得CNN能够处理不同尺寸和尺度的图像。

什么是空间金字塔池化（SPP）？

空间金字塔池化（SPP）的核心思想是通过在多个空间尺度上进行池化，从而生成一个固定长度的特征向量。具体来说，SPP方法通过在卷积神经网络的最后一层卷积层上添加一个池化层，将特征图分成多个不同大小的区域进行池化操作。这些池化操作可以是1×1、2×2、4×4等不同的空间网格，这样能够在不同的尺度上提取图像的特征。最终，来自各个尺度的池化特征会被拼接在一起，形成一个固定长度的特征向量。

空间金字塔池化层的工作原理可以通过以下几个步骤来概括：

输入特征图：最后一个卷积层生成的特征图，其空间尺寸根据输入图像的大小而不同。
多层次池化：SPP层将特征图分成多个不同大小的空间区域（如1×1、2×2、4×4等），并在每个区域内进行池化操作。这样，SPP层从不同尺度提取特征。
特征拼接：池化后的特征会被拼接在一起，形成一个固定长度的特征向量。
传递至全连接层：这个固定长度的特征向量被传递给全连接层，用于最终的分类或其他任务。

通过这一过程，SPP层能够有效地从不同尺寸的图像中提取重要特征，并为后续的高层任务提供稳健的输入。

PANet网络详解

背景与挑战

实例分割任务的主要挑战在于如何精确地分割图像中的每个实例，尤其是当不同实例之间存在重叠、形状复杂或者尺寸差异较大时。虽然像Mask R-CNN这样的基于深度学习的方法已经取得了较好的结果，但它们仍然面临以下问题：

特征丢失： 网络中的高层特征提供了丰富的语义信息，但缺乏足够的细节。相反，低层特征包含更多的局部细节信息，却缺乏语义理解。
边界模糊： 复杂实例的边界分割往往不够精细，导致误分割和漏分割现象。
多尺度问题： 不同尺寸的物体在图像中可能有很大的差异，现有的分割方法在处理小物体和大物体时常常表现不佳。

为了克服这些问题，PANet提出了一种新的路径聚合策略，将低层次的细节信息与高层次的语义信息进行有效融合，从而提高了实例分割的准确性。

从FPN网络到PANet网络

FPN通过自底向上的特征金字塔模型给低维特征数据提高了更高维的特征向量支持，简单来说较低层的数据通常用于检测小目标，高层特征用于检测大目标。

随着网络深度的加深，越深的网络会丢失越来越多的细节信息以保持对大范围特征信息的识别，而较低层的网络虽然保留了更多信息，但是却没有经过足够多的处理获取更高层级的特征信息。所以在以上的背景下，FPN被提出了，这使得小目标的检测头在保留大量细节信息的基础上也可以获得高层级特征向量。

也许有人就会问了，那为什么没有从低层直接向高层连接的向量给高层检测头提高更多的细节信息呢？没错，答案就是PANet层！

图中b图展示了在左侧FPN层之后再次进行了PANet层，底层特征信息被传递给了高维数据

PANet通过路径聚合模块，将多层次的特征进行有效融合。网络不仅仅依赖于高层的抽象语义信息，同时也保留了低层次的局部细节，从而更好地适应不同尺寸、不同复杂度的物体。这种多尺度特征融合方法使得PANet在处理大物体和小物体时，均能获得较好的分割效果。

CSPDarknet-53模型

终于来到了我们今天的正题：YOLOv4的网络结构

模型图如下：

YOLOv4 CSPDarknet-53 主干网络部分如下：

大家可以参考以下YOLOv3模型的结构图：

YOLOv3的详解可以查看以下博客：

YOLO系列正传（二）YOLOv3论文精解(上)——从FPN到darknet-53-CSDN博客

其实，细心的读者可以发现，主干网络的逻辑是近乎一致的。

CSP模块改进说明

YOLOv3中的Residual残差模块和CSPNet思想结合构建了CSPBlock模块，由于使用了CSP模块，密集层也无需有瓶颈层了，全部都是一样的维度.其对比如下：

左图：YOLOv3Darknet-53网络残差结构，右图：YOLOv3CSP魔改后的残差结构

可以看出，YOLOv4改进点无非就是以下两点：

Residual没有使用瓶颈层，提高了计算效率（毕竟瓶颈层是对计算是有负面影响的）
使用CSP进行跨阶段连接，提升了特征提取能力

SPP模块改进说明

在YOLOv4中，SPP（Spatial Pyramid Pooling）模块是为了增强模型在处理不同尺度的物体时的表现。YOLOv4在模型中加入了SPP模块，旨在通过多尺度特征池化来捕获更多的上下文信息，帮助检测不同尺寸的物体。下面我将详细解释YOLOv4中SPP模块的设计。

SPP模块主要是为了达成以下目标：

多尺度特征提取：SPP模块通过使用不同大小的池化层（max-pooling）来捕捉不同尺度的信息。这使得网络能够在不增加额外计算量的情况下，提取多尺度的上下文信息。
增强局部特征的上下文信息：通过对不同大小的区域进行池化，SPP模块能够更好地理解输入图像的全局上下文信息，帮助模型对不同尺度的物体做出更准确的预测。

SPP模块的结构

在YOLOv4的cfg文件中，SPP模块的实现如下：

### SPP ###
[maxpool]
stride=1
size=5

[route]
layers=-2

[maxpool]
stride=1
size=9

[route]
layers=-4

[maxpool]
stride=1
size=13

[route]
layers=-1,-3,-5,-6
### End SPP ###

解释每一部分

[maxpool]层：SPP模块在YOLOv4中包含三个不同大小的maxpool层，每个层使用不同的池化窗口大小，分别是5x5、9x9和13x13。这些池化层分别作用于不同尺度的区域来提取特征。

第一层：池化大小为5x5，stride为1。这是最小的池化层，用于捕获较小范围的上下文信息。
第二层：池化大小为9x9，stride为1。它比第一个池化层捕获更大的上下文信息。
第三层：池化大小为13x13，stride为1。这是最大的池化层，可以捕获最大范围的上下文信息。

[route]层：这些route层将不同池化层的输出连接在一起，以形成一个多尺度的特征图。

layers=-2：将来自前一层的输出连接到当前层。
layers=-4：将离当前层更远的输出连接起来，进行多尺度的特征融合。
layers=-1,-3,-5,-6：最终将所有池化层的输出（5x5, 9x9, 13x13池化的结果）通过route层合并到一起，形成一个丰富的特征图。