(11)YOLOv9算法基本原理
一、YOLOv9 的结构
YOLOv9 引入了可编程梯度信息(PGI),以及基于梯度路径规划的新型轻量级网络架构,为目标检测领域带来了突破性的成果。
Yolov9 网络模型主要由BackBone(主干网络)、Neck(颈层)和 Head(解码预测端)组成。
(1)BackBone:RepNCSPELAN4 是 Yolov9 主干网络的核心结构,同时还引入了 CSP 模块与 ELAN 模块用于特征提取。其中 ELAN 模块是 Yolov9 新引入的特征,通过进一步优化网络的层次结构和特征聚合方式,提升了特征提取的效率和效果。此外,YOLOv9 的主干网络还使用残差块来构建更深的网络,避免梯度消失问题。
(2)Neck:网络的颈层采用特征图金字塔网络(Feature Pyramid Networks,FPN)进一步对高维度特征进行卷积池化,通过上采样并与浅层特征进行融合以保证网络对不同尺度目标的检测精度。
(3)Head:YOLOv9 的 Head 部分主要由预测层、分类和回归分支等部分组成。其中,预测层包括一系列的卷积层和激活函数,以生成最终的预测结果。每个预测层会输出预测框、置信度和类别概率。
二、YOLOv9 的创新点
YOLOv9通过结合先进的网络架构和辅助监督机制,在目标检测领域实现了性能的显著提升,同时保持了模型的轻量性和灵活性。
-
Programmable Gradient Information (PGI):
-
PGI是一种新的辅助监督框架,用于解决深度网络在训练过程中的信息瓶颈问题和适用于多种目标的可编程梯度信息。辅助监督指的是通过在网络的中间层插入额外的预测层来提供辅助性的监督信号。它在网络的中间层(不仅仅是最后一层)添加额外的预测层,这些层可以输出与最终任务相关的中间结果。同时,这些额外的预测层会计算损失,这个损失与最终输出的损失一起被用来更新网络的权重。这样,模型不仅在最后输出层受到监督,而且在中间层也受到监督。
-
PGI通过辅助可逆分支生成可靠的梯度,以更新网络参数,从而使得深度特征能够维持执行目标任务所需的关键特征。
-
PGI的设计允许在不同语义层次上对梯度信息传播进行编程,实现更好的训练结果。
-
-
Generalized Efficient Layer Aggregation Network (GELAN):
-
GELAN是一种新的轻量级网络架构,基于梯度路径规划设计。
-
GELAN结合了CSPNet和ELAN的设计,使用常规卷积操作,实现了比基于深度卷积的设计更高的参数利用率。
-
GELAN的架构允许用户根据不同的推理设备选择适当的计算块,具有很好的灵活性和可扩展性。
-
-
结合PGI和GELAN的YOLOv9:
-
YOLOv9结合了PGI和GELAN,设计了新一代的目标检测系统。
-
实验结果表明,YOLOv9在MS COCO数据集上的目标检测性能超过了现有的实时目标检测器。
-
-
信息瓶颈和可逆函数的理论分析:
-
论文从可逆函数的角度理论上分析了现有的深度神经网络架构,并基于此设计了PGI和辅助可逆分支,取得了优异的结果。
-
-
轻量级和大型模型的适用性:
-
PGI的设计解决了深度监督只能用于极深的神经网络架构的问题,使得新的轻量级架构能够在日常生活中得到真正的应用。
-
三、总结
-
可编程梯度信息(PGI)+广义高效层聚合网络(GELAN)。
-
与YOLOv8相比,其出色的设计使深度模型的参数数量减少了49%,计算量减少了43%。
四、往期回顾
yolo入门教程:《吐血录制,yolo11猫狗实时检测实战项目,从零开始写yolov11代码》,视频全程25分钟。
(1)yolo11猫狗实时检测实战项目,从零开始写yolov11代码
(2)从零开始学yolo之yolov1的技术原理
(3)YOLOv1训练过程,新手入门
(4)YOLOv2和yolov1的差异
(5)YOLOv3和yolov1、yolov2之间的差异
(6)YOLOv4算法基本原理以及和YOLOv3 的差异
(7)YOLOv5算法基本原理大揭秘!
(8)YOLOv6算法基本原理
(9)YOLOv7算法基本原理
(10)YOLOv8算法基本原理
(13)10张结构图,深入理解YOLOv11算法各个模块
高清视频,3分钟揭秘神经网络技术原理
Transfermer的Q、K、V设计的底层逻辑