YOLO系列的学习
YOLOV1全解
You Only Look Once,把检测问题转化成回归问题,一个CNN就搞定了!!!效率高,可对视频进行实时检测,应用领域非常广,到V3的时被美国军方用于军事行动,作者出于某种压力就退出了后续版本的更新,改由其他大佬继承衣钵!
论文地址:
https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdfhttps://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf
铭记历史
当年Fast R-CNN效果很好,但是速度太慢,距离实时检测差得远,于是YOLO横空出世。
YOLO发展历史
网络特征
- 直接对输入图预测出边框坐标(x,y,w,h)和物体类别(C)、置信度(Confidence),是典型的One-stage目标检测方法,运行速度快,可以做到实时检测。
网络结构
- 结构:24个卷积层,4个池化,2个全连接层
核心思想
候选框策略
- 将输入图像分为 个grid;
- 每个grid预测 B 个Bounding Box,每个bbox包含4个坐标和置信度;
- 每个grid预测 C 类类别概率
预测流程
- 将图片划分为 个Grid
- 目标中心落在哪个grid cell里,就由其预测
- 每个grid预测 2 个bbox
- 每个grid预测 20 个类别概率(当时VOC数据集是20分类)
网络结构和预测合体
1.合体效果图如下:
2.图中数字解释:
- 7 × 7:表示把图片分成7 × 7共49个Grid;
- 30则代表每个Grid有30个参数:20 +2 × (1+4)=30
- 20个分类、2个Bounding(候选框),每个候选框分别有1个Confidence和(x,y,w,h)表示的坐标位置 。
- 选择置信度大的框作为预测结果
- 一个Grid只有一个预测结果(图像重叠就会有丢失)
- 参数归一化
- x、y是相对于对应grid cell边界的坐标,归一化到0到1之间 w、h 是bbox相对于图片宽高的比例,归一化到0到1之间
损失函数
整体概览
1.整个损失函数由5部分组成(框中有无物体时的中心点坐标,宽高和置信度之间的差距):
2.整体合并后公式如下:
详细解读
1.公式部分非常规操作详解:
①关于开根号
②关于S的平方以及i和j
③关于权重系数
④关于noobj
NMS处理(后处理)
非极大值抑制处理
非极大值抑制(Non-Maximum Suppression, NMS)是目标检测任务中的一种后处理技术,用于消除冗余的边界框(Bounding Boxes),从而确保每个检测对象只有一个最准确的边界框。在诸如R-CNN、YOLO、SSD等深度学习模型中,NMS是一个关键步骤,它帮助提高检测结果的质量和准确性。以下是NMS的工作原理及处理过程:
NMS 的工作原理
1. 得分排序:
- 首先根据每个预测框的置信度分数(confidence score)对所有候选框进行降序排序。置信度分数反映了模型认为该框包含目标的可能性。
2. 选择最高得分框:
- 从排序后的列表中选取具有最高得分的边界框作为当前最佳框,并将其加入最终的输出列表中。
3. 计算IoU并过滤重叠框:
- 对于剩余的每一个候选框,计算其与当前最佳框之间的交并比(Intersection over Union, IoU)。IoU衡量了两个边界框的重合程度。
- 如果某个候选框与当前最佳框的IoU超过了预设阈值,则认为这两个框覆盖了同一个物体,因此将该候选框移除。
4. 重复上述步骤:
- 在移除了与当前最佳框高度重叠的候选框之后,再次从未处理的候选框中选择得分最高的一个作为新的最佳框,并继续执行第3步的操作,直到没有更多的候选框可以处理为止。
5. 输出最终结果:
- 经过一系列迭代后,剩下的那些没有被抑制掉的边界框即为最终的检测结果。
改进版 NMS
传统的NMS虽然有效,但在某些情况下可能会过于严格地剔除一些实际有效的检测框。为此,研究人员提出了几种改进版本:
- Soft-NMS:不是直接丢弃高IoU的框,而是降低它们的得分,这样可以让更多潜在正确的框保留下来。
- Adaptive NMS:动态调整IoU阈值,对于不同类别或不同大小的目标采用不同的策略。
- Fast NMS:通过近似方法加速传统NMS的速度,适用于实时应用场合。
- Diou-NMS 和 Ciou-NMS:引入了距离度量(如中心点距离)和形状相似性度量来改进IoU标准,使得NMS更加符合实际情况。
算法性能对比
1.各网络性能对比:
2.和Fast R-CNN多维度对比:
YOLOV1特点总结
优点
- 更快更简单:可达到45fps,远高于Faster R-CNN系列,轻松满足视频目标检测。
- 避免产生背景错误:YOLO区域选择阶段是对整张图进行输入,上下文充分利用,不易出现错误背景信息。
缺点
- 定位精度低:网格划分有些粗糙和单一,多少难定
- 每个Cell只预测一个类别,如重叠或距离太近效果比较差
- 小物体检测效果一般,长宽比可选尺寸及比例单一
YOLOV2
论文地址:
https://openaccess.thecvf.com/content_cvpr_2017/papers/Redmon_YOLO9000_Better_Faster_CVPR_2017_paper.pdfhttps://openaccess.thecvf.com/content_cvpr_2017/papers/Redmon_YOLO9000_Better_Faster_CVPR_2017_paper.pdf
和V1对比
- 加入不同优化点后产生的效果对比
加入BN
(YOLOV1出来的时候还没有BN)
- V2加入Batch Normalization
- 网络的每一层的输入都做了归一化,收敛相对更容易
- 经过Batch Normalization处理后的网络会提升2%的mAP
- 目前Batch Normalization已经成网络必备处理
更大分辨率
- V1训练时用224×224,测试时用448×448,影响最终效果
- V2训练时额外进行10次448×448的训练微调
- 使用高分辨率分类器后,YOLOV2的mAP提升了约4%
网络结构
采用darknet-19作为主干网络:
- Darknet,实际输入为416*416
- 没有FC层,5次降采样(5次池化操作尺寸维度发生更改)(416 ➗32=13)
- 1*1卷积节省了很多参数
包含:19个conv层、5个max pooling层、无FC层,每个conv层后接入BN层
锚框策略
- 在YOLOv2中,引入了Anchor Boxes(先验框)(选出N个最明显的预测框)的思想来替代YOLOv1中直接预测边界框的方式。
Anchor Boxes
1.Anchor Boxes,锚框,先验框,也就是所谓的候选框。Grid会预设多个Anchor Boxes,他们分别具有不同尺寸,作为预测边界框的参考模板。YOLOv2基于Anchor Boxes预测相对偏移量并对宽高做调整,使得预测更加灵活,能够适应各种物体大小。
2.描述Anchor Boxes:
- 一般用大小(Scale)和形状(ratio,比例)来描述:
聚类先验框
1.Faster R-CNN系列共3(个尺寸)×3(个比例)=9种先验框,但在数据集未必都适配;
2.V2则采用K-means聚类中的距离:根据数据中的标注框进行聚类,尺寸无关的距离准则公式如下(先聚类后分类)
2.计算步骤:这里的样本是指标注的目标框
①选择K个样本作为初始聚类中心
②针对数据集中每个样本,计算它到K个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中
③针对每个类别,重新计算它的聚类中心
④重复②、③,直到达到某个终止条件(迭代次数、最小误差变化)
- K(样本数量)取值很关键:太小特征差距大,太大特征差距太小,经观察5是一个比较折中的值;
- 整体Precious降低0.3%,但是召回率却从81%提升到88%;
边界框回归
YOLOV2不再使用全连接层预测每个格子的坐标,而是使用基于Anchor的边界框回归公式。
假设:P是候选框、G是真值框、G'是输出框
目标:寻找一种关系使得候选框经过微调后得到一个跟真实框更接近的回归框
常规偏移计算
YOLOV1是通过模型直接预测位置和大小,这就带来了一系列问题:
- 违背了YOLO的以格子为中心点的预测思想;
- 导致收敛很慢,模型很不稳定,尤其刚开始进行训练的时候;
位置偏移计算
- 然后可以计算相关偏移系数(找寻映射函数过程):候选框和真值框均已知,目标是二者尽可能接近
- 模型预测值: 设 为模型预测值,那么输出框的计算公式如下:
边界框回归(约束候选框中心坐标位置)
- (计算出的中心店坐标不会飘出整个框)
坐标映射
在画候选框的时候需要映射到原始图片(类似于缩放):13 × 32 = 416(经历了五次池化层),在原图中的位置在原图中的位置
输出特征维度
- 通道数:num_anchors x (4+1 + num_classes)
- 每个anchor都有4个边界框回归参数() + 置信度 + 类别概率
- VOC数据集20类、COCO数据集80类
特征融合
- 最后一层时感受野太大了,小目标可能丢失了,需融合之前的特征。
- id=16的conv层与id=22的conv层进行passthrough,用于提升小目标检测精度。(通道之间进行拼接)
训练策略优化
采用多尺度训练方法:
- 先用224*224对主干网络进行预训练,再用448 x 448对主干网络进行微调(10轮)
- 设计了416 x 416和544 x 544两种输入尺寸的网络
- 由于没有FC层,可输入任意尺寸图像,整个网络下采样倍数是32,共有320、352、384、416、448、...、608等10种输入图像尺寸,每10个batch就随机更换一种尺寸
性能对比
与v1对比
YOLOV3
原作者做完V3就退出了。
论文地址:
https://arxiv.org/pdf/1804.02767.pdfhttps://arxiv.org/pdf/1804.02767.pdf
优化的点
- 改进网络结构,使其更适合小目标检测
- 特征做的更细致,融入多特征图信息来预测不同规格物体
- 更丰富的先验框,3种scale,每种3个规格,共9种
- softmax改进,预测多标签任务
网络结构
主干网络
- YOLOV3主干结构采用darknet-53。没有池化和FC,尺寸变换是通过Stride实现的,简单粗暴效果好!
整体结构
有4个坐标变换系数()+置信度+类别概率,使用1 x 1卷积预测,通道数=3 x (4+1+80) = 255
特征输出
特征图尺寸越小,感受野越大,他们分别适配不同大小的目标;
- 52 × 52感受野更小,更适合检测小目标;
- 13 × 13感受野更大,更适合检测大目标;
- 通道数:255 = 3 × (1 + 4 + 80)
特征融合
FPN(Feature Pyramid Networks for Object Detection)
- 用于目标检测的特征金字塔网络(不同阶段特征进行融合,减少了特征的丢失)
-
图a:特征化图像金字塔(效率不高)
①、当我们要检测不同的尺度目标时,需要把图像送入不同的尺度
②、需要根据不同的尺度图片一次进行预测
③、需要多少个不同尺度就需要预测多少次,效率较低
-
图b:单特征映射(只保留了较大的感受野)
①、得到一个特征图并进行预测
②、特征丢失,对于小目标效果不好;
-
图c:金字塔特征层次结构
①、把图像传给backbone,在传播的过程中分别进行预测
②、相互之间独立,特征没有得到充分利用
-
图d:特征金字塔网络
①、不是简单的不同特征图上进行预测
②、会对不同的特征图进行融合后进行预测
FPN融合细节
- 1 × 1卷积完成channel的一致性(获取连接所需要的通道数)
- 2 × up完成尺寸的一致
整体结构
上采样融合
- 增大尺寸
先验框优化
1.共设计了9种先验框:
- 13×13特征图上(大感受野,检测大目标):(116 × 90),(156 × 198),(373 × 326)
- 26×26特征图上(中等感受野,检测小目标):(30 × 61),(62 × 45),(59 × 119)
- 52×52特征图上(小感受野,检测小目标):(10 × 13),(16 × 30),(33 × 23)
2.预选框个数:
- YOLOV2: 13 x 13 x 5=845个预测框
- YOLOV3:(13 x 13+26 x 26+52 x 52) x 3=10647个
- 利用阈值过滤掉置信度低于阈值的预选框。
- 每个cell同样最终只预测一个结果,取置信度最大的。
损失函数
softmax替代
YOLOV3在预测类别时采用了logistic regression,每个类别单独使用二分类的logistic回归,而不是softmax;
整体损失函数
性能对比
v3与v2对比
YOLOV4
从YOLOV4开始就换作者了,不过原作者对YOLOV4是完全认可的。自诩为Optimal Speed and Accuracy of Object Detection(目标检测的最佳速度和最佳精度)。
论文地址:
https://arxiv.org/pdf/2004.10934.pdfhttps://arxiv.org/pdf/2004.10934.pdf
V4贡献
- 算力要求低,单GPU就能训练好
- 从数据层面(数据增强等)和网络设计层面(网络结构)来进行改善
- 融合各种神经网络论文的先进思想(劳模)
数据增强策略
调优手段汇总
Bag of freebies
在离线训练阶段为了提升精度而广泛使用的调优手段,不会增加推断时间:Mosaic数据增强(拼接多张图片)、标签平滑、自对抗训练、损失函数CIOU、标准化方法CmBN
Bag of specials
在推断过程中增加些许成本但能换来较大精度提升的技巧:Mish激活函数、CSP结构。
数据增强
CutMix
1.CutMix 是一种用于图像分类任务的数据增强技术,它通过组合两张不同的训练图像及其标签来生成新的训练样本。
2.CutMix 的工作原理
- 选择两张图像:从训练集中随机选择两张图像(Image A 和 Image B)。
- 定义一个边界框:在 Image A 上随机选择一个矩形区域(边界框)。这个区域将被 Image B 中相应大小和位置的部分替换。
- 混合图像:将 Image B 的选定部分覆盖到 Image A 的相应位置上,从而创建一个新的合成图像。
- 调整标签:新图像的标签不再是单一类别,而是根据两个原始图像在新图像中的面积比例进行加权平均。具体来说,如果 Image A 占据了新图像的大部分区域,则其标签权重较高;反之亦然。例如,如果 Image A 占70%的面积而 Image B 占30%,那么新图像的标签可能是两个类别标签的线性组合,比如 [0.7, 0.3]。
3.CutMix 的优点
- 增加多样性:通过组合不同类别的图像,增加了训练数据的多样性,使得模型能够学习更多样化的特征。
- 防止过拟合:由于引入了额外的变化,模型更难记住特定的训练样本,从而降低了过拟合的可能性。
- 鼓励局部特征的学习:与 Mixup 不同的是,CutMix 更关注于图像的局部区域,这有助于模型学习到更加鲁棒且可定位的特征。
- 计算效率高:相比于其他复杂的数据增强方法,CutMix 的实现相对简单且计算成本较低。
Mosaic
- 先对单张图片做调整亮度、对比度、色调、随机缩放、剪切、翻转、旋转等基本数据增强,后把4张图片拼接在一起。
- 优点:丰富检测物体的背景,减轻对大Batch-size的依赖(GPU压力小了)。
自我对抗训练
- SAT,Self-adversarial-training,自我对抗训练,通过引入噪音点来增加训练难度。
DropBlock
- DropBlock,删除连续有意义的语义区域
标签平滑
1.什么是标签平滑
- 标签平滑(Label Smoothing)是一种用于训练深度学习模型的数据增强和正则化技术,它通过减少标签中的确定性来防止模型过拟合。具体来说,标签平滑通过将硬标签(即完全确定的one-hot编码标签,相当于加入噪声)替换为软标签(即带有轻微不确定性的概率分布),使得模型不会过于自信地学习到训练数据中的噪声或偏差。
2.使用标签平滑原因
- 在标准的分类任务中,每个样本通常有一个明确的类别标签,例如在一个有10个类别的多分类问题中,如果某个样本属于第3类,则其标签会被编码为
[0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
。这种硬标签告诉模型该样本100%属于第三类,而其他类别的概率为0。
3.公式
4.例
损失函数优化
IOU损失
损失函数定义
IOU损失定义如下:交集越大,损失越小,解决了大目标对小目标的影响
缺陷
不适合的情况:
- 情况1:两个框没有相交,loU=0,不能反映两者的距离大小,无法进行学习训练。
- 情况2和3: IOU无法精确的反映两者的重合度效果,比如这里的IOU相等但是效果是有差异的。
GIOU损失
GIOU是对IOU的改进版本,Generalized loU(加入差集的概念,即途中的灰色部分)。
优点
- 与loU只关注重叠区域不同,GloU不仅关注重叠区域,还关注其他的非重合区域,能更好的反映两者的重合度。
缺点
- 无法区分相对位置关系
DIOU损失
Distance loU:表示检测框中心点和真实框中点之间的欧式距离, 表示最小外接矩形的对角线距离。
优点
- 直接最小化两个目标框的距离,所以收敛快,并可以在已有的NMS方法中替代IoU
缺点
- 没有考虑不同长宽比的情况(形状)
CIOU
1.Complete lOU,在DIOU基础上把目标框长宽比(形状)的相似程度考虑进去,利用惩罚因子进行约束。
2.损失函数考虑三个几何因素:重叠面积,中心点距离,长宽比
- v{是衡量长宽比一致性的参数,为真实框的宽高,为检测框的宽高}
自监督训练
SAT(Self-Adversarial Training),新的数据扩充技术。
- 在第一阶段,神经网络改变原始图像而不是网络权值。通过这种方式,神经网络对自身执行一种对抗性攻击,改变原始图像,从而造成图像上没有目标的假象。
- 在第二阶段,训练神经网络对修改后的图像进行正常的目标检测。
CmBN(Cross mini-Batch Normalization)
- 在计算均值和方差时,不仅考虑当前批次的数据,还考虑了前几个批次的数据,从而提升了统计量的稳定性和准确性,减少训练震荡。
网络结构
YOLOV4采用了新的主干结构CSPdarknet-53
CSPNet
- Cross Stage Partial Network:跨阶段局部网络。
- 下图展示了基于ResNe(X)t的CSPResNe(X)t模块:
YOLOV4的CSP
- 这是V4的CSP结构:
SPPNet
- Spatial Pyramid Pooling,多尺度池化。
- 为了更好满足不同输入大小,训练的时候要改变输入数据的大小,SPP其实就是用最大池化来满足最终输入特征尺寸一致即可。
PANet
1.在FPN的基础之上进一步优化而来
2.Path Aggregation Network,路径聚合网络
- 引入了自底向上的路径,使得底层信息更容易传到顶部
- 并且还是一个捷径,红色的没准走个100层(Resnet),绿色的几层就到了
- 更容易保存原始特征:传统的直接相加,我们这里采用了拼接的方式
YOLOV4整体结构
检测头策略
YOLOv4 的检测头策略在 YOLOv3 的基础上进行了多方面的改进,包括 Anchor-based 检测、FPN+PAN 的多尺度特征融合、CIoU 损失优化、Mish 激活函数的引入等。这些改进使得 YOLOv4 在保持高速的同时,进一步提高了目标检测的精度和鲁棒性。
- 使用yolov3的检测头
- 将1个anchor负责一个GroundTruth,变为多个anchor负责一个GT,只要anchor的loU大于阈值就可以负责GT
- 相当于anchor数量没变,选择的正样本比例增加了,提升了检测的鲁棒性和泛化能力
- 减少漏检
边界框回归优化
- 因为sigmoid值域是(0,1),所以前面乘一个略大于1的系数。
YOLOV5
https://github.com/ultralytics/yolov5https://github.com/ultralytics/yolov5
与YOLOV4对比
- 大体结构一致
- 主干网络是C3-Darknet53
- 网络最开始增加Focus结构
- Neck也是采用FPN+PAN,但将卷积变成了CSP
- 预测损失采用GloU(考虑候选框的重叠与不重叠部分)损失
Focus模块
1.先分块,后拼接,再卷积
- 640 x 640 x 3的图像输入Focus结构,采用切片操作,先变成320 x 320 x 12的特征图;
- 再经过一次32个卷积核的卷积操作,最终变成320 x 320 x 32的特征图;
- 目的是加速
2.计算量的计算公式为:
整体网络结构
- 整体结构和YOLOV4非常接近。
Bottleneck
Bottleneck是用于减少参数和计算量的结构,其设计灵感来自于ResNet,结构如下:
- 1 x 1卷积:用于减少特征图的通道数。
- 3 x 3卷积:用于提取特征,后接一个Batch Normalization层和ReLU激活函数。
- 1 x 1卷积:用于恢复特征图的通道数,后接一个BN层。
- 跳跃连接(Shortcut):将输入直接加到输出上,以形成残差连接。
这样既可以减少计算量,同时又保持模型的表达能力。
C3代替CSP
1.YOLOv5中的C3模块在CSP上进行了优化,非常相似但略有不同:
2.不同点:
- 具体实现:YOLOv4中的CSP模块通常使用残差块,而YOLOv5中的C3模块通常使用Bottleneck或BottleneckCSP块。
- 性能优化:YOLOv5中的C3模块在具体实现上进行了进一步优化,以提高计算效率和模型性能。
输出头说明
1.灵活度较高,支持多种尺寸:
(1)输入图像尺寸:通常为640 x 640(或者其它尺寸,如416 x 416等)
(2)输出特征图:YOLOv5 使用大、中、小三个尺寸。
(3)输出尺寸:
- 大目标: 通常是输入图像尺寸的 1/32
- 中目标: 通常是输入图像尺寸的 1/16
- 小目标: 通常是输入图像尺寸的 1/8
2.假设输入图像尺寸为640×640,如果输入的图像是416尺寸的,那就和YOLOV3、YOLOV4的头机制一致了,具体的特征图尺寸如下:
开源项目
1.YOLOV5并没有学术论文,是一个开源项目,是 Ultralytics 公司于 2020 年6月9 日发布的。
2.项目可以在Github搜到:https://github.com/ultralytics/yolov5https://github.com/ultralytics/yolov5
3.预训练模型(从小到大):
- 这些模型的结构是一样的,区别在于网络的深度和宽度,网络的深度指的就是C3模块中Bottleneck的数量,网络的宽度是指网络每层输出的通道数。
Model | size (pixels) | mAPval 50-95 | mAPval 50 | Speed CPU b1 (ms) | Speed V100 b1 (ms) | Speed V100 b32 (ms) | params (M) | FLOPs @640 (B) |
---|---|---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 45.7 | 45 | 6.3 | 0.6 | 1.9 | 4.5 |
YOLOv5s | 640 | 37.4 | 56.8 | 98 | 6.4 | 0.9 | 7.2 | 16.5 |
YOLOv5m | 640 | 45.4 | 64.1 | 224 | 8.2 | 1.7 | 21.2 | 49.0 |
YOLOv5l | 640 | 49.0 | 67.3 | 430 | 10.1 | 2.7 | 46.5 | 109.1 |
YOLOv5x | 640 | 50.7 | 68.9 | 766 | 12.1 | 4.8 | 86.7 | 205.7 |
YOLOv5n6 | 1280 | 36.0 | 54.4 | 153 | 8.1 | 2.1 | 3.2 | 4.6 |
YOLOv5s6 | 1280 | 44.8 | 63.7 | 385 | 8.2 | 3.6 | 12.6 | 16.8 |
YOLOv5m6 | 1280 | 51.3 | 69.3 | 887 | 11.1 | 6.8 | 35.7 | 50.0 |
YOLOv5l6 | 1280 | 53.7 | 71.3 | 1784 | 15.8 | 10.5 | 76.8 | 111.4 |
YOLOv5x6 + TTA | 1280 1536 | 55.0 55.8 | 72.7 72.7 | 3136 - | 26.2 - | 19.4 - | 140.7 - | 209.8 - |
YOLOV5使用
Install
1.直接下载(登录后方可下载)
2.代码下载(需要连网)
git clone https://github.com/ultralytics/yolov5 # clone
3.相关环境下载:在当前目录,找寻一个文件右键选择在集成终端中打开
pip install -r requirements.txt # install 根据自己的情况进行设置
Inference
- 使用自己的训练模型
model = torch.hub.load("ultralytics/yolov5", "custom", path = 权重路径) # or yolov5n - yolov5x6, custom
- 官方代码
Inference with detect.py
Training
数据集获取
去下载或者制作自己的数据集:数据清洗等前期数据操作,比如安全帽:https://www.kaggle.com/datasets/snehilsanyal/construction-site-safety-image-dataset-roboflowhttps://www.kaggle.com/datasets/snehilsanyal/construction-site-safety-image-dataset-roboflow
数据集配置
- 配置文件一般我们放在统一的data目录下面:data/hardhat10.yaml(新建一个hardhat.yaml)
# parent
# ├── yolov5
# └── datasets
# └── hardhat ← downloads here
path: ../datasets/hardhat # dataset root dir 根目录
train: train # train images (relative to 'path') 训练数据集及其标注信息
val: valid # val images (relative to 'path') 50000 images
test: test # test images (optional)
# Classes
names:
0: 'Hardhat'
1: 'Mask'
2: 'NO-Hardhat'
3: 'NO-Mask'
4: 'NO-Safety Vest'
5: 'Person'
6: 'Safety Cone'
7: 'Safety Vest'
8: 'machinery'
9: 'vehicle'
超参数配置
- 超参数配置文件在
data/hyps
目录下,默认data/hyp.scratch-low.yaml
,可在训练时使用--hyp
参数指定,具体参考如下:
# Ultralytics YOLOv5 🚀, AGPL-3.0许可证
# 从头开始进行高增强度的COCO训练的超参数配置
# python train.py --batch 32 --cfg yolov5m6.yaml --weights '' --data coco.yaml --img 1280 --epochs 300
# 查看超参数演化的教程 https://github.com/ultralytics/yolov5#tutorials
lr0: 0.01 # 初始学习率 (SGD=1E-2, Adam=1E-3),模型训练开始时的学习率。
lrf: 0.1 # 最终的OneCycleLR学习率 (lr0 * lrf),通过OneCycle策略调整学习率的最终倍数。
mometum: 0.937 # SGD动量/Adam beta1,优化算法中的动量参数,用于加速收敛。
weight_decay: 0.0005 # 优化器权重衰减,用于控制模型参数的正则化强度,减少过拟合。
warmup_epochs: 3.0 # 热身周期 (可以使用分数),训练开始阶段用较小的学习率逐步增加到设定值的训练周期数。
warmup_momentum: 0.8 # 热身初始动量,训练开始时的动量值,用于加速模型收敛。
warmup_bias_lr: 0.1 # 热身初始偏置学习率,训练开始时用于偏置参数的学习率。
box: 0.05 # 边界框损失增益,用于调整边界框损失在总损失中的权重。
cls: 0.3 # 分类损失增益,用于调整分类损失在总损失中的权重。
cls_pw: 1.0 # 分类交叉熵损失正权重,用于平衡正负样本在分类损失中的影响。
obj: 0.7 # 目标检测损失增益 (随图像像素缩放),用于调整目标检测损失在总损失中的权重,与图像像素相关。
obj_pw: 1.0 # 目标检测交叉熵损失正权重,用于平衡正负样本在目标检测损失中的影响。
iou_t: 0.20 # IoU训练阈值,用于确定正负样本的IoU阈值。
anchor_t: 4.0 # 锚点倍数阈值,用于过滤锚点,只保留符合倍数条件的锚点。
fl_gamma: 0.0 # 焦点损失Gamma (EfficientDet默认为1.5),用于调整焦点损失函数中的聚焦参数。
hsv_h: 0.015 # 图像HSV-Hue增强 (分数),用于调整图像色调增强的程度。
hsv_s: 0.7 # 图像HSV-Saturation增强 (分数),用于调整图像饱和度增强的程度。
hsv_v: 0.4 # 图像HSV-Value增强 (分数),用于调整图像明度增强的程度。
degrees: 0.0 # 图像旋转 (+/-度),用于随机旋转图像的角度范围。
translate: 0.1 # 图像平移 (+/-分数),用于随机平移图像的位置范围。
scale: 0.9 # 图像缩放 (+/-增益),用于随机缩放图像的尺寸。
shear: 0.0 # 图像剪切 (+/-度),用于随机剪切图像的角度范围。
perspective: 0.0 # 图像透视 (+/-分数),用于随机应用透视变换到图像中,范围在0到0.001之间。
flipud: 0.0 # 图像上下翻转 (概率),以指定的概率随机上下翻转图像。
fliplr: 0.5 # 图像左右翻转 (概率),以指定的概率随机左右翻转图像。
mosaic: 1.0 # 图像马赛克 (概率),以指定的概率随机应用图像马赛克增强。
mixup: 0.1 # 图像mixup (概率),以指定的概率随机应用图像混合增强。
copy_paste: 0.1 # 分段复制-粘贴 (概率),以指定的概率随机应用分段复制-粘贴增强。
模型结构配置
- 一般来讲模型结构就是n、s、m、l、x等固定的结构,配置文件在models目录下面:
hhyolo5s.yaml
- depth_multiple和width_multiple两个参数,来进行控制网络的深度和宽度控制。
# Ultralytics YOLOv5 , AGPL-3.0 license
# Parameters
nc: 10 # number of classes
depth_multiple: 0.33 # model depth multiple
width_multiple: 0.25 # layer channel multiple
anchors:
- [10, 13, 16, 30, 33, 23] # P3/8
- [30, 61, 62, 45, 59, 119] # P4/16
- [116, 90, 156, 198, 373, 326] # P5/32
# YOLOv5 v6.0 backbone
backbone:
# [from, number, module, args]
[
[-1, 1, Conv, [64, 6, 2, 2]], # 0-P1/2
[-1, 1, Conv, [128, 3, 2]], # 1-P2/4
[-1, 3, C3, [128]],
[-1, 1, Conv, [256, 3, 2]], # 3-P3/8
[-1, 6, C3, [256]],
[-1, 1, Conv, [512, 3, 2]], # 5-P4/16
[-1, 9, C3, [512]],
[-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
[-1, 3, C3, [1024]],
[-1, 1, SPPF, [1024, 5]], # 9
]
# YOLOv5 v6.0 head
# [from, number, module, args]
head: [
[-1, 1, Conv, [512, 1, 1]],
[-1, 1, nn.Upsample, [None, 2, "nearest"]],
[[-1, 6], 1, Concat, [1]], # cat backbone P4
[-1, 3, C3, [512, False]], # 13
[-1, 1, Conv, [256, 1, 1]],
[-1, 1, nn.Upsample, [None, 2, "nearest"]],
[[-1, 4], 1, Concat, [1]], # cat backbone P3
[-1, 3, C3, [256, False]], # 17 (P3/8-small)
[-1, 1, Conv, [256, 3, 2]],
[[-1, 14], 1, Concat, [1]], # cat head P4
[-1, 3, C3, [512, False]], # 20 (P4/16-medium)
[-1, 1, Conv, [512, 3, 2]],
[[-1, 10], 1, Concat, [1]], # cat head P5
[-1, 3, C3, [1024, False]], # 23 (P5/32-large)
[[17, 20, 23], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5)
]
训练指令
- 训练指令参考:特别提醒各位同学,--batch-size 超过64的话大概需要8G显卡内存
python train.py --data ./data/hardhat10.yaml --epochs 10 --weights 'yolov5n' --cfg ./models/hhyolov5n.yaml --batch-size 32 --device 0 --workers 2
自训练模型使用
- 使用自己训练好的模型进行推理,注意路径:best.pt就是自己训练的模型
python detect.py --weights best.pt --source img.jpg
图表分析
- 分析训练效果,,相关的训练日志在runs目录下。
模型预训练
- 在训练好的模型之上继续训练 ,把刚才训练好的模型放到合适的位置,再次进行训练,不需要加--resume参数
python train.py --data ./data/hardhat10.yaml --epochs 20 --weights './best/best' --cfg ./models/hhyolov5n.yaml --batch-size 32 --device 0 --workers 2
模型继续训练
- 如果训练过程中意外停止,没关系的,可以继续训练,在训练指令后面加上
--resume
参数即可
python train.py --data ./data/hardhat10.yaml --epochs 20 --cfg ./models/hhyolov5n.yaml --batch-size 32 --device 0 --workers 2 --resume
导出ONNX
python export.py --weights yolov5s.pt --img 640 --batch 1 --device 0 --include onnx
使用ONNX进行推理
简单直接
使用detect.run进行推理:
from yolov5 import detect
detect.run(
weights='yolov5s.onnx', # 权重文件路径
source='data/images', # 输入源路径
img_size=640, # 输入图像尺寸
conf_thres=0.25, # 置信度阈值
iou_thres=0.45, # IoU阈值
max_det=1000, # 最大检测数量
device='0', # 设备
view_img=False, # 显示检测结果
save_txt=False, # 保存检测结果为txt文件
save_conf=False, # 保存置信度到txt文件
save_crop=False, # 裁剪并保存检测到的对象
nosave=False, # 保存图像/视频
classes=None, # 检测所有类
agnostic_nms=False, # 类无关的非极大值抑制
augment=False, # 推理增强
visualize=False, # 可视化特征图
update=False, # 更新所有模型
project='runs/detect', # 结果保存目录
name='exp', # 结果保存子目录
exist_ok=False, # 允许现有目录
line_thickness=3, # 画框线条粗细
hide_labels=False, # 隐藏标签
hide_conf=False, # 隐藏置信度
half=False, # 半精度推理
dnn=False # 使用OpenCV DNN模块
)
基于ORT
使用GPU设备进行自定义推理:
import onnxruntime as ort
import numpy as np
import cv2
# 创建ONNX Runtime推理会话
providers = ['CUDAExecutionProvider'] # ['CPUExecutionProvider'] 这是指定CPU
session = ort.InferenceSession('yolov5s.onnx', providers=providers)
# 读取输入图像
img = cv2.imread('data/images/bus.jpg')
img = cv2.resize(img, (img_size, img_size))
img = img.transpose((2, 0, 1)) # HWC to CHW
img = np.expand_dims(img, axis=0).astype(np.float32) / 255.0
# 进行推理
outputs = session.run(None, {'images': img})
print(outputs.shape)
YOLOV8改进
- 虽说YOLOv8 相对 YOLOv5 有多项改进,,但整体差异不大。
网络结构
整体网络结构图如下:
网络差异
- 和YOLOV5的网络结构差异处有以下几点。
Backbone
回归3 × 3
- 第一个Conv不再是,还是回到了奇数
C2f代替C3
YOLOV8整个网络里面使用的都是C2f,其中split是在channel上进行分割。
SPPF后续
- 在YOLOV5的SPPF后面有一个Conv操作,在YOLOV8中取消了。
深度和宽度
YOLOV5:
YOLOV8:
Neck
- 去掉了 Neck 模块中的上采样之前 2个卷积连接层。
Head
1.解耦头结构(Decoupled-Head),将分类头和检测头分离
2.从Anchor-Based 换成了 Anchor-Free
3.YOLOv8 的输出头结构通常为 ,含义如下:
- 1:表示检测到的图片数量,通常为 1,表示处理一张图片。
- 84:表示每个目标的属性数量,包括边界框的位置(4 个参数),类别概率。
- 8400:表示每张图像中的 anchor 数量。 80 * 80 + 40 * 40 + 20 * 20
训练差异
- 最后10个epoch 关闭 Mosaic 数据增强的操作。
YOLO11
官方文档:GitHub - ultralytics/ultralytics: Ultralytics YOLO11 🚀Ultralytics YOLO11 🚀. Contribute to ultralytics/ultralytics development by creating an account on GitHub.https://github.com/ultralytics/ultralyticshttps://github.com/ultralytics/ultralytics
开发文档:Home - Ultralytics YOLO DocsDiscover Ultralytics YOLO - the latest in real-time object detection and image segmentation. Learn its features and maximize its potential in your projects.https://docs.ultralytics.com/https://docs.ultralytics.com/
准备工作
概述
YOLO11是YOLO新版本系列,在速度和精度上进行了改进。它采用更先进的网络结构和训练技巧,支持多种检测任务,包括目标检测和跟踪、实例分割、图像分类和姿态估计等。同时YOLO11优化了推理速度,使其在实时应用中表现更佳。
环境准备
安装
在构建YOLO工程时,需要安装YOLO11(建议使用较高版本的Python环境):
pip install ultralytics
源码获取
1.如果你只要对YOLO11进行源码解析,建议从releases分支下载对应的版本(可编辑模式需要下载源代码):
Releases · ultralytics/ultralytics · GitHubUltralytics YOLO11 🚀. Contribute to ultralytics/ultralytics development by creating an account on GitHub.https://github.com/ultralytics/ultralytics/releases
2.分支对比:
- master: 项目的主线,通常代表最新的稳定代码。
- releases: 指定版本的稳定发布版本,例如
v1.0
,v2.0
等,用于长期维护,BUG较少。
YOLO11的基本使用
使用不同的权重进行不同的检测任务(不同的model对应不同的功能)
目标检测
yolo predict model=yolo11n.pt source='./bus.jpg'
语义分割
yolo predict model=yolov8n-seg.pt source='./bus.jpg'
图像分类
yolo predict model=yolov8n-cls.pt source='./bus.jpg'
效果对比
参数认知
- mAP50:IOU阈值为 0.50 时的平均精度,评估较为宽松,主要反映模型的粗略检测能力。
- mAP50-95:在不同IOU阈值下(从0.50到0.95,步长0.05,共10个值)计算AP的均值,是更为严谨和全面的性能指标。
在报告模型性能时,mAP50-95能够更好地衡量模型的总体表现,更具参考价值。
模型对比
分别从推理速度两个方面进行对比。
模型对比之推理速度指标:
YOLO11之模型结构指标:
小结
- yolov1保留有4个池化,2个全连接层
- yolov2去掉了全连接层,但有五个池化(五次降采样)、每层加入BN
- yolov3去电了全连接和池化层,依靠步长变换尺寸
- yolov4加入了各种数据增强,除了IOU(考虑重叠面积)、GIOU(考虑差集)、DIOU(考虑中欧式距离和对角线距离)、CIOU(考虑重叠面积,中心点距离,长宽比)
- yolov11改写源代码需转为可编辑模式
YOLO作者及论文
论文就是学习和认知YOLO的文档。
Yolov1
作者:
Joseph Redmon ,Santosh Divvala , Ross Girshick 和 Ali Farhadi 。 Joseph Redmon 是YOLO系列的主要创始人,他在华盛顿大学进行研究工作时提出了 YOLO 的概念。
论文:
https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdfhttps://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf
Yolov2
作者:
由 Joseph Redmon 和 Ali Farhadi 共同开发。Joseph Redmon的工作推动了目标检测技术的边界。
论文:
https://openaccess.thecvf.com/content_cvpr_2017/papers/Redmon_YOLO9000_Better_Faster_CVPR_2017_paper.pdfhttps://openaccess.thecvf.com/content_cvpr_2017/papers/Redmon_YOLO9000_Better_Faster_CVPR_2017_paper.pdf
Yolov3
作者:
该版本继续由 Joseph Redmon 和 Ali Farhadi 共同开发,但在yolov3 之后,他宣布退出计算机视觉研究,以表达对 AI 技术潜在不负责任使用的担忧。
论文:
https://arxiv.org/pdf/1804.02767.pdfhttps://arxiv.org/pdf/1804.02767.pdf
Yolov4
作者:
Alexey Bochkovskiy、Chien-Yao Wang(yolov4,yolov7 作者) 和 Hong-Yuan MarkLiao(Yolov4、Yolov7、yolov9 的作者)。
论文:
https://arxiv.org/pdf/2004.10934.pdfhttps://arxiv.org/pdf/2004.10934.pdf
Yolov5
作者:
Yolov5的项目团队是 Ultralytics LLC 公司,是一个专注于深度学习和人工智能领域的公司,特别是在计算机视觉和目标检测技术方面。yolov5主要是对YOLO完成工程化的工作,并没有在核心技术上进行突破和创新,所以没有论文。
项目:
https://github.com/ultralytics/yolov5https://github.com/ultralytics/yolov5
Yolov6
作者:
开发者是来自中国的科技公司美团的研究团队。
论文:
https://arxiv.org/pdf/2209.02976.pdfhttps://arxiv.org/pdf/2209.02976.pdf
Yolov7
作者:
Chien-Yao Wang(Yolov4、Yolov7、Yolov9 作者)、Hong-Yuan Mark Liao(Yolov4、Yolov7、Yolov9 的作者)、 Alexey Bochkovskiy (Yolov4 作者)。
论文:
https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_YOLOv7_Trainable_Bag-of-Freebies_Sets_New_State-of-the-Art_for_Real-Time_Object_Detectors_CVPR_2023_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2023/papers/Wang_YOLOv7_Trainable_Bag-of-Freebies_Sets_New_State-of-the-Art_for_Real-Time_Object_Detectors_CVPR_2023_paper.pdf
Yolov11
作者:
由小型初创公司 Ultralytics 创建并维护的,具体情况同 Yolov5。
项目:
https://github.com/ultralytics/ultralyticshttps://github.com/ultralytics/ultralytics
Yolov9
作者:
Chien-Yao Wang (Yolov4、Yolov7、Yolov9 作者) , I-Hau Yeh , Hong-Yuan Mark Liao(Yolov4、Yolov7、Yolov9 的作者)
论文:
https://arxiv.org/pdf/2402.13616.pdfhttps://arxiv.org/pdf/2402.13616.pdf
Yolov10
作者:
由清华大学团队Ao Wang,Hui Chen,Lihao Liu,Kai Chen,Zijia Lin,Jungong Han,Guiguang Ding开发。
论文:
https://arxiv.org/pdf/2405.14458https://arxiv.org/pdf/2405.14458