当前位置: 首页 > article >正文

【目标检测】YOLOV2

YOLO9000: Better, Faster, Stronger

【目标检测】YOLOV1

1、YOLOV2 改进策略

从 YOLO9000: Better, Faster, Stronger 这篇论文名称就可以了解到 YOLO V2 相对于 YOLO V1 ,预测更准确(Better),预测速度更快(Faster),识别的物体类别更多(Stronger),相比于 YOLOV1 只能检测 20 类物体,YOLO9000 提高到 9000+ 种。

YOLO V1 发挥 one-stage 方法的优势,在检测速度上,相对于 R-CNN 系列能达到比较快的检测速度,但是在检测精度上却不如 R-CNN 系列检测方法,所以 YOLO V2 提出了几种改进策略来提升YOLO 模型的定位准确度和召回率,从而提高 mAP 。

在这里插入图片描述

2、Better

(1)Batch Normalization (BN 归一化)

Batch Normalization 助于解决反向传播过程中的梯度消失和梯度爆炸问题,可以加快模型收敛速度。在 YOLO V2 中,每个卷积层后面都添加了 Batch Normalization 层,并且不再使用 droput 。

Dropout 是一种正则化技术,它在训练过程中随机关闭一部分神经元,被关闭的神经元不参与前向传播和反向传播。
Dropout的深入理解(基础介绍、模型描述、原理深入、代码实现以及变种)

(2)High Resolution Classifier (使用高分辨率图像微调分类模型)

YOLO V2 采用 224 * 224 图像进行分类模型预训练后,再采用 448 * 448 的高分辨率样本对分类模型进行微调(10个epoch),使网络特征逐渐适应 448 * 448 的分辨率。然后再使用 448 * 448 的检测样本进行训练,缓解了分辨率突然切换造成的影响。

(3)Convolutional With Anchor Boxes (采用先验框)

借鉴 Faster R-CNN 的做法,YOLO V2 也尝试采用先验框(anchor)。在每个 grid cell 预先设定一组不同大小和宽高比的边框,来覆盖整个图像的不同位置和多种尺度,这些先验框作为预定义的候选区在神经网络中将检测其中是否存在对象,以及微调边框的位置。

同时 YOLO V2 移除了全连接层。另外去掉了一个池化层,使网络卷积层输出具有更高的分辨率。

之前YOLO1并没有采用先验框,并且每个 grid cell 只预测两个 bounding box 。

(4)Dimension Clusters (采用聚类方法提取先验框尺度)

之前先验框都是手工设定的,YOLO V2 的做法是对训练集中标注的边框进行聚类分析,以寻找尽可能匹配样本的边框尺寸,这样就可以减少网络微调先验框到实际位置的难度。

在这里插入图片描述

(5)Direct location prediction (约束预测边框调整的位置)

Faster RCNN 的先验框(Anchor)方法,在训练的早期阶段,其位置预测容易不稳定(即调整后的 Anchor 位置中心可能出现在输入图像任意位置上)。YOLO V2 将预测边框中心位置调整约束在特定 gird cell 网格内

在这里插入图片描述

(6)Fine-Grained Features ( passthrough 层检测细粒度特征)

YOLO V2 引入一种称为 passthrough 层的方法在特征图中保留一些细节信息,以便更好的检测出一些比较小的对象。具体来说,就是在最后一个 pooling 之前,特征图的大小是 26 * 26 * 512,将其 1 拆 4,直接传递( passthrough )到 pooling 后(并且又经过一组卷积)的特征图,两者叠加到一起作为输出的特征图。

(7)Multi-Scale Training (多尺度图像训练)

因为 YOLO V2 网络结构去掉了全连接层,YOLO V2 可以输入多种尺寸的图像

(8)High Resolution Detector (支持高分辨率图像的对象检测)

因为 YOLO V2 调整网络结构后,能够支持多种尺寸的输入图像,如果用较高分辨率的输入图像,可提高 mAP 。

3、Faster

YOLO V2 采用 Darknet-19 网络结构,相对于 YOLO V1 采用的 VGG-16 ,在检测精度上相差无几,但是计算量却可以减少约33%,从而加快目标检测速度。

在这里插入图片描述

4、Stronger

通过采用联合训练(jointly training)机制,综合发挥目标检测任务数据集和图像分类任务数据集的综合优势(目标检测数据集图像数量少、目标类别少但提供精确的目标位置信息,而分类数据集无目标位置信息,但类别数多且图像数量庞大),使得支持的检测目标类别数从原来 YOLO V1 的 20 类大幅扩展至 9000 多种类别,大大提高了模型的适用性。

[COPY]
<机器爱学习>YOLOv2 / YOLO9000 深入理解
YOLOv2 / YOLO9000 深入理解
目标检测那点儿事——更强的YOLO-9000
目标检测那点儿事——更好更快的YOLO-V2
目标检测|YOLOv2原理与实现(附YOLOv3)


http://www.kler.cn/a/282280.html

相关文章:

  • Typescript中的keyof类型操作符详解
  • Linux下多线程
  • C++ 编程基础(5)类与对象 | 5.8、面向对象五大原则
  • C++学习-空指针推荐使用nullptr
  • Prometheus面试内容整理-生态系统和集成
  • 大模型(LLMs)进阶篇
  • 信息安全(密码学)---数字证书、kpi体系结构、密钥管理、安全协议、密码学安全应用
  • 基于my Batis优化图书管理系统(二)
  • MySQL笔记(大斌)
  • linux-centos7 服务器上redis服务已经启动,但是宿主机无法访问,报错:connect timeout
  • MT5016A-ASEMI无人机专用整流桥MT5016A
  • 鸿蒙上架流程
  • 【WPF】WPF学习路线
  • Python-MNE-源空间和正模型03:自动源配准的方法
  • 鸿蒙开发入门day15-焦点事件
  • 【亲测有效】icmp,tcpping工具源码
  • 关于vue2运行时filemanager-webpack-plugin报错isFile is undefind
  • mysql数据库数据的批量插入
  • js传递long类型存在精度丢失
  • SpringBoot日志管理 —— 解决Logback生成 “LOG_PATH_IS_UNDEFINED“ 文件夹问题
  • webpack4手动搭建Vue项目
  • 光学涡旋Talbot阵列照明器的matlab模拟与仿真
  • 深入理解 Go 语言并发编程之系统调用底层原理
  • 用宝塔部署项目到阿里云服务器访问不到的问题
  • 【TCGA】将TCGA数据移动到一个文件夹下
  • webgl入门