当前位置：首页 > article >正文

图像识别技术与应用课后总结（16）

article 2025/3/12 22:00:57

目标检测

识别图片中有哪些物体并且找到物体的存在位置

属于多任务操作，既要判断出图片中物体的类别，比如人、自行车等，还要通过边界框找到物体在图像中的具体位置。

实际应用中会遇到多种问题，像目标种类与数量繁多，这要求算法能准确区分和检测大量不同物体；目标尺度不均，即物体在图像中的大小不一，可能有远距离的小物体，也有近距离的大物体；还有外部环境干扰，例如物体被遮挡或者图像存在噪声，这些都会影响检测的准确性。

目标检测的数据集

VOC数据集：来自PASCAL VOC挑战赛，是计算机视觉领域的重要数据集。它分为4大类、20小类，像车辆类包含汽车、公交车等；家用类有椅子、沙发等。VOC 2007版本包含9963张图片和24640个目标，2012版本有23080张图片和54900个目标，主要用于研究在有限类别和数量下的目标检测问题。

COCO数据集：由微软在2014年出资标注。它包含20万个图像，80个类别，超过50万个目标标注，平均每个图像的目标数是7.2 。相比VOC数据集，其图像和类别更多，场景更复杂，能更好地模拟现实世界中的目标检测情况。

目标检测的Ground Truth

Ground Truth概念：指在目标检测中，准确标注出图像中目标物体的类别以及其真实边界框坐标，是评估目标检测算法准确性的参考标准。

YOLO(TXT)格式：用(x, y, w, h)表示，分别代表目标物体边界框的中心点坐标以及宽和高，且这些值均为归一化结果，取值范围在0到1之间。

VOC(XML)格式：通过(Xmin, Ymin, Xmax, Ymax) 来确定边界框，分别代表左上角和右下角的坐标，记录了目标物体在图像中的位置范围。

COCO(JSON)格式：(Xmin, Ymin, W, H) ，也是归一化后的数值，代表目标物体边界框的左上角坐标以及宽和高。

目标检测的评估指标

IoU（交并比）：是预测边界框与真实边界框的交集面积除以并集面积的比值。IoU值越接近1，表示预测框与真实框越重合，预测结果越好。在实际应用中，会生成大量预测结果，先过滤掉低类别置信度的检测结果，再用IoU衡量边界框的正确性。

检测结果的类别：根据真实标注（Ground Truth）和预测结果，分为4种评价指标。

TP（真正例）：真实为正样本，且被正确预测为正样本（IoU大于阈值）。

FP（假正例）：真实为负样本，但被错误预测为正样本（IoU小于阈值）。

TN（真负例）：真实为负样本，且被正确预测为负样本。

FN（假负例）：真实为正样本，但被错误预测为负样本，即漏检目标。

Precision（准确率、查准率）和Recall（召回率、查全率）

P-R曲线：以召回率为横坐标，准确率为纵坐标绘制的曲线，可直观展示模型性能。

mean AP（平均精度均值）：每个类别AP（Average Precision，平均精度）的均值，用于综合评估模型在多个类别上的性能。AP计算方法涉及11点法等近似面积法。

mean与average：mean即算术平均数，是常见的平均值计算方式。average含义更广，包含众数、中位数等其他度量指标。在目标检测中，Average P（平均精度）需要设计度量规则使其均衡；mean AP（平均精度均值）是在AP已经均衡的基础上直接计算算术平均。

案例：图片中目标检测的候选框情况，绿色框和红色框分别代表不同状态，旁边标有置信度。下方表格针对部分候选框，列出了图片编号、候选框编号、置信度以及判断结果（TP或FP），用于结合实际例子说明评估指标在目标检测中的应用。

AP计算方法：11点法：在精确率-召回率曲线上，选取召回率R为[0, 0.1, 0.2, …, 0.9, 1]这11个点，找到对应的精确率P

目标检测的传统方法——滑动窗口法：

通过在图像上以不同大小和位置滑动窗口来检测目标。但该方法需要人工设计窗口尺寸，在检测过程中会产生大量冗余操作，而且对目标的定位准确性欠佳。

目标检测的深度学习方法

anchor box（锚框）：

使用比例（ratio）和尺度（scale）来描述。在特征图（feature map）上，每个点对应一系列不同比例和尺度的锚框。锚框的位置由特征图上的点决定，尺度表示目标的大小

公式

anchor - base和anchor - free：anchor - base方法是自顶向下的，类似于传统的滑动窗口法，会预先设置大量锚框，然后根据置信度等进行筛选；而anchor - free方法是自底向上的，无需预先设置锚框，能够自动生成检测目标的方式，避免了锚框预设过程。

two stage算法流程：

输入图像先经过卷积神经网络（CNN）提取特征，然后生成候选区域（proposal）。接着通过感兴趣区域池化（ROI pooling）对候选区域特征进行处理，再经过全连接层（fc），最后分别进行类别预测和位置回归，并用非极大值抑制（NMS）处理结果。

one stage算法流程：

输入图像经CNN提取特征后，直接同时进行类别预测和位置回归，最后通过NMS处理得到最终检测结果。相比于two stage算法，one stage算法流程更为简洁。

常见算法

two stage算法：经典发展线有R - CNN、SPP - Net、Fast R - CNN、Faster R - CNN等；其他还包括Cascade R - CNN、Guided Anchoring等。

one stage算法：主要有YOLO系列（v1 - v5）、SSD系列（SSD、DSSD、FSSD ）以及RefineDet等。

非极大值抑制（NMS）：是目标检测中的常用技术。先设定目标框的置信度阈值（常用0.5左右），将候选框按置信度降序排列，把置信度最高的框A加入输出列表并从候选框列表删除。然后计算候选框列表中其余框与A的交并比（IoU），删除IoU大于阈值的候选框，以此消除重复的目标框。

查看全文

http://www.kler.cn/a/581897.html

Spring MVC 详细分层和微服务

Redis线上问题排查指南：常见错误与解决思路

统计登录系统10秒内连续登录失败超过3次的用户

计算机三级网络技术备考（5）

每天一道算法题【蓝桥杯】【x的平方根】

Kylin麒麟操作系统服务部署 | Ansible基础

Axure RP 9 安装与汉化指南（附安装包）包含下载、安装、汉化、授权，Axure9 汉化教程、Axure9 汉化步骤

不用 Tomcat？SpringBoot 项目用啥代替？

智能体开发：推理-行动（ReAct）思维链提示

从零开始学机器学习——准备和可视化数据

springboot 文件下载

带有LBS_OWNERDRAWFIXED 样式的列表框，系统在什么时候向窗口发送WM_DRAWITEM 和WM_MEASUREITEM消息de呢？

使用DeepSeek+蓝耘快速设计网页简易版《我的世界》小游戏

如何在Spring Boot中配置和使用MyBatis-Plus

帕金森病如何 “偷走” 患者的正常生活？

HttpMediaTypeNotAcceptableException报错解决，状态码显示为406

3dsmax烘焙光照贴图然后在unity中使用

shell脚本一键更新部署docker中服务

相关文章：