当前位置: 首页 > article >正文

图像识别技术与应用课后总结(16)

目标检测

识别图片中有哪些物体并且找到物体的存在位置

属于多任务操作,既要判断出图片中物体的类别,比如人、自行车等,还要通过边界框找到物体在图像中的具体位置。

实际应用中会遇到多种问题,像目标种类与数量繁多,这要求算法能准确区分和检测大量不同物体;目标尺度不均,即物体在图像中的大小不一,可能有远距离的小物体,也有近距离的大物体;还有外部环境干扰,例如物体被遮挡或者图像存在噪声,这些都会影响检测的准确性 。

目标检测的数据集

VOC数据集:来自PASCAL VOC挑战赛,是计算机视觉领域的重要数据集。它分为4大类、20小类,像车辆类包含汽车、公交车等;家用类有椅子、沙发等。VOC 2007版本包含9963张图片和24640个目标,2012版本有23080张图片和54900个目标 ,主要用于研究在有限类别和数量下的目标检测问题。

 COCO数据集:由微软在2014年出资标注。它包含20万个图像,80个类别,超过50万个目标标注,平均每个图像的目标数是7.2 。相比VOC数据集,其图像和类别更多,场景更复杂,能更好地模拟现实世界中的目标检测情况。

目标检测的Ground Truth

Ground Truth概念:指在目标检测中,准确标注出图像中目标物体的类别以及其真实边界框坐标,是评估目标检测算法准确性的参考标准。

YOLO(TXT)格式:用(x, y, w, h)表示,分别代表目标物体边界框的中心点坐标以及宽和高,且这些值均为归一化结果,取值范围在0到1之间。

 VOC(XML)格式:通过(Xmin, Ymin, Xmax, Ymax) 来确定边界框,分别代表左上角和右下角的坐标,记录了目标物体在图像中的位置范围。

 COCO(JSON)格式:(Xmin, Ymin, W, H) ,也是归一化后的数值,代表目标物体边界框的左上角坐标以及宽和高 。

目标检测的评估指标

IoU(交并比):是预测边界框与真实边界框的交集面积除以并集面积的比值。IoU值越接近1,表示预测框与真实框越重合,预测结果越好。在实际应用中,会生成大量预测结果,先过滤掉低类别置信度的检测结果,再用IoU衡量边界框的正确性。

检测结果的类别:根据真实标注(Ground Truth)和预测结果,分为4种评价指标。

TP(真正例):真实为正样本,且被正确预测为正样本(IoU大于阈值)。

FP(假正例):真实为负样本,但被错误预测为正样本(IoU小于阈值)。

TN(真负例):真实为负样本,且被正确预测为负样本。

FN(假负例):真实为正样本,但被错误预测为负样本,即漏检目标。

Precision(准确率、查准率)和Recall(召回率、查全率)

 P-R曲线:以召回率为横坐标,准确率为纵坐标绘制的曲线,可直观展示模型性能。

mean AP(平均精度均值):每个类别AP(Average Precision,平均精度)的均值,用于综合评估模型在多个类别上的性能。AP计算方法涉及11点法等近似面积法。

mean与average:mean即算术平均数,是常见的平均值计算方式。average含义更广,包含众数、中位数等其他度量指标。在目标检测中,Average P(平均精度)需要设计度量规则使其均衡;mean AP(平均精度均值)是在AP已经均衡的基础上直接计算算术平均。

案例:图片中目标检测的候选框情况,绿色框和红色框分别代表不同状态,旁边标有置信度。下方表格针对部分候选框,列出了图片编号、候选框编号、置信度以及判断结果(TP或FP),用于结合实际例子说明评估指标在目标检测中的应用 。

 AP计算方法:11点法:在精确率-召回率曲线上,选取召回率R为[0, 0.1, 0.2, …, 0.9, 1]这11个点,找到对应的精确率P

目标检测的传统方法——滑动窗口法:

通过在图像上以不同大小和位置滑动窗口来检测目标。但该方法需要人工设计窗口尺寸,在检测过程中会产生大量冗余操作,而且对目标的定位准确性欠佳。

目标检测的深度学习方法

anchor box(锚框)

 

使用比例(ratio)和尺度(scale)来描述。在特征图(feature map)上,每个点对应一系列不同比例和尺度的锚框。锚框的位置由特征图上的点决定,尺度表示目标的大小

公式

 anchor - base和anchor - free:anchor - base方法是自顶向下的,类似于传统的滑动窗口法,会预先设置大量锚框,然后根据置信度等进行筛选;而anchor - free方法是自底向上的,无需预先设置锚框,能够自动生成检测目标的方式,避免了锚框预设过程。

two stage算法流程

 

输入图像先经过卷积神经网络(CNN)提取特征,然后生成候选区域(proposal)。接着通过感兴趣区域池化(ROI pooling)对候选区域特征进行处理,再经过全连接层(fc),最后分别进行类别预测和位置回归,并用非极大值抑制(NMS)处理结果。

one stage算法流程

 

输入图像经CNN提取特征后,直接同时进行类别预测和位置回归,最后通过NMS处理得到最终检测结果。相比于two stage算法,one stage算法流程更为简洁。

常见算法

two stage算法:经典发展线有R - CNN、SPP - Net、Fast R - CNN、Faster R - CNN等;其他还包括Cascade R - CNN、Guided Anchoring等。

one stage算法:主要有YOLO系列(v1 - v5)、SSD系列(SSD、DSSD、FSSD )以及RefineDet等。

非极大值抑制(NMS):是目标检测中的常用技术。先设定目标框的置信度阈值(常用0.5左右),将候选框按置信度降序排列,把置信度最高的框A加入输出列表并从候选框列表删除。然后计算候选框列表中其余框与A的交并比(IoU),删除IoU大于阈值的候选框,以此消除重复的目标框 。


http://www.kler.cn/a/581897.html

相关文章:

  • Spring MVC 详细分层和微服务
  • Redis线上问题排查指南:常见错误与解决思路
  • 统计登录系统10秒内连续登录失败超过3次的用户
  • 计算机三级网络技术备考(5)
  • 每天一道算法题【蓝桥杯】【x的平方根】
  • Kylin麒麟操作系统服务部署 | Ansible基础
  • Axure RP 9 安装与汉化指南(附安装包)包含下载、安装、汉化、授权,Axure9 汉化教程、Axure9 汉化步骤
  • 不用 Tomcat?SpringBoot 项目用啥代替?
  • 智能体开发:推理-行动(ReAct)思维链提示
  • 【2025最新】DeepSeek-R1+Open-WebUI双系统部署全攻略:从Linux到Windows保姆级教程,手把手搭建可视化AI对话平台
  • 从零开始学机器学习——准备和可视化数据
  • springboot 文件下载
  • 带有LBS_OWNERDRAWFIXED 样式的列表框,系统在什么时候向窗口发送WM_DRAWITEM 和WM_MEASUREITEM消息de呢?
  • 使用DeepSeek+蓝耘快速设计网页简易版《我的世界》小游戏
  • 如何在Spring Boot中配置和使用MyBatis-Plus
  • NO.36十六届蓝桥杯备战|位运算和操作符属性|进制转换|原码反码补码|左移|右移|按位与|按位或|按位异或|按位取反(C++)
  • 帕金森病如何 “偷走” 患者的正常生活?
  • HttpMediaTypeNotAcceptableException报错解决,状态码显示为406
  • 3dsmax烘焙光照贴图然后在unity中使用
  • shell脚本一键更新部署docker中服务