当前位置: 首页 > article >正文

《Few-shot Object Counting and Detection》CVPR2022

概述

摘要: 论文提出了一个新的任务——少量样本目标计数和检测(Few-shot Object Counting and Detection, FSCD)。在这项任务中,研究者们旨在通过给定少量目标类别的示例边界框来计数和检测图像中所有目标对象。这项任务与少量样本目标计数(Few-Shot Object Counting, FSC)共享相同的监督,但除了总数之外,还需要输出对象的边界框。为了解决这一挑战,作者引入了一个新颖的两阶段训练策略和一个新颖的不确定性感知的少量样本目标检测器:Counting-DETR。前者旨在生成用于训练后者的伪Ground-Truth边界框。后者利用前者提供的伪Ground-Truth数据,但采取了必要的步骤来考虑伪Ground-Truth的不完美性。为了验证所提方法在新任务上的性能,作者引入了两个新数据集:FSCD-147和FSCD-LVIS。这些数据集包含具有复杂场景、每张图像中多个对象类别以及对象形状、大小和外观的巨大变化的图像。所提出的方法在计数和检测指标上都大幅超越了从少量样本目标计数和少量样本目标检测中适应过来的非常强的基线。

拟解决的问题: 论文解决的问题是,在少量样本的情况下,如何同时进行目标计数和边界框检测。这与以往的任务不同,因为通常目标检测和计数是分开处理的,而FSCD需要同时完成这两项任务,并且只有少量的标注样本可用。

回归函数扩展FamNet用于目标检测的FSCD的局限性。(a)该方法的处理流程:回归器以样本盒及其特征作为输入,以峰值密度位置的特征预测峰值位置的边界盒。(b)限制1:当样本与背景或密集区域外观相似时,FamNet预测的密度图质量较差。第一行是输入图像,每个图像都有几个样本,第二行是FamNet预测的相应密度图。(c)限制2:非判别峰值特征不能表示形状和大小有显著差异的物体。绿色框是根据在标注点处提取的特征进行预测的。

创新之处

  1. 提出了一个新的任务定义,即FSCD,它要求同时进行目标计数和边界框检测。
  2. 引入了两个新的数据集FSCD-147和FSCD-LVIS,这些数据集具有复杂场景和多样的对象类别。
  3. 提出了一个两阶段训练策略,首先生成伪Ground-Truth边界框,然后使用这些框训练检测器。
  4. 开发了一个新的不确定性感知的少量样本目标检测器Counting-DETR,它考虑了伪Ground-Truth的不完美性。

方法

  • 两阶段训练策略:第一阶段,Counting-DETR被训练以生成训练图像的伪Ground-Truth边界框;第二阶段,使用生成的伪Ground-Truth边界框对Counting-DETR进行微调,以在测试图像上检测对象。
  • Counting-DETR:这是一个基于对象检测器Anchor DETR的改进模型,它使用点特征直接预测对象边界框,并引入了不确定性估计来调节训练过程。

(1)Counting-DETR首先在几对点和边界框上进行训练,然后用于预测带注释的点的伪 GT 框; (2) Counting-DETR 被训练来预测对象边界框,预测目标是来自第一阶段的伪 GT 框。具体来说,输入图像首先通过 CNN+FPN 主干网络以提取其特征图。样本特征从它们的框中提取,并与特征图集成,生成样本集成的特征图。然后将该特征图作为编码器-解码器转换器的输入,以及第一阶段的注释点或第二阶段的锚点,用于前景/背景分类和边界框回归。在第二阶段,估计的不确定性被用来用新的不确定性损失来规范训练,以解释伪GT包围盒的不完善。 

2.1 Encoder-Decoder

采用示例集成的特征图和一组查询点作为输入,预测每个查询点的边界框。

编码器:主要目的是处理输入的图像特征图,通过自注意力(Self-Attention)机制来增强特征。自注意力机制允许模型在处理图像的不同区域时能够相互参考,从而更好地理解图像内容和上下文信息。

解码器:使用编码器输出的增强特征图,并结合查询点(Query Points)来预测每个查询点对应的对象的边界框和类别。

  • 输入:解码器接收来自编码器的增强特征图和一组查询点。这些查询点是2D点,代表图像中潜在对象位置的初始猜测。
  • 交叉注意力层:解码器中的交叉注意力层允许查询点与编码器的输出特征进行交互,这样每个查询点都可以获取到全局的上下文信息。
  • 输出:解码器输出每个查询点的预测结果,包括对象的类别得分和边界框坐标。类别得分用于判断查询点位置是否存在目标对象,边界框坐标则用于精确定位对象的位置和大小。

 在训练过程中,使用焦点损失(Focal Loss)和边界框回归损失(如L1损失和GIoU损失)来优化模型的预测。这些损失函数帮助模型更准确地预测对象的类别和位置。

不确定性损失:考虑到伪地面真实边界框的不完美性,引入不确定性损失来调节模型的训练,使得模型在预测不确定性较高的边界框时受到较小的损失惩罚。

2.2 两阶段训练策略

提出的Few-Shot目标检测器Counting-DETR只能对所有对象的bounding box监督进行训练。但是,我们只对几个示例进行边界框注释,所有对象的点注释作为 FSCD 的设置。因此,我们提出了一种两阶段训练策略

  • 第一阶段,使用示例集成的特征图和示例边界框的中心作为查询点,训练编码器-解码器模型。在这个阶段,模型被训练来预测与查询点相关的边界框。
  • 第二阶段,使用第一阶段生成的伪地面真实边界框来微调模型,以提高在实际测试图像中检测和计数目标对象的性能。

http://www.kler.cn/a/289572.html

相关文章:

  • Linux网络——网络初识
  • 记录使用documents4j来将word文件转化为pdf文件
  • 响应式网页设计--html
  • 山泽光纤HDMI线:铜线的隐藏力量
  • AI制作ppt
  • DNS面临的4大类共计11小类安全风险及防御措施
  • 学习笔记---自动驾驶
  • 风趣图解LLMs RAG的15种设计模式-第二课
  • 窖藏之秘:白酒在窖藏过程中经历了哪些变化?
  • [开源]低代码表单FormCreate中扩展自定义组件详细教程
  • flask文件下载
  • 本地部署VMware ESXi服务实现无公网IP远程访问管理服务器
  • 系统编程-网络编程
  • Kafka集群部署
  • axios返回的是promise对象如何处理?
  • ES在高并发下如何保证读写一致性
  • Python 从入门到实战6(二维列表)
  • 【数学建模】拟合算法
  • string详解
  • [HNCTF 2022 WEEK2]Canyource
  • 关于武汉芯景科技有限公司的实时时钟芯片XJ8340开发指南(兼容DS1340)
  • 密码学---对称加密和非对称加密
  • 【网络安全】IDOR之敏感数据泄露
  • 果浆产业的自动化、智能化离不开机器视觉的发展
  • Lua:条件断点
  • 第140天:内网安全-横向移动局域网ARP欺骗DNS劫持钓鱼中间人单双向