当前位置: 首页 > article >正文

Conditional DETR for Fast Training Convergence论文学习

1. 写作背景

最近提出的 DETR 成功地将 transformer 引入到物体检测任务中,获得了很不错的性能。DETR 的重要意义在于去除了物体检测算法里需要人工设计的部分,比如 anchor 的生成和 NMS 操作。这大大简化了物体检测的设计流程。基本的结构还是沿用了以前的结构,基础的CNN提取特征,送入到encoder中后,又用decoder进行解码还原,最终通过FNN进行预测。

2. 为什么提出Conditional DETR

DETR存在以下问题

  1. 对于模型训练时间长,一是大量的Attention计算,二是模型的参数量多,这是由于decoder的query的全0初始化,导致必须要6个decoder去进行cross的信息交互
  2. 检测小物体效果不好:DETR是因为不设计多尺度特征,Attention模块每次只关注一小部分采样点,导致需要很多轮数才能学习到真实需要关注的目标。

3. Conditional DETR细节

沿用了 DETR 的整体流程,包括 CNN backbone,transformer encoder,transformer decoder, 以及 object class 和 box 位置的预测器。Encoder 和 decoder 各自由6个相同的 layer 堆叠而成。我们相对于 DETR 的改动主要在 cross-attention 部分。

在这里插入图片描述
再来对比一下detr的结构,如图:
在这里插入图片描述
encoder部分不变,decoder部分,从之前的self Attention变成了embedding过的cross attention。参考知乎大佬的一段讲解:在这里插入图片描述
在这里插入图片描述

总的来说,作者认为原始的DETR论文中的query是分为两部分:content query和spatial query。其中的spatial query是一个统一的特征(不同decoder层是一样的),没有针对图像中具体的细节信息,那么content query 需要同时学习spatial keys和content keys,这种大量的计算导致模型很难收敛。

因此,在Conditional DETR论文中,作者将为每一个query产生一个独特的spatial embedding,并且在和content融合的时候,不再使用求和的形式,而是拼接的形式。

4. 参考

  1. [ICCV 2021] Conditional DETR: 通过显式寻找物体的 extremity 区域加快 DETR 的收敛
  2. DETR系列模型(13篇论文)总结

http://www.kler.cn/a/526028.html

相关文章:

  • 负荷预测算法模型
  • 新月智能护甲系统CMIA--未来战场的守护者
  • 从巫师求雨说起
  • 如何使用formlinker,重构微软表单创建的数字生产力法则?
  • 提供算法模型管理、摄像头管理、告警管理、数据统计等功能的智慧园区开源了
  • MySQL(高级特性篇) 14 章——MySQL事务日志
  • 【memgpt】letta 课程4:基于latta框架构建MemGpt代理并与之交互
  • 如何把一个python文件打包成一步一步安装的可执行程序
  • 基于Android Studio开发平台使用CNN和LSTM的人工智能家居监控系统
  • 物业管理软件引领社区智能化转型提升服务效率与居民生活质量
  • 网站快速收录:利用新闻源的优势
  • 【外文原版书阅读】《机器学习前置知识》2.用看电影推荐的例子带你深入了解向量点积在机器学习的作用
  • AI大模型开发原理篇-8:Transformer模型
  • 走近科学IT版:Windows里Ollama关闭后还在占用11434端口
  • 2.文件IO
  • 国产SiC碳化硅功率器件技术成为服务器电源升级的核心引擎
  • 多组学(multi-omics):概念、历史、现状与展望
  • python-leetcode-删除链表的倒数第 N 个结点
  • Safe 推出 Agentathon 活动:推动 AI 原生智能账户采用
  • Excel 技巧22 - Ctrl+D 向下复制(★★),复制同间距图形