当前位置: 首页 > article >正文

加电:DETR论文阅读

DETR:End ot End object detection with transformer.

主要工作

这篇文章的主要工作在于,是将transformer引入到目标检测这一类计算机视觉的任务中,transformer的优势在于:模型的通用性和高上限(gpt是最好的例子,算力和效果正相关);全局注意力机制;可以较好的建模元素和元素之间的关系。端到端这样简洁的流程架构,也是主流趋势。相较于以往的一阶段、二阶段的目标检测,DETR会抛弃之前的先验框,先验中心点角点这些人工设计的步骤,这个算是transfomer的附加优势,其注意力机制可以解决之前先验框问题。旧的模型中,之所以有先验框很大一部分原因是框的解空间太大了,没必要也难以穷举,于是选择人工设计一些策略来输入一些先验信息。

方法

为了实现将transformer的结构引入到视觉任务中,做了:

  • 引入二分图匹配来实现pred和gt的1对1匹配,顺带的优势便是可以实现并行解码

pipeline

DETR pipeline

  • 利用CNN提取图像序列特征融入位置编码作为transfoermer encoder输入
  • 将encoder输出送入到decoder中得到预测结果
    模型流程比较简单, 工作会集中在对怕热diction heads 的处理

http://www.kler.cn/a/447682.html

相关文章:

  • 新版国标GB28181设备端Android版EasyGBD支持国标GB28181-2022,支持语音对讲,支持位置上报,开源在Github
  • 呼入机器人:24小时客户服务的未来趋势
  • 智能工厂的设计软件 三种处理单元(NPU/GPU/CPU)及其在深度学习框架中的作用 之4(百度文库答问 之2)
  • 浅谈目前我开发的前端项目用到的设计模式
  • linux java 查看异常堆栈
  • unity接入coze智能体
  • 基于鲲鹏服务器的打砖块小游戏部署
  • 《开启微服务之旅:Spring Boot 从入门到实践》(二)
  • 三种国产大语言模型Python免费调用
  • “在Python中,所有的数据都是对象”是什么意思?
  • 贪心算法求解跳跃游戏
  • 企业内训|高智能数据构建、Agent研发及AI测评技术内训-吉林省某汽车厂商
  • 对计算机网络中“层”的理解
  • Elasticsearch:什么是提示工程 - prompt engineering?
  • aosp15 - Activity生命周期切换
  • Ubuntu安装vue/cil(vue脚手架)
  • 排序算法 (插入,选择,冒泡,希尔,快速,归并,堆排序)
  • 【MAC】深入浅出 Homebrew 下 Nginx 的安装与配置指南
  • 探索 Vue.js 组件开发:从基础到进阶的完整指南
  • 基于单片机的火灾报警器 (论文+源码)
  • 选择排序和冒泡排序;MySQL架构
  • 数字化制造新生态:共话无代码+AI落地实践
  • 调整docker bridge地址冲突,通过bip调整 bridge地址
  • 【Redis】缓存
  • unity 最小后监听键盘输入
  • java中的方法的重载和重写、构造器