当前位置: 首页 > article >正文

Transformer模型 | 用于目标检测的视觉Transformers训练策略

基于视觉的Transformer在预测准确的3D边界盒方面在自动驾驶感知模块中显示出巨大的应用,因为它具有强大的建模视觉特征之间远程依赖关系的能力。然而,最初为语言模型设计的变形金刚主要关注的是性能准确性,而不是推理时间预算。对于像自动驾驶这样的安全关键系统,车载计算机的实时推理是绝对必要的。这使得我们的目标检测算法在非常紧张的运行时间预算下。在本文中,我们评估了各种策略来优化基于视觉变换的物体检测方法的推理时间,并密切关注任何性能变化。我们为这些策略选择的度量是准确性-运行时联合优化。此外,对于实际的推理时间分析,我们使用TensorRT模块对float32和float16精度的策略进行了分析。这是业界在边缘设备上部署机器学习网络最常用的格式。我们表明,对于第3节中定义的问题陈述,我们的策略能够将推理时间提高63%,而性能下降仅为3%。这些策略降低了Vision transformer检测器的推理时间,甚至比传统的基于单图像的CNN检测器(如FCOS)还要短。我们建议从业者使用这些技术在预算受限的机器人平台上部署基于大型多视图网络的transformer。

  1. 介绍

在过去的十年中,卷积神经网络(cnn)是由计算机视觉领域的模型架构更新驱动的。此外,已经提出了大量的技术来改进这些CNN模型的训练策略。最近,视觉变形器,首先由ViT提出,并通过基于dert的方法迭代重新制定,已经成为使用图像进行目标检测的更好的替代架构。然而,transformer的目标检测社区的文献和排行榜更倾向于关注这些庞大模型的架构影响。当这些方法用于实际的机器人平台时,运行时精度的关节优化是最重要的,因为任何边缘设备都有有限的计算预算。此外,这些机器学习算法必须以高频率运行,因为自动驾驶汽车行驶速度相当快,需要以至少10hz(每秒10次)的速度更新其道路和动态代理的理解。在检测排行榜上,任何表


http://www.kler.cn/a/106581.html

相关文章:

  • 存储过程及练习
  • Linux之vim全选,全部复制,全部删除
  • 帽子矩阵--记录
  • apk反编译修改教程系列-----apk应用反编译中AndroidManifest.xml详细代码释义解析 包含各种权限 代码含义【二】
  • 基于ssh得网上预约挂号系统的设计与实现
  • 检测敏感词功能
  • 多测师肖sir_高级金牌讲师__接口测试之tonken (5.6)
  • 异步编程详解(.NET)
  • java毕业设计基于springboot的民宿预订信息网站
  • Matter.js 插件:matter-wrap(世界是圆的)
  • 主流架构(gcc、msvc、x86、x64、arm)中double与float浮点数保留精度(末尾清零)
  • KV STUDIO的安装与实践(一)
  • <蓝桥杯软件赛>零基础备赛20周--第2周
  • [架构之路-243]:目标系统 - 纵向分层 - 架构是表面轮廓、内部骨架、未来蓝图,企业组织架构、信息系统架构、软件架构、应用程序就架构
  • Liunx两台服务器实现相互SSH免密登录
  • lossBN
  • Go实现网络通信
  • Ubuntu Linux下如何搭建并安装EDK2
  • C# 图解教程 第5版 —— 第8章 类和继承
  • 软考-网络安全漏洞防护技术原理与应用
  • 【Android】MQTT
  • Stable Diffusion 图生图+ControlNet list index out of range
  • JKPacket权威指南——学习建议
  • C++进阶语法——OOP(面向对象)【学习笔记(四)】
  • Cross-modal Variational Alignment of Latent Spaces
  • 274. H 指数