当前位置: 首页 > article >正文

具有HiLo注意力的快速视觉Transformer

摘要

https://arxiv.org/pdf/2205.13213
视觉Transformer(ViTs)在计算机视觉领域引发了最新且最重要的突破。其高效设计大多以计算复杂度的间接指标,即浮点运算数(FLOPs)为指导,然而,该指标与吞吐量等直接指标之间存在明显差距。因此,我们建议使用目标平台上的直接速度评估作为高效ViTs的设计原则。特别是,我们引入了一种简单且有效的ViT——LITv2,在各种不同模型尺寸下,LITv2均以更快的速度优于现有的最先进方法。LITv2的核心是一种新颖的自注意力机制,我们称之为HiLo。HiLo的灵感来源于以下见解:图像中的高频部分捕捉局部精细细节,而低频部分关注全局结构,然而,多头自注意力层忽略了不同频率特征。因此,我们提出在注意力层中将高频/低频模式分离,即将头部分成两组,其中一组通过每个局部窗口内的自注意力编码高频,另一组通过对每个窗口和输入特征图中每个查询位置的平均池化低频键和值执行全局注意力来编码低频。得益于两组的高效设计,我们通过全面对比GPU和CPU上的FLOPs、速度和内存消耗,证明了HiLo优于现有的注意力机制。例如,在CPU上,HiLo比空间降维注意力快


http://www.kler.cn/a/527009.html

相关文章:

  • 注册谷歌账号
  • 如何写美赛(MCM/ICM)论文中的Summary部分
  • maven、npm、pip、yum官方镜像修改文档
  • 论文速读|Matrix-SSL:Matrix Information Theory for Self-Supervised Learning.ICML24
  • 【股票数据API接口41】如何获取股票指最新分时MA数据之Python、Java等多种主流语言实例代码演示通过股票数据接口获取数据
  • 低代码产品插件功能一览
  • 从0开始使用面对对象C语言搭建一个基于OLED的图形显示框架(绘图设备封装)
  • qt之数据库的使用二
  • grpc 和 http 的区别---二进制vsJSON编码
  • 青少年编程与数学 02-008 Pyhon语言编程基础 10课题、列表与循环语句
  • 替代传统汽车行业FTP传输方式,实现数字化重大转型
  • 本地部署DeepSeekp R1教程
  • 如何用KushoAI提升API自动化测试效率:AI驱动的革命
  • FreeRTOS学习 --- 任务调度
  • 实现基础的shell程序
  • 6 齐次坐标模块(homogen.rs)
  • Spring框架IOC依赖注入功能详细使用指南
  • java_自定义异常
  • 350.两个数组的交集 ②
  • SSM开发(九) mybatis多表查询(举例说明)
  • Python3 【装饰器】水平考试和答案
  • 复杂场景使用xpath定位元素
  • 计算机网络 笔记 网络层 3
  • C++ deque(1)
  • 元旦和春节取名的历史变迁
  • ESP32-S3模组上跑通esp32-camera(38)