YOLOv8最新改进2023 CVPR 结合BiFormer
1,原理部分
作为视觉转换器的核心构建块,衰减是捕获长距离依赖性的强大工具。然而,这种能力是有代价的:它会产生巨大的计算负担和沉重的内存占用,因为所有空间位置的成对标记交互都是计算的。一系列作品试图通过将手工制作和与内容无关的稀疏性引入 attention 来缓解这个问题,例如将 attention 操作限制在局部窗口、轴向条纹或扩张的窗口内。与这些方法相反,我们提出了一种通过双层路由的新型 dy namic 稀疏注意力,以实现具有内容感知的更灵活的计算分配。具体来说,对于查询,首先在粗略区域级别筛选出不相关的键值对,然后在剩余的候选区域(即路由区域)的联合中应用细粒度的 token-to-token 注意。我们提供了一种简单而有效的 bi 级路由注意实现,它利用稀疏性来节省计算和内存,同时只涉及 GPU 友好的密集矩阵乘法。在提议的双层路由注意力的基础上构建,然后提出了一个名为 BiFormer 的新通用视觉跨性别形成器。由于 BiForm