2020CVPR速读:SiamBAN,用于视觉跟踪的Siamese框自适应网络
原文标题:Siamese Box Adaptive Network for Visual Tracking
中文标题:用于视觉跟踪的Siamese框自适应网络
代码地址: GitHub - hqucv/siamban: Siamese Box Adaptive Network for Visual Tracking
具体见:2020CVPR-SiamBAN:用于视觉跟踪的Siamese框自适应网络-CSDN博客
Abstract
大多数现有的跟踪器通常依靠多尺度搜索方案或预定义的锚框来准确估计目标的尺度和纵横比。不幸的是,它们通常需要乏味且启发式的配置。 为了解决这个问题,我们通过利用全卷积网络(FCN)的表达能力,提出了一个简单而有效的视觉跟踪框架(名为Siamese Box Adaptive Network,SiamBAN)。SiamBAN 将视觉跟踪问题视为并行的分类和回归问题,从而直接在统一的 FCN 中对目标进行分类并回归其边界框。无先验框设计避免了与候选框相关的超参数,使 SiamBAN 更加灵活和通用。 在 VOT2018、VOT2019、OTB100、NFS、UAV123 和 LaSOT 等视觉跟踪基准上进行的大量实验表明,SiamBAN 实现了最先进的性能并以 40 FPS 的速度运行,证实了其有效性和效率。
1. Introduction
视觉跟踪是计算机视觉中一项基本但具有挑战性的任务。给定序列初始帧中的目标状态,跟踪器需要预测每个后续帧中的目标状态。尽管近年来取得了巨大进步,但视觉跟踪仍然面临着由于遮挡、尺度变化、背景杂乱、快速运动、照明变化和外观变化而带来的挑战。在现实视频中,目标比例和纵横比也会由于目标或摄像机的移动以及目标外观的变化而发生变化。准确估计目标的尺度和纵横比成为视觉跟踪领域的挑战。然而,许多现有的跟踪器忽略了这个问题,并依靠多尺度搜索来估计目标大小。最近,基于Siamese 网络的视觉跟踪器引入了区域提议网络(RPN)来获得准确的目标边界框。然而为了处理不同的尺度和长宽比,他们需要基于启发式知识仔细设计锚框,这引入了许多超参数和计算复杂性。
相比之下,神经科学家表明,生物视觉的初级视觉皮层可以快速有效地从复杂环境中提取观察对象的轮廓或边界。也就是说,人类可以在没有候选框的情况下识别物体的位置和边界。那么我们能否设计一个准确且鲁棒的视觉跟踪框架而不依赖候选框呢?受到无锚检测器的启发,答案是肯定的。通过利用全卷积网络(FCN)的表达能力,我们提出了一种简单而有效的视觉跟踪框架,名为Siamese 框自适应网络(SiamBAN),以解决准确估计目标的尺度和纵横比的挑战。该框架由一个Siamese网络骨干和多个框自适应头组成,不需要预先定义候选框,可以在训练过程中进行端到端的优化。SiamBAN对目标进行分类,并将边界框直接回归到统一的FCN中,将跟踪问题转化为分类回归问题。具体来说,它直接预测相关特征图上每个空间位置的前景-背景类别得分和 4D 向量。4D向量描述了从边界框的四个边到与搜索区域相对应的特征位置的中心点的相对偏移。在推理过程中,我们使用以目标的先前位置为中心的搜索图像。通过最佳得分位置对应的边界框,我们可以得到目标在帧之间的位移和尺寸变化。
这项工作的主要贡献有三个方面。
(1)我们设计了一个 Siamese 框自适应网络,它可以在注释良好的数据集上使用深度卷积神经网络执行端到端离线训练。
(2)SiamBAN 中的无先验框设计避免了与候选框相关的超参数,使我们的跟踪器更加灵活和通用。
(3)SiamBAN 不仅取得了最先进的结果,而且在跟踪基准测试中以 40 FPS 的速度运行,包括 VOT2018、VOT2019、OTB100、NFS、UAV123 和 LaSOT。
(b)SiamBAN跟踪器和两个最先进的跟踪器的一些代表性实验结果。从可视化结果来看,我们的跟踪器在尺度和纵横比方面优于其他两个跟踪器。
2. Related Works
视觉跟踪是近几十年来计算机视觉领域最活跃的研究课题之一。 对相关跟踪器的全面调查超出了本文的范围,因此我们仅简要回顾与我们的工作最相关的两个方面:基于Siamese网络的视觉跟踪器和无锚目标检测器。
2.1. Siamese Network Based Visual Trackers
近年来,基于Siamese网络的跟踪器因其端到端训练能力和高效率而受到视觉跟踪界的广泛关注。SiamFC采用Siamese网络作为特征提取器,并首次引入相关层对特征图进行组合。由于它的轻量结构和不需要模型更新,SiamFC以 86 FPS的速度高效运行。DSiam学习特征变换来处理目标的外观变化并抑制背景。RASNet在Siamese网络中嵌入了多种注意机制,使跟踪模型适应当前目标。
然而,这些方法需要多尺度测试来应对尺度变化(远近、大小),无法处理由于目标外观变化而引起的纵横比变化。为了获得更准确的目标边界框,SiamRPN将RPN引入SiamFC中。SPM-Tracker提出了一种串并联匹配框架来增强SiamRPN的鲁棒性和判别能力。SiamRPN++、SiamMask和SiamDW以不同的方式去除padding等影响因素,并将ResNet、ResNeXt和MobileNet等现代深度神经网络引入Siamese中 基于网络的视觉跟踪器。虽然基于锚点的跟踪器可以处理尺度和纵横比的变化,但需要仔细设计和固定锚框的参数。设计参数通常需要启发式调整,并涉及许多技巧才能获得良好的性能。与基于锚点的跟踪器相比,我们的跟踪器避免了与锚框相关的超参数,并且更加灵活和通用。
2.2. Anchor-free Object Detectors
最近,无锚目标检测引起了目标检测界的关注。然而,无锚检测并不是一个新概念。DenseBox 首先引入了FCN框架来联合执行人脸检测和地标定位。UnitBox 通过仔细设计优化损失,提供了另一种性能改进的选择。YOLOv1 提出将输入图像划分为网格,然后预测每个网格单元上的边界框和类别概率。最近,出现了许多新的无锚检测器。这些检测方法可以大致分为基于关键点的目标检测和密集检测 具体来说,CornerNet 提出将目标边界框检测为一对关键点。ExtremeNet 提出使用标准关键点估计网络来检测目标的四个极值点和一个中心点。RepPoints 引入了代表点,这是一种新的目标表示形式,用于对细粒度定位信息进行建模并识别对目标分类重要的局部区域。FSAF 提出了特征选择性无锚模块,以解决具有特征金字塔的基于锚的单次检测器的启发式特征选择所带来的限制。FCOS 提出直接预测目标存在的可能性和边界框坐标,无需锚点参考。
与目标检测相比,视觉跟踪任务存在两个关键挑战,即未知类别和不同目标之间的区分。无锚检测器通常假设要检测的目标类别是预先定义的。然而,在跟踪之前目标的类别是未知的。同时,anchor-free检测器通常专注于检测不同类别的目标,而在跟踪时,需要判定当前帧中的某个物体是否与初始帧中的目标相同。为了解决这些问题,需要在视觉跟踪框架中引入一个模板分支(template branch),用于编码初始帧中目标的外观信息,从而在后续帧中帮助识别目标与背景的区别。
3. SiamBAN Framework
如图2所示,SiamBAN由Siamese网络主干和多个框自适应头组成。Siamese 网络主干负责计算模板补丁和搜索补丁的卷积特征图,它使用现成的卷积网络。框自适应头包括分类模块和回归模块。具体来说,分类模块对相关层的每个点进行前景-背景分类,回归模块对相应位置进行边界框预测。
图2。Siamese 框自适应网络的框架。左图为其主要结构,其中C3、C4、C5为骨干网络的特征图,Cls_Map和Reg_Map为SiamBAN头部输出的特征图。右图显示了每个SiamBAN头,其中DW-Corr表示深度交叉相关操作。
4. Conclusions
在本文中,我们利用全卷积网络的表达能力,提出了一种简单而有效的视觉跟踪框架,名为 SiamBAN,它不需要多尺度搜索模式和预定义的候选框。SiamBAN 直接在统一网络中对目标进行分类并回归边界框。因此,视觉跟踪问题变成了分类-回归问题。对六个视觉跟踪基准的广泛实验表明 SiamBAN 实现了最先进的性能并以 40 FPS 运行,证实了其有效性和效率。