ICLR 2025|华科OVTR:首次实现端到端开放词汇多目标跟踪,刷新性能SOTA!
OVTR 是一种新型的多目标跟踪(MOT)方法,它由华中科技大学的团队提出,并发表于 ICLR 2025。该方法不仅速度快、适应性强,还能在开放词汇场景下实现零样本跟踪。本文将从背景、创新点到实验细节,全面介绍 OVTR 的技术实力。
©️【深蓝AI】编译
论文标题:OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer
论文作者:Jinyang Li, En Yu, Sijia Chen, Wenbing Tao
论文地址:https://arxiv.org/abs/2503.10616
开源链接:https://github.com/jinyanglii/OVTR
01 背景介绍:开放词汇跟踪的痛点与需求
多目标跟踪(MOT)是视频感知的核心技术,广泛应用于自动驾驶、视频分析等领域。传统 MOT 方法通常基于闭合词汇(closed-vocabulary),只能跟踪训练时见过的类别,如“人”、“车”、“自行车”。然而,现实世界复杂多变,经常出现训练时未见过的新类别,传统模型在这种情况下往往表现不佳。而人类却能轻松识别并跟踪任何物体,这种能力启发了研究者提出开放词汇多目标跟踪(OVMOT)的概念——让模型在零样本条件下识别和跟踪新类别,以满足智能城市、自动驾驶等场景的多样化需求。
然而,现有 OVMOT 方法存在以下三大痛点:
1. 分类与跟踪割裂:每帧独立预测类别,导致分类不稳定,无法有效利用历史帧信息。
2. 框架复杂低效:依赖繁琐的后处理和手工设计的锚框生成,推理速度慢,且难以适应开放场景的多样性。
3. 预处理负担重:需要预训练图像编码器提取大量物体嵌入(包含未见过类别),耗时长且性能提升有限。
针对这些问题,OVTR 应运而生,首次实现了端到端的开放词汇跟踪,堪称一场技术革新。
▲图1| 基于OVD的跟踪与OVTR方法的比较©️【深蓝AI】编译
02 OVTR 的核心创新:三大亮点详解
OVTR全称“End-to-End Open-Vocabulary Multiple Object Tracking with Transformer”,基于 Transformer 架构,首次将运动、外观和类别信息统一建模,抛弃了传统方法中的显式关联和复杂后处理。以下是它的三大核心创新:
▲图2| OVTR框架概览©️【深蓝AI】编译
2.1 类别信息传播(CIP)策略:打造信息“记忆流”
传统方法逐帧独立预测,缺乏跨帧的连续性。OVTR 利用 Transformer 的迭代特性,提出了类别信息传播(CIP)策略。具体来说,它将当前帧的目标类别信息转化为先验,传递到下一帧,形成一个稳定的“类别信息流”。这种设计让模型能够记住目标的身份,并在后续帧中持续优化分类和跟踪。
技术细节上,CIP 通过修改 Transformer 解码器实现。当前帧的更新查询(包含位置和内容信息)经过多头注意力机制(MHA)和前馈网络(FFN),与图像特征融合,生成下一帧的跟踪查询。
▲图3| 双分支解码器和编码器的架构©️【深蓝AI】编译
2.2 双分支解码器:多模态融合的“双引擎”
为了在开放词汇场景下实现强大的泛化能力和深层模态交互,OVTR 设计了一个双分支解码器,包括:
-
OFA 分支(Object Feature Alignment):负责图像感知的泛化能力。它通过与 CLIP 图像编码器对齐(利用对齐损失`L_align`),让查询学习到未见过类别的视觉特征。
-
CTI 分支(Category Text Interaction):专注于类别信息提取。它通过文本交叉注意力与 CLIP 文本编码器的嵌入交互,生成富含类别信息的特征,用于开放词汇分类。
双分支结构分工明确:OFA 提供视觉泛化“底盘”,CTI 则为分类“导航”。相比传统单分支融合,OVTR 在解码器中实现了图像-文本的深度交互,大幅提升了新型类别的感知能力。
2.3 注意力隔离保护:解码器的“防火墙”
Transformer 的注意力机制虽然强大,但多类别信息和查询间的交互可能导致干扰。OVTR 提出了两种注意力隔离策略:
类别隔离:基于 CTI 分支输出的类别得分矩阵`S`,计算查询间类别分布的 KL 散度,生成隔离掩码`I`。 当`I` 为 True 时,阻止不同类别查询间的注意力交互,避免信息混淆。
内容隔离:区分检测查询(detect queries)和跟踪查询(track queries),通过掩码阻止二者间的干扰,确保初始检测和持续跟踪的独立性。
这些策略如同给解码器加了“防火墙”,让分类和跟踪各司其职,和谐共存。
03 实验结果
OVTR 在多个基准数据集上表现出色,验证了其技术优势。在TAO数据集上的实验表明,OVTR在TETA指标上优于现有方法,验证集和测试集上分别超过OVTrack 12.9%和12.4%。此外,在KITTI迁移实验中,OVTR在MOTA指标上也超过了OVTrack 2.9%。
▲表1| TAO数据集上开放词汇MOT性能比较©️【深蓝AI】编译
▲表2| 零样本域迁移至KITTI数据集©️【深蓝AI】编译
▲表3| 解码器组件的消融研究©️【深蓝AI】编译
▲表4| 解码器保护策略的消融研究©️【深蓝AI】编译
▲表5| 对齐方法的消融研究©️【深蓝AI】编译
▲表6| CIP输入的消融研究©️【深蓝AI】编译
04 总结与展望
OVTR 不仅是技术突破,更为开放词汇跟踪树立了新标杆:
1. 端到端范式:从检测到跟踪一气呵成,推理速度快,无需后处理,适合实时应用。
2. 强大泛化:无需 novel 类别提案,依然在零样本场景表现出色,贴近真实世界需求。
3. 可扩展性:Transformer 框架数据友好,未来可集成更大规模数据集(如 COCO + TAO 联合训练)或更高精度定位技术。
不过,OVTR 也有提升空间。例如,在长尾类别(如 TAO 中的稀有类)或极端遮挡场景下,跟踪精度可能仍有波动;对超小目标的感知能力也值得进一步挖掘。此外,双分支结构虽高效,但计算复杂度仍有优化余地。未来结合轻量化设计或自适应注意力机制,或许能进一步释放其潜力。