当前位置：首页 > article >正文

ICLR 2025｜华科OVTR：首次实现端到端开放词汇多目标跟踪，刷新性能SOTA！

article 2025/4/1 0:18:56

OVTR 是一种新型的多目标跟踪（MOT）方法，它由华中科技大学的团队提出，并发表于 ICLR 2025。该方法不仅速度快、适应性强，还能在开放词汇场景下实现零样本跟踪。本文将从背景、创新点到实验细节，全面介绍 OVTR 的技术实力。

©️【深蓝AI】编译

论文标题：OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

论文作者：Jinyang Li, En Yu, Sijia Chen, Wenbing Tao

论文地址：https://arxiv.org/abs/2503.10616

开源链接：https://github.com/jinyanglii/OVTR

01 背景介绍：开放词汇跟踪的痛点与需求

多目标跟踪（MOT）是视频感知的核心技术，广泛应用于自动驾驶、视频分析等领域。传统 MOT 方法通常基于闭合词汇（closed-vocabulary），只能跟踪训练时见过的类别，如“人”、“车”、“自行车”。然而，现实世界复杂多变，经常出现训练时未见过的新类别，传统模型在这种情况下往往表现不佳。而人类却能轻松识别并跟踪任何物体，这种能力启发了研究者提出开放词汇多目标跟踪（OVMOT）的概念——让模型在零样本条件下识别和跟踪新类别，以满足智能城市、自动驾驶等场景的多样化需求。

然而，现有 OVMOT 方法存在以下三大痛点：

1. 分类与跟踪割裂：每帧独立预测类别，导致分类不稳定，无法有效利用历史帧信息。

2. 框架复杂低效：依赖繁琐的后处理和手工设计的锚框生成，推理速度慢，且难以适应开放场景的多样性。

3. 预处理负担重：需要预训练图像编码器提取大量物体嵌入（包含未见过类别），耗时长且性能提升有限。

针对这些问题，OVTR 应运而生，首次实现了端到端的开放词汇跟踪，堪称一场技术革新。

▲图1｜基于OVD的跟踪与OVTR方法的比较©️【深蓝AI】编译

02 OVTR 的核心创新：三大亮点详解

OVTR全称“End-to-End Open-Vocabulary Multiple Object Tracking with Transformer”，基于 Transformer 架构，首次将运动、外观和类别信息统一建模，抛弃了传统方法中的显式关联和复杂后处理。以下是它的三大核心创新：

▲图2｜ OVTR框架概览©️【深蓝AI】编译

2.1 类别信息传播（CIP）策略：打造信息“记忆流”

传统方法逐帧独立预测，缺乏跨帧的连续性。OVTR 利用 Transformer 的迭代特性，提出了类别信息传播（CIP）策略。具体来说，它将当前帧的目标类别信息转化为先验，传递到下一帧，形成一个稳定的“类别信息流”。这种设计让模型能够记住目标的身份，并在后续帧中持续优化分类和跟踪。

技术细节上，CIP 通过修改 Transformer 解码器实现。当前帧的更新查询（包含位置和内容信息）经过多头注意力机制（MHA）和前馈网络（FFN），与图像特征融合，生成下一帧的跟踪查询。

▲图3｜双分支解码器和编码器的架构©️【深蓝AI】编译

2.2 双分支解码器：多模态融合的“双引擎”

为了在开放词汇场景下实现强大的泛化能力和深层模态交互，OVTR 设计了一个双分支解码器，包括：

OFA 分支（Object Feature Alignment）：负责图像感知的泛化能力。它通过与 CLIP 图像编码器对齐（利用对齐损失`L_align`），让查询学习到未见过类别的视觉特征。
CTI 分支（Category Text Interaction）：专注于类别信息提取。它通过文本交叉注意力与 CLIP 文本编码器的嵌入交互，生成富含类别信息的特征，用于开放词汇分类。

双分支结构分工明确：OFA 提供视觉泛化“底盘”，CTI 则为分类“导航”。相比传统单分支融合，OVTR 在解码器中实现了图像-文本的深度交互，大幅提升了新型类别的感知能力。