当前位置: 首页 > article >正文

ICLR 2025|华科OVTR:首次实现端到端开放词汇多目标跟踪,刷新性能SOTA!

OVTR 是一种新型的多目标跟踪(MOT)方法,它由华中科技大学的团队提出,并发表于 ICLR 2025。该方法不仅速度快、适应性强,还能在开放词汇场景下实现零样本跟踪。本文将从背景、创新点到实验细节,全面介绍 OVTR 的技术实力。

©️【深蓝AI】编译

论文标题:OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

论文作者:Jinyang Li, En Yu, Sijia Chen, Wenbing Tao

论文地址:https://arxiv.org/abs/2503.10616

开源链接:https://github.com/jinyanglii/OVTR

01 背景介绍:开放词汇跟踪的痛点与需求

多目标跟踪(MOT)是视频感知的核心技术,广泛应用于自动驾驶、视频分析等领域。传统 MOT 方法通常基于闭合词汇(closed-vocabulary),只能跟踪训练时见过的类别,如“人”、“车”、“自行车”。然而,现实世界复杂多变,经常出现训练时未见过的新类别,传统模型在这种情况下往往表现不佳。而人类却能轻松识别并跟踪任何物体,这种能力启发了研究者提出开放词汇多目标跟踪(OVMOT)的概念——让模型在零样本条件下识别和跟踪新类别,以满足智能城市、自动驾驶等场景的多样化需求。

然而,现有 OVMOT 方法存在以下三大痛点:

1. 分类与跟踪割裂:每帧独立预测类别,导致分类不稳定,无法有效利用历史帧信息。

2. 框架复杂低效:依赖繁琐的后处理和手工设计的锚框生成,推理速度慢,且难以适应开放场景的多样性。

3. 预处理负担重:需要预训练图像编码器提取大量物体嵌入(包含未见过类别),耗时长且性能提升有限。

针对这些问题,OVTR 应运而生,首次实现了端到端的开放词汇跟踪,堪称一场技术革新。

▲图1| 基于OVD的跟踪与OVTR方法的比较©️【深蓝AI】编译

02 OVTR 的核心创新:三大亮点详解

OVTR全称“End-to-End Open-Vocabulary Multiple Object Tracking with Transformer”,基于 Transformer 架构,首次将运动、外观和类别信息统一建模,抛弃了传统方法中的显式关联和复杂后处理。以下是它的三大核心创新:

▲图2| OVTR框架概览©️【深蓝AI】编译

2.1 类别信息传播(CIP)策略:打造信息“记忆流”

传统方法逐帧独立预测,缺乏跨帧的连续性。OVTR 利用 Transformer 的迭代特性,提出了类别信息传播(CIP)策略。具体来说,它将当前帧的目标类别信息转化为先验,传递到下一帧,形成一个稳定的“类别信息流”。这种设计让模型能够记住目标的身份,并在后续帧中持续优化分类和跟踪。

技术细节上,CIP 通过修改 Transformer 解码器实现。当前帧的更新查询(包含位置和内容信息)经过多头注意力机制(MHA)和前馈网络(FFN),与图像特征融合,生成下一帧的跟踪查询。

▲图3| 双分支解码器和编码器的架构©️【深蓝AI】编译

2.2 双分支解码器:多模态融合的“双引擎”

为了在开放词汇场景下实现强大的泛化能力和深层模态交互,OVTR 设计了一个双分支解码器,包括:

  • OFA 分支(Object Feature Alignment):负责图像感知的泛化能力。它通过与 CLIP 图像编码器对齐(利用对齐损失`L_align`),让查询学习到未见过类别的视觉特征。

  • CTI 分支(Category Text Interaction):专注于类别信息提取。它通过文本交叉注意力与 CLIP 文本编码器的嵌入交互,生成富含类别信息的特征,用于开放词汇分类。

双分支结构分工明确:OFA 提供视觉泛化“底盘”,CTI 则为分类“导航”。相比传统单分支融合,OVTR 在解码器中实现了图像-文本的深度交互,大幅提升了新型类别的感知能力。

2.3 注意力隔离保护:解码器的“防火墙”

Transformer 的注意力机制虽然强大,但多类别信息和查询间的交互可能导致干扰。OVTR 提出了两种注意力隔离策略

类别隔离:基于 CTI 分支输出的类别得分矩阵`S`,计算查询间类别分布的 KL 散度,生成隔离掩码`I`。 当`I` 为 True 时,阻止不同类别查询间的注意力交互,避免信息混淆。

内容隔离:区分检测查询(detect queries)和跟踪查询(track queries),通过掩码阻止二者间的干扰,确保初始检测和持续跟踪的独立性。

这些策略如同给解码器加了“防火墙”,让分类和跟踪各司其职,和谐共存。

03 实验结果

OVTR 在多个基准数据集上表现出色,验证了其技术优势。在TAO数据集上的实验表明,OVTR在TETA指标上优于现有方法,验证集和测试集上分别超过OVTrack 12.9%和12.4%。此外,在KITTI迁移实验中,OVTR在MOTA指标上也超过了OVTrack 2.9%。

▲表1| TAO数据集上开放词汇MOT性能比较©️【深蓝AI】编译

▲表2| 零样本域迁移至KITTI数据集©️【深蓝AI】编译

▲表3| 解码器组件的消融研究©️【深蓝AI】编译

▲表4| 解码器保护策略的消融研究©️【深蓝AI】编译

▲表5| 对齐方法的消融研究©️【深蓝AI】编译

▲表6| CIP输入的消融研究©️【深蓝AI】编译

04 总结与展望

OVTR 不仅是技术突破,更为开放词汇跟踪树立了新标杆:

1. 端到端范式:从检测到跟踪一气呵成,推理速度快,无需后处理,适合实时应用。

2. 强大泛化:无需 novel 类别提案,依然在零样本场景表现出色,贴近真实世界需求。

3. 可扩展性:Transformer 框架数据友好,未来可集成更大规模数据集(如 COCO + TAO 联合训练)或更高精度定位技术。

不过,OVTR 也有提升空间。例如,在长尾类别(如 TAO 中的稀有类)或极端遮挡场景下,跟踪精度可能仍有波动;对超小目标的感知能力也值得进一步挖掘。此外,双分支结构虽高效,但计算复杂度仍有优化余地。未来结合轻量化设计或自适应注意力机制,或许能进一步释放其潜力。


http://www.kler.cn/a/613041.html

相关文章:

  • 寻找两个正序数组的中位数
  • 启山智软实现b2c单商户商城对比传统单商户的优势在哪里?
  • 多省发布!第27届中国机器人及人工智能大赛各赛区比赛通知
  • 怎么在一台服务器上配置两套不同的前后端分离系统
  • 安装Webpack并创建vue项目
  • QT_demo1_calculator
  • 跨境TRS投资操作指南与系统解决方案
  • 关于bug总结记录
  • Java 中各种锁的使用详解
  • Node.js 如何发布一个 NPM 包——详细教程
  • 第R9周:阿尔兹海默症诊断(优化特征选择版)
  • 美摄科技智能汽车车内实时AR特效方案,让出行充满乐趣
  • 神经网络知识
  • 【极速版 -- 大模型入门到进阶】LORA:大模型轻量级微调
  • 智能网联交通加速落地,光路科技TSN技术助推车路云一体化发展
  • 跟着尚硅谷学vue-day1
  • LeetCode 1492 n的第K个因子
  • 浅谈工商企业用电管理的分布式储能设计
  • window系统下安装elk
  • unity一个图片的物体,会有透明的效果