当前位置：首页 > article >正文

跟踪性能提高11%｜端到端新架构DMAD：通过分离语义-运动学习解决负迁移难题

article 2025/3/11 0:36:09

本篇针对端到端自动驾驶中运动任务总是会降低检测和跟踪性能的负迁移问题，提出了DMAD，这是一种新的端到端自动驾驶架构，它将语义学习和运动学习分离，消除了负迁移的影响。此外，本文还利用语义任务之间的相关性来促进端到端训练过程中的正迁移。实验结果表明，本文方法在开环规划评估中实现了最先进的碰撞率，而无需对规划模块进行任何修改。

©️【深蓝AI】编译

论文标题：Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving

论文作者：Yinzhe Shen, Ömer Şahin Taş, Kaiwen Wang, Royden Wagner, Christoph Stiller

论文地址：https://arxiv.org/pdf/2502.07631

01 摘要

感知环境及其随时间的变化对应于两个基本但异构的信息类型：语义和运动。先前的端到端自动驾驶工作在单个特征向量中表示这两种类型的信息。然而，预测和规划等运动任务总是会降低检测和跟踪性能，这种现象在多任务学习中被称为负迁移。为了解决这个问题，本文提出了神经贝叶斯运动解码，这是一种新的并行检测、跟踪和预测方法，它分离了语义学习和运动学习，这类似于贝叶斯滤波器。具体而言，本文采用了一组与检测和跟踪查询并行运行的学习运动查询，共享一组统一的递归更新的参考点。此外，本文还采用交互语义解码来增强语义任务中的信息交换，促进正向迁移。在nuScenes数据集上的实验表明，检测性能提高了5%，跟踪性能提高了11%。本文方法在开环规划评估中实现了最先进的碰撞率，而无需对规划模块进行任何修改。

02 介绍

模块化端到端（E2E）自动驾驶（AD）正在逐渐受到关注，这是因为它结合了传统流程方法和严格的E2E方法的优势。模块化的E2E框架本质上代表了一项多任务学习挑战。预计各种任务是互补的，共同提高了整体系统性能。然而，设计不佳的多任务学习结构不仅无法促进互学习，还对单个任务产生不利影响，这种现象被称为负迁移。主流的模块化E2E方法通常采用顺序结构（如图1a所示）。

▲图1｜ E2E结构的比较©️【深蓝AI】编译

这种结构与执行驾驶任务时的人类倾向一致，并且展现出有前景的规划性能。然而，这些方法展现出目标检测和跟踪的负迁移。换而言之，联合训练的E2E模型的感知性能通常不如没有运动预测和规划任务的模型。

本文通过检查学习的异构信息的类型（语义和运动）来分析负迁移的根本原因。语义信息包括周围目标、车道、十字路口等类别，而运动信息则描述了环境中发生的时间变化。顺序方法连续执行两个过程，首先进行检测和跟踪，然后利用表示目标的特征进行轨迹预测。这种顺序设计迫使特征包含运动信息，从而破坏了最初学习到的语义信息。因此，它导致了感知的负迁移。另一种结构使用不同的头并行执行大多数任务，如图1b所示。然而，由于检测和预测保持顺序，因此负迁移的问题仍然存在。

本项工作提出了DMAD结构（如图1c所示），它分离并且合并运动和语义学习，用于端到端自动驾驶。DMAD通过分离语义和运动学习来解决负迁移问题。此外，它通过合并语义和运动学习来利用语义任务之间的相关性。

对于分离，本文提出了神经贝叶斯运动解码器。本文维护了一组运动查询，这些查询与目标（检测和跟踪）查询并行处理鸟瞰图（BEV）特征。运动查询与目标查询之间的关键区别在于，它们被解码为过去和未来轨迹，而不是具有类别的边界框。运动和目标查询共享一组参考点，通过检测和预测来递归更新。它仅允许这两种类型的查询之间进行有限的信息交换。此外，本文使用有限差分的预测轨迹来计算目标的速度，从而消除对目标查询直接学习速度的要求。通过这种方式，目标查询着重于学习语义和外观特征，而运动查询专注于获取运动特征。这两种类型的异构信息沿着不同路径分别学习，有效地防止了负迁移。值得注意的是，DMAD结构将运动学习提升到与语义学习相同的水平，首次将预测、跟踪和预测作为并发任务。

对于合并，本文提出了交互式语义解码器，以增强语义在检测和地图分割中的交换。目标感知和地图感知本质上是相关的任务。先前的方法往往忽略了这一联系，通常沿着并行路径执行这两项任务。DualAD利用了这种相关性，但是仅允许目标感知从地图中学习。本文方法使用逐层迭代自注意力来实现目标和地图任务之间的互学习，从而促进正向迁移。

基于UniAD，在nuScenes数据集上的实验证明了DMAD结构在缓解负迁移方面的有效性。本文方法在感知和预测方面实现了显著的性能提升。在不修改规划模块的情况下，本文展示了改进的感知和预测是如何在开环评估中有利于规划的，从而实现了最先进的（SOTA）碰撞指标。

本文的关键贡献总结如下：

1）本文提出了DMAD，这是一种模块化的E2E AD范式，它根据应该学习的信息对任务进行分离和合并。这种设计消除了不同类型任务之间的负迁移，同时增强了相似任务之间的正迁移；

2）本文引入了神经贝叶斯运动解码器，它与目标检测和跟踪并行执行轨迹预测。此外，本文还引入了交互式语义解码器来增强目标和地图感知之间的信息共享；

3）本文在nuScenes数据集上验证了所提出方法的有效性。它在开环规划中获得了改进的感知和预测结果以及SOTA碰撞率。

03 方法

图2展示了DMAD结构的概览，该结构基于UniAD。

▲图2｜ DMAD概览©️【深蓝AI】编译

BEV特征从多视图相机图像中提取，并且在所有任务中共享，包括检测、跟踪、建图、预测和规划。本文初始化三种不同类型的查询：目标、地图和运动，它们处理BEV特征，以提取每项任务所需的特定信息。根据学习的信息类型，解码过程分为两条途径。一方面，目标和地图解码在交互式语义解码器中联合执行，其中两种类型的查询在每个解码层迭代地交换潜在语义信息。另一方面，运动查询从神经贝叶斯运动解码器中的BEV特征中提取运动信息。每个运动查询直接对应于一个目标查询。运动查询使用目标的坐标作为每个解码层上的参考点。在解码每一帧后，从运动查询中预测的未来路径点作为后续帧中目标查询的参考点。这种递归结构类似于贝叶斯滤波器的行为。参考点的交换始终没有梯度。最后，将运动查询传递给规划模块。该系统是完全端到端训练的，其运动和语义梯度是以不同路径传播的。

3.1. 交互式语义解码器

先前的研究基本上将目标检测和地图感知作为单独的任务。然而，目标和地图元素之间存在相关性。例如，车辆的位置很可能在可行驶区域内，并且车道上车辆的朝向很可能与车道的方向一致。为了利用这种语义相关性，本文引入了交互式语义解码器。与 DualAD 中的单向交互相反，本文方法实现了信息的双向交换。本文初始化一组目标查询和一组地图查询。查询的数量可以不同，但是维度必须相同。每个解码层首先连接这两种类型的查询。然后，应用自注意力，其中这两种查询交换语义信息。随后，分离这两种类型的查询，每种查询在 BEV 特征上分别执行自注意力和交叉注意力，如图 3 所示。

▲图3｜交互式语义解码©️【深蓝AI】编译

在交互式语义解码之后，本文将地图查询解码为稠密表示。每个目标查询被分类到一个类别 c 中，并且回归到一个向量。每个目标查询关联一个参考点。它没有直接学习目标的绝对坐标，而是学习相对于相应参考点的偏移量。因此，边界框可以表示为。值得注意的是，速度没有回归，因为它们与运动信息有关。本文设计的目标查询仅关注语义信息，即目标的类别、中心点和方向。

3.2. 神经贝叶斯运动解码器

运动是指语义随时间变化。安全且舒适的驾驶需要 AD 系统理解环境变化并能预测未来发展，从而相应地做出决策。对于当前的模块化 E2E 系统，运动任务是指轨迹预测和运动规划。本文引入了一种与语义解码器并行运行的新型运动解码器，旨在完全解耦运动和语义学习，以缓解语义任务的负迁移。考虑到运动和语义之间的相关性，本文设计了一种递归过程，以促进两个解码器之间人类可读信息的交换，类似于贝叶斯滤波器。

在多目标跟踪背景下，该过程可以分为三个步骤：首先，基于目标的历史状态来预测当前位置；其次，将最有可能与预测结果匹配的检测识别为测量值；最后，根据最新测量值来更新当前状态。该过程在连续时间上递归执行。

接着，本文介绍了所提出的神经贝叶斯运动解码器。如图 4 所示，本文方法还包括预测、测量和更新过程。

▲图4｜神经贝叶斯运动解码©️【深蓝AI】编译

神经贝叶斯运动解码器：神经贝叶斯运动解码器是一种 Transformer 解码器。本文以初始化目标查询相同的方式来初始化一组运动查询。运动查询与目标查询一一对应，即。然而，由于它们在潜在空间中没有直接交互，因此它们的维度 d 可能不同。每个运动查询代表一个目标的运动状态，尽管模型最初不知道目标是否存在。此外，运动查询和目标查询共享一组参考点。

测量：检测结果被作为贝叶斯滤波器中的测量值。在每个语义解码层之后，对目标查询进行回归，获得了目标的坐标向量，然后作为下一层的参考点：

其中，上标表示层。

更新：使用来自语义解码的参考点，运动查询还通过交叉注意力来处理 BEV 特征：

其中，运动查询以测量的参考点为条件进行更新。

预测：本文采用多层感知器（MLPs）从运动查询中提取轨迹。值得注意的是，运动提取分为两个阶段：首先是单模态轨迹构建，然后是多模态预测。

单模态轨迹构建：第一个阶段旨在计算单模态速度和未来参考点，引导运动查询从过去学习聚合的运动状态，并且能够预测不久的未来。它生成一个从过去时刻到未来时刻的单条轨迹。基于当前时刻周围的路径点，使用有限差分方法来计算速度。本文使用第一个未来路径点作为下一帧中目标查询的初始参考点，用于目标跟踪。

多模态预测：在第二个阶段中，通过 UniAD 进行多模态意图建模，在未来的时刻内生成多条未来轨迹及其相应的置信度得分。

跟踪：多目标跟踪与检测同时运行。在训练过程中，与真值相关的目标查询被称为阳性查询；在推理过程中，通过判断置信度得分是否超过一个指定阈值来确定阳性。本文选择阳性目标查询，并且随时间将其传播到未来时刻。这同样适用于运动查询，因为它们是相关的。该机制支持连续预测、测量和更新，类似于贝叶斯滤波器。

04 实验

本文在nuScenes数据集上进行实验，以验证所提出方法的有效性。本文将结果分为三个部分。首先着重于感知（检测、跟踪和建图）。本文比较了在两个训练阶段的感知性能，以证明本文方法缓解了负迁移的影响。在第二部分中，本文评估了运动预测和规划。本文验证了所提出的方法对于开环规划的优势。最后，本文进行了大量的消融研究。

4.1. 训练配置

本小节概述了实验设置和默认UniAD训练配置之间的差异以及这些调整背后的基本原理。

两阶段训练：本文使用UniAD的两阶段训练方案。在第一个阶段中，本文训练了目标检测、跟踪和建图。在第二个阶段中，所有模块都经过训练，并且BEV特征提取未激活。值得注意的是，在本文方法中，由于跟踪依赖于单模态预测提供的参考点，因此单模态预测的训练过程包含在第一个阶段中。多模态预测仅在第二个阶段中进行训练，这与UniAD是一致的。

4.2. 感知

指标：对于目标检测和跟踪，本文使用nuScenes基准中定义的指标。检测的主要指标是nuScenes检测得分（NDS）和平均精度（mAP）。NDS通过考虑检测精度和边界框的真正误差（例如平移、方向和速度误差）来全面评估检测性能。对于多目标跟踪，本文给出了平均多目标跟踪准确度（AMOTA）和平均多目标追踪精度（AMOTP）。前者通过考虑ID切换、假阳性和假阴性来全面评估跟踪性能，而后者则测量被跟踪目标的定位误差。

对于建图，本文使用交并比（IoU）指标来评估可行驶区域、车道和分隔线的分割。

目标跟踪：表格1展示了两个训练阶段的检测性能。

▲表1｜目标检测结果©️【深蓝AI】编译

经过第二个阶段的训练后，UniAD的表现略有下降，NDS下降了1.2%，mAP下降了1.3%。相比之下，本文方法分别提高了0.4%和0.3%。在第一个阶段中，得益于交互式语义解码，本文方法在NDS和mAP方面分别比UniAD高了1.4%和3.4%。在第二个阶段中，由于分离运动学习缓解负迁移影响所带来的优势，相比于UniAD，本文方法最终在NDS上提高了3.1%，在mAP上提高了5.0%。

多目标跟踪：外观和运动是多目标跟踪的两个重要线索。由于使用单个特征向量来表示外观和运动，UniAD在AMOTA中的负迁移为5.3%，在AMOTP中为2.3%，如表格2所示。

▲表2｜多目标跟踪结果©️【深蓝AI】编译

本文的分离设计使目标查询能够更有效地学习外观。同时，与UniAD中基于速度的参考点更新相比，单模态预测提供了增强的跟踪参考点。因此，本文方法在第一个阶段超越了UniAD，在第二个阶段不受负迁移的影响，在AMOTA上实现了11.0%的提升，在AMOTP上实现了3.0%的提升。

地图分割：在UniAD中，建图是唯一没有展现出负迁移的感知任务。利用交互式语义解码的优势，本文方法在可行驶区域、车道、分隔带和十字路口的IoU性能方面略优于UniAD（如表格3所示）。

▲表3｜地图分割结果©️【深蓝AI】编译

4.3. 预测和规划

指标：对于运动预测，本文使用ViP3D中提出的E2E感知准确度（EPA）作为主要指标。本文还给出了传统的最小平均位移误差（minADE）。然而，由于minADE是一个真阳性指标，它并不能完全获取到E2E系统的预测能力，而EPA则考虑了假阳性的数量。对于开环规划，本文利用L2距离和1、2和3秒内的碰撞率。

轨迹预测：本文给出了汽车和行人的预测指标，如表格4所示。

▲表4｜轨迹预测结果©️【深蓝AI】编译

本文方法展现了EPA的显著改进。这种改进归功于本文的设计，它消除了目标检测和跟踪的负迁移，从而减少了许多假阴性。在minADE方面，本文方法在行人方面仅略优于UniAD。一个潜在的原因可能是，在检测性能达到一定阈值后，进一步的检测改进通常会通过成功检测到远处或被遮挡的目标来减少假阳性。对于这种难以检测的目标，坐标误差可能更大，目标的历史运动信息可能非常有限且不准确。这些不准确的信息大大增加了预测的难度。

开环规划：本文采用VAD的评估方法，并且在表格5中给出了全面的比较。

▲表5｜开环规划©️【深蓝AI】编译

值得注意的是，联合优化L2距离和碰撞率被证明是具有挑战性的。虽然PARA-Drive实现了最小的L2距离，但它也展现出最高的碰撞率。本文方法明显优于UniAD，将L2距离减少了20%，碰撞率降低了15%。此外，它超越了原始的UniAD配置，实现了SOTA碰撞率性能。

4.4. 消融研究

本文对所提出的解码器进行大量消融研究，如表格6所示。

本文将运动解码器分解为三个部分：运动查询、层间和帧间参考点更新。

模型配置：在以多视图相机图像作为输入的方法中，主要的计算成本集中在图像主干网络上。相比之下，本文方法着重于解码组件，对模型规模和速度的影响最小。与UniAD相比，本文解码器在NVIDIA RTX 6000 Ada上增加了5.4M参数和0.02秒的推理延迟。

4.5. 可视化

图5展示了DMAD在复杂十字路口的结果。

DMAD能够准确检测和跟踪密集的车辆和行人，并且考虑感知到的地图信息来预测每个目标的未来行为。

05 总结

本文提出了DMAD，这是一种新颖的模块化E2E AD架构，它在集成语义任务的同时将语义学习和运动学习分离。通过解耦目标的语义和运动学习，DMAD消除了E2E训练通常对目标检测和跟踪施加的负迁移。此外，本文利用语义任务之间的相关性来促进E2E训练过程中的正迁移。在不修改规划模块的情况下，本文在感知和预测方面的改进直接提高了规划性能，从而减小了L2距离并且降低了SOTA碰撞率。未来，有必要通过闭环规划来评估所提出的方法。

查看全文

http://www.kler.cn/a/579266.html