当前位置：首页 > article >正文

51c自动驾驶~合集51

article 2025/2/22 14:32:02

我自己的原文哦~ https://blog.51cto.com/whaosoft/13320191

#毫末最新OAD

轨迹偏移学习助力端到端新SOTA~

端到端自动驾驶技术在近年来取得了显著进展。在本研究中，我们提出了轨迹偏移学习，将传统的直接预测自车轨迹，转换为预测相对于轨迹锚点的偏移，降低模型学习的难度。与baseline模型相比，该方法显著提高了规划精度和安全性，在nuScenes上将L2 error降低了39.7%（从0.78m降至0.47m），并将碰撞率降低了84.2%（从0.38%降至0.06%）。此外，OAD展示了生成多样化、多模轨迹的能力，增强了其对复杂驾驶场景的适应性。

技术报告和可视化内容，参考项目主页：https://wzn-cv.github.io/OAD

简介

本报告在VAD框架的基础上构建了更强大的基线模型。具体而言，我们通过实证验证了几种明确且有效的技术，包括与鸟瞰视角（BEV）的交互、指令插入位置。此外，我们设计了一种创新的方法，利用轨迹词汇表来学习偏移量，而非直接学习轨迹。

OAD算法核心

与BEV的交互

在规划模块中，VAD仅设计了自车查询（ego query）与Agent查询（agent queries）和地图查询（map queries）之间的交互，其中并未涉及BEV特征，如图2(a)所示。这导致自车查询只能感知结构化的障碍物和地图信息，而无法捕捉周围环境的丰富特征和全面信息。受UniAD的启发，我们将自车查询与BEV特征进行关联，从而使系统能够更好地理解和感知其周围环境。

此外，对于每个高级指令（high-level command），VAD使用一个对应的多层感知机（MLP）头来输出轨迹。我们认为这种设计可能导致参数冗余。因此，我们引入了高级指令嵌入作为条件输入，使所有高级指令共享一个单一的MLP头进行轨迹解码。

高级指令插入位置

在UniAD中，高级指令仅在自车查询与密集BEV特征进行交叉注意力（cross-attention）之前被引入。我们认为，高级指令不仅应在与BEV的交叉注意力之前引入，还应在轨迹解码MLP之前引入。前者使自车能够更加关注与高级指令相对应的区域，从而降低碰撞率；后者则使轨迹解码器能够显式捕捉未来方向，从而减少位移误差。因此，我们在两个位置都引入了高级指令嵌入，如图2(b)所示。

学习轨迹偏移量

我们认可VADv2和Hydra-MDP中采用的理念，即构建一个固定的规划词汇表以降低规划的复杂性。略微不同的是，我们采用了在线K-means进行词汇表学习，这使得实现更为简单。

更重要的是，我们认为基于该规划词汇表学习偏移量，而非直接学习轨迹，可以带来更高的有效性。这种方法受到目标检测领域工作的启发，其中学习相对于锚框（anchor boxes）的偏移量。

具体设计如图2(b)所示。自车查询结合轨迹锚点嵌入和高级指令，在关联Agent查询、地图查询和BEV特征后学习偏移量，可表述如下：

其中，表示自车查询，是一个可学习参数，表示规划词汇表中第条轨迹的锚点嵌入。

在训练过程中，从词汇表中选择具有最低偏移量的轨迹来计算损失：

其中，表示最终位移误差。总训练目标为：

其中，表示真实自车轨迹，表示规划词汇表中的第条轨迹，并作为轨迹锚点，表示模仿损失，表示用于学习的承诺损失：

其中，表示停止梯度操作符。

在推理过程中，选择最接近的来解码规划轨迹：

在此，我们使用的超参数为：词汇表大小=30，，。

实验结果分析相关配置

本文采用的基线模型是VAD-Tiny，其具有100×100的鸟瞰图（BEV）查询。为清晰简洁起见，在本论文中VAD-Tiny统一简称为VAD。与VAD一致，我们的研究也使用了nuScenes数据集。在评估方面，位移误差（DE）和碰撞率（CR）被用于全面评估规划性能。需要注意的是，在所有实验中，我们有意不将自车状态作为输入数据，以避免开环规划中的捷径学习。在训练过程中，我们使用8块NVIDIA A100 GPU，并遵循VAD的优化调度器。我们进行了超参调整，总批次大小为32、初始学习率为4×10⁻⁴时可实现最佳性能。

定量结果

上述方法的定量结果汇总于表1。显然，每项设计都带来了显著的性能提升。

定性结果

我们对OAD和VAD进行定性比较，以说明改进措施的有效性，如图3所示。可视化结果表明，OAD能够在复杂场景中实现更好的轨迹规划。在图（a）和（e）中，即使在夜间条件下，OAD在接近前车时也能通过制动展现出避撞能力。在图（c）中，OAD成功识别出前方车辆（VAD未能识别），从而避免了直线行驶，有效降低了碰撞风险。在路口转弯场景中，与VAD相比，OAD生成的轨迹更平滑、更合理，在图（b）、（d）和（f）中降低了驾驶风险。利用轨迹词汇表，OAD天然具备多模态规划能力，如图4所示。这为下游任务提供了更大的潜力。

结论

在本研究中，我们提出了对VAD框架的多项改进，特别聚焦于学习相对于规划词汇表的偏移量。定量结果和定性结果均表明了这些改进的有效性。我们将持续提出新的优化措施，以实现更卓越的端到端规划性能。闭环评估也将成为我们未来工作的一部分。

#GEVRM

西湖大学最新！极大扩展VLA部署的可靠和稳健性~

随着快速发展，用于通用机器人决策的视觉-语言-动作（VLA）模型取得了显著进展。然而，现有的大多数VLA模型未能考虑到在部署过程中不可避免的外部扰动。这些扰动给VLA模型带来了不可预见的状态信息，导致动作不准确，进而使泛化性能大幅下降。经典的内模控制（IMC）原理表明，具有包含外部输入信号的内模的闭环系统可以准确跟踪参考输入并有效抵消干扰。这里提出了一种新颖的闭环VLA方法GEVRM，该方法集成了IMC原理，以增强机器人视觉操作的稳健性。GEVRM中的文本引导视频生成模型可以生成高度表达性的未来视觉规划目标。同时，我们通过模拟响应来评估扰动，这些响应称为内部嵌入，并通过原型对比学习进行优化。这使得模型能够隐含地推断和区分来自外部环境的扰动。所提出的GEVRM在标准和受扰动的CALVIN基准测试中均实现了最先进的性能，并且在实际机器人任务中显示出显著的改进。

领域介绍

追求稳健且适应性强的机器人系统是具身通用智能的基石。最近，随着大规模机器人数据收集、通用状态表示学习以及表达性策略学习的成功推进，机器人视觉-语言-动作（VLA）模型的研究取得了重大进展。上述策略已被证明在从物理模拟器到精心设计的现实世界环境等各种环境中，对估计机器人状态和生成稳健动作是有效的。然而，这些精心设计的环境并未考虑到部署过程中不可避免的外部扰动，例如光照条件的波动或由于信号传输问题导致的视频流噪声。当VLA模型部署在这些非理想环境中时，外部扰动会给机器人带来不可预测的状态信息。这使得VLA在不准确的环境状态下产生脆弱且不稳定的动作，导致其泛化性能显著下降。因此，增强VLA模型的稳健性以应对部署时不可避免的外部扰动是一个持续的挑战。

在计算机视觉和强化学习领域，图像增强是一种常见的技术，用于缓解模型过拟合问题、抵抗输入图像的扰动并增强模型的稳健性。其思想是对模型的输入图像应用任务标签不变的变换。例如，对于物体识别任务，图像翻转和旋转不会改变语义标签。因此，这项技术也已应用于机器人视觉语言操作任务。一些先前的工作利用视觉作为通用媒介，开发了能够通过想象和执行来规划各种任务的特定智能体。这些方法涉及使用生成模型来预测未来视频或目标图像，然后是将视觉计划转化为实际动作的目标条件策略。在训练目标条件策略时利用了图像增强技术，这在一定程度上缓解了策略对特定任务的过拟合。然而，这些模型受到其生成能力的限制，它们生成的未来目标图像（或视频）状态表达不够充分，并且图像增强仅允许模型在狭窄的任务分布内进行泛化。它对环境扰动缺乏强大的弹性，难以在不同的任务场景中产生始终有效的动作。

受到图1（a）所示的经典内模控制（IMC）原理的启发。该原理的核心思想是，在闭环控制系统中，通过在控制器内部构建一个能够模拟外部扰动和参考输入的模型，可以准确跟踪期望输出并有效抵消扰动。也就是说，它利用内模来复制系统的行为，随后评估系统的扰动，从而增强闭环稳定性。人们普遍认为，智能哺乳动物也依赖内模来产生它们的动作，并且这种机制也得到了行为学、神经生理学和成像数据的揭示和支持。更重要的是，将内模集成到机器人控制系统中已被证实可以增强机器人运动控制的稳健性。然而，结果仅限于特定场景，难以扩展到更复杂和通用的任务，如视觉语言操作。如何在VLA框架中实例化内模以提高决策动作的稳健性尚未得到探索。

为此，我们提出了GEVRM，一种用于稳健视觉操作的目标表达视频生成模型。如图1（b）所示，为了在VLA模型中有效地实现经典的IMC原理，我们对方法的一些组件进行了相应调整。

目标生成：将视频帧作为描述机器人状态的通用接口，我们引入一种先进的文本引导视频扩散生成模型作为机器人行为规划器，以生成未来目标帧作为参考输入。为了提高未来目标状态的表达性，我们通过高效的视频时空压缩和随机掩码策略来训练视觉规划器，以优先理解物理世界规律和物体的3D一致性。

状态对齐：我们利用机器人的模拟响应来估计系统扰动。这些响应称为内部嵌入，是从机器人状态中提取的。由于响应固有地嵌入在机器人的历史观测中，因此可以通过原型对比学习来优化内部嵌入，以使机器人未来的表达性目标状态与当前状态对齐。这使模型能够隐含地推断和区分来自外部环境的扰动。

目标引导策略：我们提出一种以生成的高度表达性目标为条件的扩散策略，以更好地对机器人操作的多模态任务分布进行建模。该策略和上述内部嵌入通过逆动力学和对比学习目标进行联合优化，以便即使在存在扰动的情况下也能很好地跟踪高度表达性目标。

贡献有三个方面：

引入了GEVRM，这是一种新颖的稳健VLA模型，它结合了IMC原理来增强机器人视觉操作。
研究了如何使用文本引导视频生成模型获得高度表达性的目标，并通过原型对比学习对齐状态表示，以抵抗部署时的外部扰动。
大量实验验证了所提出的GEVRM的有效性和先进性。它在标准和外部扰动的CALVIN基准测试中显著优于先前的最先进方法。与以前的基线方法相比，在实际视觉操作中生成的目标状态的表达性显著提高。

#预测规划统一新框架

利用一致性模型的端到端预测规划器来了（普林斯顿大学）

一篇关于集成了自动驾驶预测和规划的最新算法框架文章。轨迹预测和规划是自动驾驶系统当中至关重要的两个组成部分。在早期的传统自动驾驶系统当中，预测和规划属于是各自独立的模块，这种范式限制了执行交互式规划的能力。因此，本文我们提出了一个新颖的统一数据驱动框架，将预测和规划与一致性模型相结合。我们提出的算法模型以更少的采样步骤实现了更好的性能，使其更适合实时部署。

首先，我们先介绍模块化预测和规划范式的问题。然后引出我们本文所提出算法模型的网络结构和细节。接下来是在WOMD数据集上的实验结果和指标分析，最后是本文所得出的结论。

简介

为了在动态环境中安全高效地行驶，自动驾驶汽车必须有效地预测并与各种道路参与者互动，包括其他车辆和行人。这通常需要一个预测模块来预测其他代理的未来轨迹，以及一个规划模块来为自车生成轨迹。虽然预测模块已广泛采用数据驱动的方法来从人类驾驶数据中学习，但规划模块通常依赖于基于优化的方法。这两个模块通常以解耦、交替的方式运行。

但是这种解耦的方法引入了根本性的限制。规划器生成的交互行为本质上是被动的，而不是主动的，因为规划器响应其他代理，而不考虑它们如何对自车做出反应。这种限制可能导致计算成本高昂的心理理论推理。在高度交互的场景中，例如车道合并，主动规划是必不可少的，被动规划可能会导致自车卡住。现有的解决方案要么难以随着代理数量的增加而扩展，要么由于对解决方案搜索空间的限制性探索而损害了最优性。

此外，模块化方法可以独立优化预测和规划，与联合训练的端到端框架相比，这通常会导致效率降低。预测和规划模块之间的交替也引入了延迟和计算效率低下，使得满足实时操作的需求变得具有挑战性。

近年来，扩散模型被广泛应用于自动驾驶领域。它们对条件分布进行建模的能力使它们非常适合轨迹规划应用，因为它允许结合规划和预测的关键背景，包括轨迹历史、地图信息、自车的目标位置等。与 Transformer 模型相比，基于扩散的方法还支持可控生成，以仅在测试时通过引导采样来满足额外要求，而无需任何额外的训练。然而，扩散模型通常需要许多采样步骤才能获得高质量的样本，这使得满足自动驾驶汽车实时操作的需求变得具有挑战性。

考虑到上述提到的相关问题，在本文中我们提出了一种基于一致性模型的端到端预测规划器，旨在在单一数据驱动框架内统一规划和预测。大量的实验表明，我们提出的算法模型在Waymo Open Motion Dataset数据集上与现有各种方法相比在轨迹质量、约束满足和交互行为方面的优势。

论文链接：https://arxiv.org/pdf/2502.08033

算法模型网络结构&细节梳理Motion-Transformer Encoder

在本文中，我们通过规划目标来规划自车的轨迹，同时预测其他车辆的交互行为。为了将轨迹历史和地图信息编码为一致性模型的条件输入，我们采用了 MTR 的编码器架构。这种基于 Transformer 的架构通过局部注意机制有效地对场景上下文进行建模，从而实现代理与路线图之间的高效交互建模，同时保持内存效率。它还引入了一个具有损失函数的密集预测头来单独训练此编码器。此外，需要注意的是，我们的方法是与编码器无关的，允许灵活选择任何合适的场景编码器与我们基于一致性模型的预测规划器集成。

Consistency Model

一致性模型仅需一个或几个采样步骤就能从复杂分布中生成高质量样本。它由正向扩散过程和逆向扩散过程组成。假设是我们数据集中的轨迹，我们首先使用在整个数据集上计算的平均值和标准差对中所有的轨迹进行标准化。

令为此类归一化轨迹的空间，是数据分布。在前向过程中，我们首先从中抽取初始样本。然后我们应用增加噪声的方式，通过步来逐渐破坏。具体来说，在每一步，我们从正态分布中进行采样，并且假设破坏的数据可以从下式子获得

我们通过选择足够大的噪声方式，通过重复从数据中进行采样并通过加性高斯噪声进行破坏时，进而得到相应的分布。

假设，是条件信息空间。在逆向过程中，我们的目标是学习一个具有参数的一致性函数，该函数映射嘈杂的轨迹样本、条件以及噪声级别直接到相应的干净样本。这是通过选择特定的函数形式来实现的。

对于一致性模型训练，我们的目标是加强输出在相邻采样步骤中的一致性。一致性训练通过最小化以下损失函数进行实现。

在数据生成过程中，我们首先抽取样本。然后使用训练好的一致性模型。我们通过首先预测近似的干净数据，然后从正态分布中抽样来进行迭代抽样。

在声明好上述的符号和所定义好的问题后，下图展示了我们提出算法模型的整体网络结构。

具体而言，我们首先使用MTR编码器对代理的轨迹历史和地图信息进行编码。然后，我们使用一致性模型，该模型采用自车代理的规划目标和MTR 编码特征的条件输入，分别为自车和周围代理生成轨迹计划和预测。最后通过一致性模型的引导采样，可以实现自我代理的额外规划约束。

Data pre-processing

为了训练扩散模型或一致性模型，我们通常需要对输入数据进行规范化。如果我们联合建模自车和周围代理的未来轨迹，使用以自车为中心的坐标系会在数据中引入很大的差异，特别是对于在不同场景中位置差异很大的周围代理而言。因此训练性能会大大降低。相反，我们应用类似于 MTR++ 的坐标变换，将每个代理的轨迹映射到其自己的局部坐标系中，以当前时间步的位置为中心。这种转换为我们提供了方差大幅降低的数据。然后，我们计算整个数据集中转换后的轨迹的经验平均值和标准差，并将它们标准化为零均值和单位方差。为了保留代理之间的相对空间关系，我们收集由每个代理在时间步的位置组成的参考状态。

Consistency Model Training

令表示自车和周围的未来轨迹空间，令表示条件输入的空间，包含编码的历史轨迹、地图特征、自我代理的目标状态和参考坐标。给定一个规划目标和环境背景作为条件，我们利用一致性模型从条件概率分布中抽取未来轨迹。每个轨迹样本代表自车和周围代理的一种可能的联合未来行为。

为了训练我们的预测规划器，我们使用混合损失函数一步联合训练 MTR 编码器和一致性模型，该函数由一致性训练损失和 MTR 编码器的密集预测损失的加权和构成。

Guided Sampling

在使用经过训练的一致性模型生成轨迹以对自车的未来轨迹施加规划约束时，我们提出了一种类似于分类器引导的新型引导采样方法。重要的是，这种引导仅在测试时的采样过程中应用，而无需对训练程序进行任何修改。假设有个规划约束需要最小化，并从分类器指导中汲取灵感，我们可以在每个采样步骤中对预测执行梯度下降过程。

然而，同时优化多个约束对于有效找到合适的步长提出了重大挑战，特别是当约束可能相互冲突时。为了应对这一挑战，受ADMM算法的启发，我们提出了一种新颖的交替方向法，该方法在每个采样步骤中一次仅优化一个约束

在我们的方法中，我们按顺序优化每个约束，并在每次梯度下降迭代期间使用相应的步长。虽然我们对优化顺序和相对较小步长的选择是基于经验观察的，但这种策略在实践中已经证明了有效的收敛，而使用梯度下降的标准指导方法很难实现。ADMM的收敛通常在包括封闭、适当和凸函数以及适当选择的步长的条件下得到保证。

Planning Constraints Construction

我们假设自车的动态用如下的形式进行表示

假设我们仅使用自车的未来状态中的和来构建我们的规划约束函数。因为其他状态（如或）可能不满足动力学方程，而且也非常嘈杂。利用动态的微分平坦性，我们可以推断出和。

然后我们可以进一步的推断控制输入

在有，，以及情况下，我们考虑三种类型的规划约束以最小化如下。

实验结果及评价指标

我们将不同方法生成的规划轨迹与数据集中的真实轨迹进行比较。该场景要求自车进行左转，然后直行以达到其目标地点，如下图所示。

DDPM-4 达到了目标，但产生了嘈杂的轨迹，这可能是由于扩散模型的采样步骤不足以生成高质量的轨迹。虽然 DDPM-10 增加的采样步骤产生了稍微平滑的轨迹，但代价是更长的计算时间。DDIM-4 尝试仅使用 4 个采样步骤来加速 DDPM-10，但无法生成达到目标的轨迹。具有较大模型尺寸的 Transformer 生成的轨迹接近真实值，但错过了准确的目标位置。相比之下，我们的一致性模型生成的轨迹既与真实值一致，又精确地到达目标位置。

我们通过 Waymo 运动预测挑战赛的指标，定量评估了自我车辆相对于人类地面实况的规划性能，如下表所示。

通过表格中的实验结果可以看出，结果与我们的定性观察结果一致：我们的一致性模型实现了最低的 minADE 和 minFDE，表明它很好地捕捉了人类的驾驶模式。此外，添加引导采样显著改善了一致性模型的 minFDE，因为它明确地纳入了实现目标的约束。

此外，我们使用三个表征驾驶行为的指标来评估轨迹质量，如下表所示。

此外，下图中展示了我们的方法在选择目标位置方面的灵活性。我们的一致性模型在瞄准新的目标位置时保持高质量的轨迹规划，即使它们不在数据集中。

我们的预测规划器的一个关键优势是它能够确保与交通中的其他道路使用者安全有效地互动。我们的规划器展示了生成主动行为的能力，如下图所示。

通过下表可以看出，我们的基础一致性模型已经实现了比其他基于扩散的方法更准确的目标达成和更流畅的行为。

通过引导采样，达到所有方法中的最低值。需要注意的是，这种改进不需要模型重新训练，并且仅适用于推理期间。

结论

在本文中，我们提出了一种新颖的数据驱动方法，该方法使用一致性模型统一了轨迹预测和规划。通过对自车和周围代理的轨迹的联合分布进行建模，我们的方法可以实现高效和交互式的规划，而无需在预测和规划模块之间进行迭代交替。实验结果表明，与现有方法相比，我们的方法实现了卓越的轨迹质量和交互行为，同时需要更少的采样步骤。

#DenseSplat

五边形战士：首个无缝结合NeRF和3DGS的SLAM系统3DGS对关键帧的依赖

视觉稠密同时定位与建图（SLAM）是三维计算机视觉领域的核心研究方向，主要关注于实时定位相机位置并生成周围环境的高精度地图。该技术在机器人定位与导航、自动驾驶以及虚拟/增强现实（VR/AR）等领域发挥着关键作用。

近年来，基于可微渲染的突破性进展，特别是神经辐射场（NeRF）和三维高斯喷溅（3DGS），显著推动了视觉稠密 SLAM 系统的发展。基于 NeRF 的神经隐式 SLAM 通过将 NeRF 模型与同时跟踪和建图相结合，实现了高质量的在线密集地图重建，并大幅提升了几何精度。在此基础上，高斯 SLAM 系统进一步拓展了研究边界，提供了更高保真的地图重建。3DGS 采用显式高斯原语，具备细节纹理表现力强、可显式操控场景以及卓越的实时渲染能力等优势。

然而，在 SLAM 系统的应用中，3DGS 仍然面临一定挑战。与常见的离线重建不同，SLAM 需要在有限的计算资源下进行在线处理，而 3DGS 依赖于大量关键帧来优化场景的几何和外观。这种依赖性在机器人应用中尤为突出，因为机器人往往只能从稀疏的视角观察场景，导致地图中存在大量空洞。此外，当前高斯 SLAM 系统大多缺乏回环检测和捆绑调整（BA）机制，这可能导致跟踪误差积累并影响长期建图的精度。

本文介绍的DenseSplat[1]是首个结合 NeRF 和 3DGS 优势的 SLAM 系统。DenseSplat 通过利用 NeRF 先验信息来引导高斯原语的初始化，从而在稀疏关键帧条件下生成密集的地图表示，并有效填补未观察到的区域。此外，我们设计了基于几何的原语采样和修剪策略，以优化粒度并提高渲染效率。更进一步，DenseSplat 结合了回环检测和捆绑调整，以提高跟踪鲁棒性并减少漂移误差。

主要贡献：

提出 DenseSplat，这是首个利用 NeRF 先验优化 3DGS 的视觉 SLAM 系统，在稀疏关键帧条件下实现高质量地图重建。

设计了一种基于几何的高斯原语采样和修剪策略，以优化渲染效率并减少无关原语的影响。

集成了回环检测和捆绑调整，显著提高了帧间跟踪精度，减少了误差积累。

在多个大规模数据集上进行实验，结果表明 DenseSplat 在跟踪和建图方面均优于现有的最先进方法。

具体方法

图 2 展示了 DenseSplat 的整体流程。系统以 RGB-D 数据流作为输入，并通过同时优化相机位姿和神经辐射场进行跟踪。随后，系统利用从隐式辐射场采样的点来引导高斯原语的初始化，以实现高精度的地图重建和场景插值。为了减少漂移误差，我们在高斯地图上实施了局部回环检测和捆绑调整。最后，介绍了整个建图过程中的损失计算方法以及有效降低系统内存消耗的子地图划分策略。

神经辐射先验

神经辐射渲染基础

NeRF 模型是一个连续函数，用于预测沿采样光线的颜色和体密度。具体而言，给定相机原点和光线方向，我们在光线方向上均匀采样个点（其中），然后使用光线行进（ray marching）计算像素颜色：

其中表示透射率，是点处的透明度，表示相邻采样点之间的间距。辐射场由一个带 ReLU 激活函数的 MLP 参数化，并通过梯度下降优化，以最小化光度损失：

其中，表示来自具有有效深度测量的光线集合的一个批次，是真实颜色值。

基于 NeRF 的相机跟踪

我们通过优化 NeRF 的目标函数来跟踪每一帧的相机到世界变换矩阵。相机位姿初始化遵循恒定速度假设：

在此，我们仅利用 NeRF 模型进行逐帧相机跟踪，之后基于精细化的高斯地图进行回环检测和捆绑调整，以纠正累积漂移误差（详见第 III-C 节）。

基于几何的点采样

与需要密集视角优化场景的显式高斯表示不同，基于 NeRF 的模型在插值能力方面表现优异，可以推断出未观测到的几何信息。为了在实时场景中高效利用这一能力，我们采用了多分辨率哈希辐射场，该方法能够在不同分辨率下精确获取体数据，特别是在稀疏采样区域内捕捉详细的表面几何。我们通过设置密度阈值识别关键的表面过渡区域，并使用以下公式进行插值计算：

其中，和为采样网格点，表示体密度。随后，我们将这些点汇总为点云。这种方法利用 NeRF 的强大插值能力，实现了密集、基于几何的高斯原语初始化，并在后续的建图步骤中进一步优化。

精细化高斯地图

多尺度高斯渲染

通过从 NeRF 模型进行网格采样初始化，我们使用一组各向异性的 3D 高斯原语来表示场景。每个高斯原语由均值、协方差矩阵、不透明度值、三阶球谐系数以及缩放因子组成。在渲染过程中，这些高斯原语首先投影到 2D 平面上，转换为 2D 高斯。转换过程使用视图矩阵，2D 协方差矩阵计算如下：

其中是仿射投影的雅可比矩阵。2D 高斯的均值通过将投影到图像平面上。随后，这些投影的高斯按照从近到远的顺序排序，并使用类似于光线行进的 alpha 混合过程进行渲染，最终得到光栅化的像素颜色和深度值。

射线引导的高斯修剪

从 NeRF 模型进行采样时，可能会引入误差的高斯浮动原语和异常值，这些都可能影响重建质量。为了减少密集化过程中产生的冗余高斯原语并提高渲染效率，我们实施了基于射线的修剪策略。具体来说，我们使用重要性评估来识别和去除在优化过程中不活跃的高斯原语。每个高斯原语的重要性通过它对所有输入图像上采样光线的贡献来量化。灵感来自于之前的研究，我们通过以下公式对每个原语进行评分：

其中捕捉了高斯原语对像素颜色预测的贡献。然后，我们通过以下公式计算修剪掩码：

其中，低于修剪阈值的原语会从地图中去除。需要注意的是，由 NeRF 模型初始化的高斯原语不参与此修剪过程，以避免去除那些用于桥接遮挡视角的原语，从而保证场景的可管理粒度。

多尺度高斯渲染策略

高斯原语的多尺度渲染策略通过合并较小的高斯原语来提高场景的一致性，尤其在较细粒度的层次中有效。具体来说，我们使用四个不同分辨率的高斯函数进行渲染，分别对应于 1×、4×、16× 和 64× 的降采样分辨率。在训练过程中，我们将较小的细节级别的高斯合并到较大的粗糙级别的高斯中。选择哪些高斯进行合并，是根据像素覆盖范围来确定的，覆盖范围由该区域内的最高频率成分的倒数来决定，其中为缩放因子。

通过这种方式，我们能够有效地合并较小的高斯原语，从而避免渲染过程中出现混叠效应，提高地图的质量和一致性。

回环检测和捆绑调整

在捆绑调整（BA）过程中，我们使用词袋（BoW）模型来确定关键帧之间的相关性。一旦检测到回环，就会触发对涉及关键帧的 BA 过程。为了在 BA 之后保持地图的几何和视觉一致性，我们调整渲染颜色和深度，并使用估计的相对位姿变换对共视关键帧进行变换。我们构造 BA 损失如下：

高斯地图优化

建图目标函数

在我们的实验中，我们观察到在捆绑调整（BA）过程中，聚合的高斯原语可能会经历尺度膨胀，进而可能在地图中引入伪影。为了缓解这一问题，我们引入了 L2 正则化损失，该损失用于对尺度超过阈值的高斯原语进行惩罚。因此，整体的建图损失定义为：

其中，和分别表示输入流的真实颜色和深度。SSIM 损失用于计算渲染图像与真实图像之间的结构相似性。系数，，和是加权超参数。

子地图划分与融合

在大规模环境中部署 SLAM 系统时，密集建图带来的过度内存消耗是实际应用中的一个关键问题。为了解决这一问题，我们采用了一种简单而有效的子地图划分与融合策略，如算法 1 所示。具体而言，我们将输入帧按每 400 帧为一个间隔进行子地图划分，结构如下：

其中，表示每个子地图，用于开发 NeRF 模型和后续的高斯地图。尽管显式的高斯表示使得子地图可以无缝地合并为一个全局地图，但直接融合子地图仍然是一个具有挑战性的任务。我们借鉴 Mipsfusion 的思路，在子地图融合过程中使用锚帧捆绑调整（BA）来实现精确对齐，并确保子地图边界的无缝融合。每个子地图的锚定是基于其第一帧的估计位姿进行的。完成 BA 后，我们精确调整每个子地图的中心位姿，以确保准确的重新锚定。

我们的子地图策略通过允许每个子地图的并行构建，显著减少了内存消耗，从而缓解了全局地图持续扩展带来的问题。

实验效果

总结一下

DenseSplat是首个无缝结合 NeRF 和 3DGS 优势的视觉稠密 SLAM 系统，用于实现鲁棒的跟踪和建图。DenseSplat 主要针对现实应用中的挑战，例如遮挡视角、计算硬件限制导致的关键帧稀疏性等问题。该方法通过 NeRF 先验提升了高斯原语的插值能力，并优化了在较少关键帧条件下的 SLAM 性能，从而实现了精细化的场景重建和卓越的实时表现。未来研究方向可以包括在移动端应用中实现该系统，或在多智能体协作系统中推广 DenseSplat，并进一步在真实环境中进行实验。

限制性：其场景插值能力依赖于 NeRF，因此继承了 NeRF 的一些限制。当缺失区域过大，且 NeRF 无法有效捕捉几何信息时，我们的方法和 NeRF 一样难以填补这些空洞，导致部分区域在重建地图中仍然欠缺。此外，由于 DenseSplat 采用显式高斯原语进行场景表示，其存储高保真地图需要的内存比 NeRF 模型更大（后者采用隐式神经表示）。尽管 DenseSplat 通过子地图系统来减少计算过程中的内存消耗，但仍然存在优化空间，未来的研究可以探索更先进的子地图管理策略，以在多智能体系统中实现更好的扩展性。

#Invertible Diffusion Models for Compressed Sensing

一、论文信息

论文标题：Invertible Diffusion Models for Compressed Sensing
论文作者：Bin Chen（陈斌）, Zhenyu Zhang（张振宇）, Weiqi Li（李玮琦）, Chen Zhao（赵琛）, Jiwen Yu（余济闻）, Shijie Zhao（赵世杰）, Jie Chen（陈杰） and Jian Zhang（张健）
作者单位：北京大学信息工程学院、阿卜杜拉国王科技大学、字节跳动
发表刊物：IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
发表时间：2025年2月5日
正式版本：https://ieeexplore.ieee.org/document/10874182
ArXiv版本：https://arxiv.org/abs/2403.17006
开源代码：https://github.com/Guaishou74851/IDM

二、任务背景

扩散模型作为当前非常知名且强大的生成模型之一，已在图像重建任务中展现出极大的潜力。扩散模型的基本实现方式是在训练阶段构建一个噪声估计网络（通常是一个UNet），并在推理阶段通过迭代的去噪和加噪过程完成图像生成与重建。然而，如何进一步提升扩散模型在图像重建中的性能与效率，仍然是业界探索的重点问题。

当我们将扩散模型应用于图像重建任务时，面临两个关键挑战：

挑战一：“噪声估计”任务与“图像重建”任务之间的偏差。扩散模型中的深度神经网络主要针对“噪声估计”任务（即，从当前变量中估计出噪声）得到最优化，而非“图像重建”任务（即，从低质量的观测数据中预测原始图像）本身。这可能导致其图像重建性能存在进一步提升的空间。
挑战二：推理速度慢、效率低。尽管扩散模型能够生成较为真实的图像，但其推理过程往往需要大量的迭代步骤，运行时间长，计算开销大，不利于实际应用。

针对这两个挑战，本文提出了一种可逆扩散模型（Invertible Diffusion Models，IDM）。这一方法通过引入（1）端到端的训练框架与（2）可逆网络设计，有效提升了图像重建的性能与效率。

三、主要贡献

我们的方法在图像重建任务中带来了两个主要创新：

1. 端到端的扩散采样图像重建学习框架

传统扩散模型在训练阶段的目标任务是“噪声估计”，而实际的目标任务是“图像重建”。为了提升扩散模型的图像重建性能，我们将它的迭代采样过程重新定义为一个整体的图像重建网络，对该网络进行端到端的训练，突破了传统噪声估计学习范式所带来的局限。如图所示，通过这种方式，模型的所有参数都针对“图像重建”任务进行了最优化，重建性能得到大幅提升。实验结果表明，基于Stable Diffusion的预训练权重与这一端到端学习框架，在图像压缩感知重建任务中，相比其他模型，我们的方法在PSNR（峰值信噪比）指标上提升了2dB，采样步数从原本的100步降到了3步，推理速度提升了约15倍。

2. 双层可逆网络设计：减少内存开销

大型扩散模型（如Stable Diffusion）采样过程的端到端训练需要占用很大的GPU内存，这对于其实际应用来说是一个严重的瓶颈。为了减少内存开销，我们提出了一种双层可逆网络。可逆网络的核心思想是通过设计特殊的网络结构，让网络每一层的输出可以反向计算得到输入。在实践中，我们将可逆网络应用到（1）所有扩散采样步骤和（2）噪声估计网络的内部，通过“布线”技术将每个采样步骤与其前后模块连接，形成一个双层可逆网络。这一设计使得整个训练过程中，程序无需存储完整的特征图数据，只需存储较少的中间变量，显著降低了训练模型的GPU内存需求。最终，这使得我们可以在显存有限的GPU（如1080Ti）上对该模型进行端到端训练。

四、实验结果1. 图像压缩感知重建

在图像压缩感知重建任务中，我们的方法IDM与现有基于端到端网络和扩散模型的重建方法进行了对比。实验结果显示，IDM在PSNR、SSIM、FID和LPIPS等指标上取得明显提升。

2. 图像补全与医学成像

在掩码率90%的图像补全任务中，我们的方法能够准确恢复出窗户等复杂结构，而传统的扩散模型（如DDNM）无法做到这一点。此外，我们还将该方法应用于医学影像领域，包括核磁共振成像（MRI）和计算机断层扫描（CT）成像，取得了良好的效果。

3. 计算成本与推理时间的优化

基于传统扩散模型的图像重建方法往往需要较长的推理时间和计算开销，而我们的可逆扩散模型IDM显著缩短了这一过程。在重建一张256×256大小的图像时，推理时间从9秒缩短至0.63秒，大幅降低了计算开销。与现有方法DDNM相比，IDM的训练、推理效率和重建性能得到了显著提升。

欲了解更多细节，请参考原论文。

五、作者简介

陈斌：北京大学信息工程学院博士生，主要研究方向是图像压缩感知与超分辨率。
张振宇：北京大学信息工程学院硕士生，主要研究方向是图像重建。
李玮琦：北京大学信息工程学院博士生，主要研究方向是图像压缩感知与超分辨率。
赵琛：沙特阿卜杜拉国王科技大学（KAUST）的研究科学家，图像与视频理解实验室（IVUL）视频分析课题组组长。她首次提出了可逆化预训练神经网络方法，实现了大型预训练模型的极低显存微调。她在这一领域的代表工作包括Re2TAL（CVPR 2023）、Dr2Net （CVPR 2024）等。个人主页：https://zhao-chen.com/。
余济闻：北京大学信息工程学院硕士生，主要研究方向是生成式扩散模型。
赵世杰：字节跳动多媒体实验室研究员，负责视频处理与增强课题组。
陈杰：北京大学信息工程学院副教授，主要研究方向是计算机视觉与模式识别和AI4Science。个人主页：https://aimia-pku.github.io/。
张健：北京大学信息工程学院副教授，主要研究方向是视觉内容重建与生成、AIGC内容鉴伪和版权保护。个人主页：https://jianzhang.tech/cn/。

#以技术创新驱动安全智驾

轻舟智航首创「安全的端到端」

近日，轻舟智航正式启动以「安全智驾」为核心的「安全+」品牌战略，首次创新性地提出「安全的端到端」技术架构，并发布安全智驾新范式，以更先进的技术范式、更完善的安全冗余、更主动的安全反馈，突破3个指数“9”，推动智驾安全从“99.99%”向“99.99999%”进化。同时，轻舟智航将面向用户、客户和行业，从“产品、品牌、可持续发展”打造三位一体的全面“安全感”，向更高等级自动驾驶迈进。

安全红线是智驾发展的“生命线”。随着NOA规模化量产上车，任何不安全问题都将凸显；安全是智驾真正赢得用户信赖，让用户愿用、爱用的底线，更是L3时代到来的门槛条件。然而，安全≠保守，轻舟智航向以技术创新驱动汽车安全的先行者致敬，致力于做「安全智驾护航者」，坚定不移地通过技术创新，持续驱动智驾体验更安全。

无论中配、高配，安全都是顶配

轻舟智航凭借三大优势，量·质齐飞，确保智驾系统的安全，各项量产安全指标均已跻身业内最高水准梯队：

源于L4级自动驾驶的技术基因：成熟的L4开发经验，让安全思维根植于心；完善安全冗余设计，充分考虑各个单点甚至子系统失效的可能性，来确保极端情况下的安全处理。
以安全为导向的开发流程和质量管理体系：研发体系基于安全设计，由安全倒推技术创新和软件质量要求，包括代码质量，评测系统，面向自动驾驶的CI/CD系统设计与开发，设计文档审查，问题修复机制等，通过扎实的工程质量来确保软件质量。
50万+行业领先的大规模量产交付：基于大量的用户数据和问题反馈，持续利用数据闭环及问题修复流程，提升软件质量，形成有效的安全正循环。

如何实现更安全的智驾体验，轻舟智航提出全新命题，以突破3个指数“9”的全新范式，让智驾安全从“99.99%”向“99.99999%”进化。

第一个“9”：更先进的技术范式，解决长尾问题

端到端已成为智驾技术发展的必然趋势，但其安全下限低的问题一直是行业寻求突破的痛点。轻舟智航团队基于NOA大规模量产经验及在端到端和大模型技术上的深入探索，首次创新性地提出「安全的端到端」，将独创且已得到充分量产验证的“时空联合规划”的经验融入One Model 端到端模型设计中，保证行车的安全与舒适。比如，在线模型训练层面，加入了多层碰撞的损失约束，来保证安全性；并添加了高阶控制量一致性约束，来保证舒适性。

同时，类比大模型的安全对齐，轻舟智航独创端到端模型的安全对齐，让模型规划的轨迹符合人为定义的安全机制。安全机制充分借鉴时空联合规划的规则和限制，融入到网络训练中。具体而言体现在两方面：

在轨迹生成过程中，借鉴图文生成中条件生成的方法，将安全规则作为“教师”，在模型轨迹生成过程中引入额外的指导信号，以增加对生成过程的控制，引导轨迹朝特定方向发展，满足安全性。
基于大语言模型的训练过程，将安全规则作为奖励函数，对模型进行微调，进一步增加模型的安全性。

综上，从而确保整个端到端模型既可以充分发挥灵活、上限高的优势，又可以做到下限高、更安全。

另外，针对离线的端到端模型训练，轻舟智航创新性地构建了基于运动模拟的世界模型。相较于传统世界模型，基于运动模拟的世界模型可以批量生产大量的长尾场景和罕见的安全临界场景，同时生成的仿真视频更加可控，保证了时序、空间位置、物体几何、物理规则的一致性和正确性，从而保证端到端系统的安全性。

高效的数据和模型训练闭环是端到端体验和安全不断进化的基础。轻舟智航作为高级别自动驾驶解决方案提供商，在数据工具链方面具备天然优势，基于自动驾驶超级工厂「轻舟矩阵」，实现从数据回传、数据挖掘、三维重建、自动化标注、数据生成到模型训练的完整数据闭环平台，可以实现天级别的闭环和迭代，以高效的数据转动持续解决各类复杂的长尾问题。

第二个“9”：更完善的安全冗余，应对安全失效

轻舟智航在智驾系统设计中，充分考虑各个单点甚至子系统失效的可能性，构建了完善的冗余设计，可有效应对各类安全失效问题。在硬件层面，域控的诊断模块会监控域控内外的各类故障，监控到故障后功能状态机会采取降级措施，并通知用户接管。若用户长时间未接管，系统还会自动引导车辆安全停车，并上传整个过程数据至云平台分析。在模型冗余层面，已量产采用 BEV+Mono 两套视觉架构模型，可在其中一套失效时继续工作，确保感知结果不受影响。

第三个“9”：更主动的安全反馈，提升人机交互

基于大量用户使用数据和反馈，针对可能存在用户安全风险的场景，轻舟智航与头部新势力车企客户联合首创并落地了多种安全策略功能，可以通过主动的人机交互反馈，进行主动式安全保护，为用户带来更多“安全感”。

以「安全+」品牌战略，打造三位一体的全面“安全感”

安全既是红线，也是轻舟智航做好智驾产品的基本态度。随着2025 NOA规模化量产加速及自动驾驶向更高等级迈进，轻舟智航从“安全”到“安全感”全面思考，从产品、品牌到可持续发展的三位一体，为用户、客户及行业带来满满的安全感。

面向用户，轻舟智航秉承「安全一票否决制」的产品理念，以全方位的安全策略保障产品安全，让轻舟方案的产品均做到安全可信任。
面向客户，轻舟智航以持续技术引领的创新力、100%支持投入的生态力、健康稳健品牌向上的发展力，与客户建立充分的信赖，助力车企决胜智能化下半场。
面向行业，轻舟智航将依托深厚的L4技术积累和丰富的L2++量产经验，坚定不移地推动自动驾驶从L2++向L3、L4的技术实现和商业闭环，为行业的可持续发展带来更多信心，逐步将无人驾驶带进现实，通向更广阔的通用人工智能。轻舟智航将携手车企率先推动“事实性L3”的落地，一方面以技术创新切实确保用户智驾安全；另一方面基于产品的大规模的量产验证、海量用户智驾使用数据的反馈支撑及快速的技术迭代和问题修复能力，提出敢赔模式，通过保险兜底的方式，为用户带来极致安全保障及可靠安心保障，真正降低用户对智驾的心理门槛，让智驾成为用户愿意付费的必选功能，推动智驾市场体量的指数级增长。

#论文推土机World Models一览~

Ha, D., & Schmidhuber, J. (n.d.). World Models. world model的工作模式和自动驾驶预测决策规划如出一辙，我认为world model是自动驾驶数据驱动方式的终局方案。perception对应V model, 预测对应M model，决策规划则是C model，在感知输入下，world model具有ego action对环境影响的判断能力，可以预测出next Z, 通过ego action的rollouts获得这种自车行为对未来的影响与演化过程，最后找到best policy，这不就是自动驾驶在做的事情吗。

world model

world model的组成有两部分：vision model + memory model. 其中vision model将高维度视觉信息转变成低维度信息，这里通过VAE完成：

memory model采用了MDN-RNN模型实现，说白了就是混合高斯模型+LSTM. memory模块要维护一个latent state h, 它用于存储历史信息。此外他还要有预测未来的能力：“we also want to compress what happens over time. For this purpose, the role of the M model is to predict the future.”未来的状态记为z：“we train our RNN to output a probability density function p(z) instead of a deterministic prediction of z”。那这里有一个说法，关于z怎么表达，不同文章有不同的做法，比如可以是deterministic的做法，直接就是确定的z，或者是这里的gaussian distribution用于容纳不确定性，也有dreamer系列的做法，搞成discrete的形式。下图表达了world model的结构，不过这里还不完整，少了action.

所以更准确的表达是带上action：

训练：

vision, memory and control三部分都是互相独立的，各训练各自的即可：

vision部分就是要训练一个重建任务：

memory部分是要训练一个对未来的预测任务：

在后面的附录里面还有一个更明确的图：

RNN输出两个东西，一个是latent state h: "M will then take the current zt and action at as an input to update its own hidden state to produce ht+1 to be used at time t + 1.", 还有一个未来的预测z。看到这里的温度系数，用于加入噪声，温度系数越大，则对网络施加的干扰越大。文中说到可以“adjust τ to control the uncertainty of the environment generated by M”。

controller就是参数量极小的MLP: = + ，训练过程也很简单，就是在rollouts中找打reward最高的rollout。文章强调：“In our experiments, we deliberately make C as simple and small as possible, and trained separately from V and M, so that most of our agent's complexity resides in the world model (V and M).”就是要用很小的C，来把压力全部给到V and M. 后面实验的参数量也可以看到：

网络的一次循环伪代码如下：

感知输入进行encoding
controller输入z,h 计算action
rnn输入action, z,h更新h

实验

第一个实验式car racing。做了一个ablation, 说这个controller不给他h, 只有当前v行不行，答案是不行：

然后说既然这个world model可以自己预测未来，是不是可以直接在world model的闭环中实现自我学习：“This begs the question – can we train our agent to learn inside of its own dream, and transfer this policy back to the actual environment?”

那必须的，world model不就是用来干这个的嘛：“Since our world model is able to model the future, we are also able to have it come up with hypothetical car racing scenarios on its own. We can ask it to produce the probability distribution of zt+1 given the current states, sample a zt+1and use this sample as the real observation. We can put our trained C back into this hallucinated environment generated by M”，事实上，在下一个实验中就详细论证了这个自我学习过程，然后应用到真实环境中的思路。

VizDoom:

这个实验中强调了以下几点：

温度系数的作用

“we note that it is possible to add extra uncertainty into the virtual environment, thus making the game more challenging in the dream environment. We can do this by increasing the temperature τ parameter during the sampling process of zt+1”，说我们可以通过调整温度系数来在M model的训练过程中引入更多的不确定性，这样可以让模型学的更厉害，“In fact, increasing τ helps prevent our controller from taking advantage of the imperfections of our world model。”然后从后面的实验结果中也可以看到，提升系数可以让模型的虚拟表现和真实表现更加接近：

表达能力和决策能力

我们并不需要V model用来完美重建，这个和后面的M and C的表现不完全相关，V只要能够提供信息的压缩即可。“even though the V model is not able to capture all of the details of each frame correctly, for instance, getting the number of monsters correct, the agent is still able to use the learned policy to navigate in the real environment”。

iterative training

在环境比较复杂的时候，可以采用迭代学习策略“We need our agent to be able to explore its world, and constantly collect new observations so that its world model can be improved and refined over time”，因为你不可能直接一下子学到复杂环境的world model, 而我们的自学习过程又需要好的world model给到action-state的未来预测能力，所以这个时候就可以迭代学习：

#自动驾驶规划与决策技术前沿

从扩散模型到强化学习的创新突破

1、题目：Diffusion-Based Planning for Autonomous Driving with Flexible Guidance

链接：https://t.zsxq.com/JtUeU

简介：Diffusion Planner：基于扩散的柔性引导自动驾驶规划

时间：2025-01-28T23:52:12.534+0800

2、题目：Evaluating Scenario-based Decision-making for Interactive Autonomous Driving Using Rational Criteria: A Survey

链接：https://t.zsxq.com/YBdrp

简介：全面综述DRL算法在典型自动驾驶场景中的应用，概括了道路特征及其最新进展

时间：2025-01-06T23:04:15.661+0800

3、题目：Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach

链接：https://t.zsxq.com/VidUm

简介：探索决策策略的关键测试场景：一种LLM方法

时间：2024-12-10T22:36:42.652+0800

4、题目：Why Studying Cut-ins? Comparing Cut-ins and Other Lane Changes Based on Naturalistic Driving Data

链接：https://t.zsxq.com/QgaGi

简介：基于自然驾驶数据的正常变道和cut-in的比较研究

时间：2024-02-16T21:47:39.587+0800

5、题目：Reinforcement Learning for Freeway Lane-Change Regulation via Connected Vehicles

链接：https://t.zsxq.com/yxicN

简介：更优的变道策略：一种基于多智能体强化学习（MARL）的动态变道调控设计

时间：2024-12-08T21:25:02.106+0800

6、题目：LHPF: Look back the History and Plan for the Future in Autonomous Driving

链接：https://t.zsxq.com/iwT0V

简介：LHPF：一种集成历史规划信息的模仿学习规划器

时间：2024-11-27T23:41:12.178+0800

7、题目：Explanation for Trajectory Planning using Multi-modal Large Language Model for Autonomous Driving

链接：https://t.zsxq.com/LL5gu

简介：基于多模态大语言模型的自动驾驶轨迹规划解释

时间：2024-11-18T22:48:03.082+0800

8、题目：SwapTransformer: highway overtaking tactical planner model via imitation learning on OSHA dataset

链接：https://t.zsxq.com/vHUfq

简介：SwapTransformer:基于OSHA数据集的模仿学习高速公路超车策略规划模型

时间：2024-01-04T21:09:06.440+0800

9、题目：EMPERROR: A Flexible Generative Perception Error Model for Probing Self-Driving Planners

链接：https://t.zsxq.com/j5xAt

简介：EMPERROR：一种基于Transformer的生成性PEM，并将其应用于压力测试模仿学习（IL）基础的规划器

时间：2024-11-13T23:10:25.697+0800

10、题目：DP and QP Based Decision-making and Planning for Autonomous Vehicle

链接：https://t.zsxq.com/udls3

简介：基于DP和QP的自动驾驶汽车决策与规划

时间：2024-11-12T23:03:53.713+0800

11、题目：Maneuver Decision-Making with Trajectory Streams Prediction for Autonomous Vehicles

链接：https://t.zsxq.com/REYGb

简介：FFStreams++：用于不同动作（如无保护左转、超车和保持车道）的决策制定和运动规划

时间：2024-09-17T20:24:18.288+0800

12、题目：Reliable Reinforcement Learning for Decision-Making in Autonomous Driving

链接：https://t.zsxq.com/GiYYN

简介：分享密歇根大学的一篇博士论文，主要研究用于自动驾驶决策的可靠强化学习！

时间：2024-09-08T16:18:28.248+0800

13、题目：End-to-End Autonomous Driving Decision Method Based on Improved TD3 Algorithm in Complex Scenarios

链接：https://t.zsxq.com/AOiAN

简介：复杂场景下基于改进TD3算法的端到端自动驾驶决策方法

时间：2024-08-05T22:37:17.618+0800

14、题目：Enhancing Autonomous Driving Navigation Using Soft Actor-Critic

链接：https://t.zsxq.com/FOToP

简介：近年来，自动驾驶汽车在学术界和工业界引起了广泛关注。对于这些自动驾驶汽车来说，由于交通参与者的不可预测行为和复杂的道路布局，城市环境中的决策带来了重大挑战。虽然基于深度强化学习（DRL）的现有决策方法显示出解决城市驾驶情况的潜力，但它们的收敛速度较慢，尤其是在具有高机动性的复杂场景中。在本文中，提出了一种基于Soft Actor-Critic（SAC）算法的新方法来控制自动驾驶汽车平稳、安全地进入环形交叉口，并确保其毫不延迟地到达目的地。为此，引入了一种使用卷积神经网络（CNN）与提取的特征连接的目标向量。为了评估模型的性能，在CARLA仿真器中进行了大量实验，并将其与深度Q网络（DQN）和近端策略优化（PPO）模型进行了比较。定性结果表明，与DQN和PPO模型相比，模型在高流量的场景中快速收敛，并取得了很高的成功率。

时间：2024-07-07T17:16:43.929+0800

15、题目：An automatic driving trajectory planning approach in complex traffic scenarios based on integrated driver style inference and deep reinforcement learning

链接：https://t.zsxq.com/VXzaY

简介：如何解决复杂交通场景（如无信号灯交叉口）中对规划提出的挑战？

时间：2024-01-28T19:13:05.951+0800

16、题目：SDS++: Online Situation-Aware Drivable Space Estimation for Automated Driving

链接：https://t.zsxq.com/8HUQU

简介：SDS++，旨在克服SDS的缺点，同时保留其优点

时间：2024-06-10T23:15:50.615+0800

17、题目：Can Vehicle Motion Planning Generalize to Realistic Long-tail Scenarios?

链接：https://t.zsxq.com/yq8IU

简介：车辆运动规划能推广到真实的长尾场景吗？

时间：2024-04-12T23:09:46.682+0800

18、题目：Towards learning-based planning: The nuPlan benchmark for real-world autonomous driving

链接：https://t.zsxq.com/Dwdyj

简介：走向基于学习的规划！现实世界自动驾驶的 nuPlan 基准

时间：2024-03-08T21:02:04.441+0800

19、题目：On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving

链接：https://t.zsxq.com/N8rtR

简介：CVPR 2024 第一个专为压缩端到端运动规划器而设计的知识蒸馏框架

时间：2024-03-05T23:17:52.301+0800

从基于扩散模型的柔性轨迹生成，到结合大语言模型的可解释性规划；从面向长尾场景的鲁棒性强化学习，到轻量化端到端规划器的知识蒸馏——这些研究不仅展现了自动驾驶决策技术的多样性与创新性，也揭示了未来发展的关键趋势：多技术融合、场景化深耕与系统级验证。然而，如何将这些算法真正落地于复杂现实世界，仍需在安全边界定义、动态交互建模和人类驾驶行为兼容性上持续突破。可以预见，随着仿真基准（如nuPlan）的完善和生成式误差模型（如EMPERROR）的引入，自动驾驶的“智能进化”将加速迈向更高阶的自主性与可靠性。

#RAD

端到端训练新范式！华科&地平线RAD：基于3DGS的闭环强化学习SOTA！性能提升3倍~个人理解

现有的端到端自动驾驶（AD）算法通常遵循模仿学习（IL）范式，这面临着因果混淆和开环Gap等挑战。在这项工作中，我们建立了一个基于3DGS的闭环强化学习（RL）训练范式。通过利用3DGS技术，可以构建真实物理世界的真实仿真结果，使AD策略能够广泛探索状态空间，并通过大规模试错学习处理分布外场景。为了提高安全性，我们设计了专门的奖励机制，引导策略有效应对安全关键事件并理解现实世界的因果关系。为了更好地与人类驾驶行为对齐，IL被纳入RL训练作为正则化项。我们引入了一个由多样且以前未见过的3DGS环境组成的闭环评估基准。与基于IL的方法相比，RAD在大多数闭环指标中表现更强，尤其是碰撞率降低了3倍。

项目主页：https://hgao-cv.github.io/RAD。

引言

端到端自动驾驶（AD）目前是学术界和工业界的热门话题。它通过直接将感官输入映射到驾驶动作，用整体流水线取代模块化流水线，从而提供系统简洁性和泛化能力的优势。大多数现有的端到端AD算法遵循模仿学习（IL）范式，该范式训练神经网络以模仿人类驾驶行为。然而尽管它们简单，但基于IL的方法在实际部署中面临重大挑战。

一个关键问题是因果混淆。IL通过从演示中学习来训练网络复制人类驾驶策略。然而，这种范式主要捕捉观察（状态）和动作之间的相关性，而不是因果关系。因此经过IL训练的策略可能难以识别规划决策背后的真正因果因素，导致捷径学习，例如仅仅从历史轨迹推断未来轨迹。此外，由于IL训练数据主要包含常见的驾驶行为，不足以覆盖长尾分布，经过IL训练的策略往往收敛到平凡解，缺乏对碰撞等安全关键事件的足够敏感性。

另一个主要挑战是开环训练与闭环部署之间的差距。IL策略以开环方式使用分布良好的驾驶演示进行训练。然而，现实世界的驾驶是一个闭环过程，每一步的小轨迹误差会随着时间累积，导致复合误差和分布外场景。IL训练的策略在这些未见过的情况下常常表现不佳，引发了对其鲁棒性的担忧。

解决这些问题的一个直接方法是进行闭环强化学习（RL）训练，这需要一个可以与AD策略交互的驾驶环境。然而，使用真实世界的驾驶环境进行闭环训练存在禁止的安全风险和运营成本。具有传感器数据模拟功能的仿真驾驶环境（这是端到端AD所需要的）通常建立在游戏引擎上，但无法提供仿真的传感器模拟结果。

在这项工作中，我们建立了一个基于3DGS的闭环RL训练范式。利用3DGS技术，我们构建了真实物理世界的仿真数字副本，使AD策略能够广泛探索状态空间，并通过大规模试错学习处理分布外场景。为了确保对安全关键事件的有效响应和对现实世界因果关系的更好理解，我们设计了专门的安全相关奖励。然而，RL训练提出了几个关键挑战，本文解决了这些问题。

一个重大挑战是人类对齐问题。RL中的探索过程可能导致偏离类人行为的策略，破坏动作序列的平滑性。为了解决这个问题，我们在RL训练期间将模仿学习作为正则化项纳入，帮助保持与人类驾驶行为的相似性。如图1所示，RL和IL协同优化AD策略：RL通过建模因果关系和缩小开环差距来增强IL，而IL通过确保更好的人类对齐来改进RL。

另一个主要挑战是稀疏奖励问题。RL经常遭受稀疏奖励和缓慢收敛的问题。为了缓解这个问题，我们引入了与碰撞和偏差相关的密集辅助目标，有助于约束完整动作分布。此外，我们简化并解耦动作空间，以减少与RL相关的探索成本。

为了验证我们方法的有效性，我们构建了一个由多样且以前未见过的3DGS环境组成的闭环评估基准。我们的方法RAD在大多数闭环指标中优于基于IL的方法，特别是在碰撞率方面降低了3倍。

总结来说，本文的主要贡献如下：

我们提出了第一个基于3DGS的RL框架，用于训练端到端AD策略。奖励、动作空间、优化目标和交互机制经过特别设计，以提高训练效率和效果。
我们结合RL和IL协同优化AD策略。RL通过建模因果关系和缩小开环差距来补充IL，而IL在人类对齐方面补充RL。
我们在一个由多样且以前未见过的3DGS环境组成的闭环评估基准上验证了RAD的有效性。RAD在闭环评估中表现更强，特别是碰撞率比基于IL的方法低3倍。

相关工作回顾

动态场景重建

隐式神经表示在新视图合成和动态场景重建中占据主导地位，UniSim、MARS和 NeuRAD等方法利用神经场景图来实现结构化的场景分解。然而这些方法依赖于隐式表示，导致渲染速度较慢，限制了它们在实时应用中的实用性。相比之下，3D 高斯溅射（3DGS）作为一种高效的替代方案出现，提供了显著更快的渲染速度，同时保持了高视觉保真度。最近的工作探索了其在动态场景重建中的潜力，特别是在自动驾驶场景中。StreetGaussians、DrivingGaussians和 HUGSIM展示了基于高斯表示在建模城市环境中的有效性。这些方法在保持可控性的同时实现了卓越的渲染性能，通过显式将场景分解为结构化组件。然而，这些工作主要利用3DGS进行闭环评估。在这项工作中，我们将3DGS纳入RL训练框架。

端到端自动驾驶

基于学习的规划由于其数据驱动的性质和随着数据量增加而表现出的出色性能，最近显示出巨大的潜力。UniAD通过整合多个感知任务来增强规划性能，展示了端到端自动驾驶的潜力。VAD进一步探索了使用紧凑的矢量化场景表示来提高效率。一系列工作也采用了单轨迹规划范式，并进一步增强了规划性能。VADv2 通过建模规划词汇的概率分布，将范式转向多模式规划。Hydra-MDP改进了VADv2的评分机制，通过引入基于规则的评分器提供额外监督。SparseDrive探索了一种替代的无BEV解决方案。DiffusionDrive提出了一种截断扩散策略，将锚定的高斯分布去噪为多模式驾驶动作分布。大多数端到端方法遵循数据驱动的IL训练范式。在这项工作中，我们提出了基于3DGS的RL训练范式。

强化学习

强化学习是一项有前景的技术，尚未被充分探索。AlphaGo和 AlphaGo Zero已经展示了强化学习在围棋游戏中的强大能力。最近，OpenAI O1和 Deepseek-R1利用强化学习开发了推理能力。一些研究也将强化学习应用于自动驾驶。然而，这些研究基于非仿真的模拟器（如CARLA），或者不涉及端到端驾驶算法，因为它们需要完美的感知结果作为输入。据我们所知，RAD是第一个在仿真的3DGS环境中使用强化学习训练端到端AD代理的工作。

RAD算法详解

端到端驾驶策略

RAD的整体框架如图2所示。RAD以多视图图像序列作为输入，将传感器数据转换为场景标记嵌入，输出动作的概率分布，并对动作进行采样以控制车辆。

鸟瞰图（BEV）编码器：我们首先使用BEV编码器将多视图图像特征从透视视图转换为鸟瞰图，从而在BEV空间中获得一个特征图。该特征图随后用于学习实例级地图特征和智能体特征。
地图头：然后，我们利用一组地图标记从BEV特征图中学习驾驶场景的矢量化地图元素，包括车道中心线、车道分隔线、道路边界、箭头、交通信号灯等。
智能体头：此外，我们采用一组智能体标记来预测其他交通参与者的运动信息，包括位置、方向、大小、速度和多模态未来轨迹。
图像编码器：除了上述实例级地图和智能体标记外，我们还使用单独的图像编码器将原始图像转换为图像标记。这些图像标记为规划提供了密集而丰富的场景信息，与实例级标记形成互补。
动作空间：为了加速强化学习训练的收敛，我们设计了一种解耦的离散动作表示。我们将动作分为两个独立的部分：横向动作和纵向动作。动作空间是在0.5秒的短时间范围内构建的，在此期间，通过假设车辆的线性速度和角速度恒定来近似其运动。在这个假设下，横向动作和纵向动作可以根据当前的线性速度和角速度直接计算得出。通过将解耦与有限的时间范围和简化的运动模型相结合，我们的方法有效地降低了动作空间的维度，加速了训练收敛。
规划头：我们用表示场景表示，它由地图标记、智能体标记和图像标记组成。我们初始化一个规划嵌入，记为。一个级联的Transformer解码器以规划嵌入作为查询，场景表示作为键和值。解码器的输出然后与导航信息和自车状态相结合，以输出横向动作和纵向动作的概率分布：

其中、、和MLP的输出维度均为。规划头还输出值函数和，分别用于估计横向和纵向动作的预期累积奖励：

值函数用于强化学习训练。

训练范式

我们采用三阶段训练范式：感知预训练、规划预训练和强化后训练，如图2所示。

感知预训练：图像中的信息是稀疏且低级的。在第一阶段，地图头和智能体头明确输出地图元素和智能体运动信息，这些信息由真实标签进行监督。因此，地图标记和智能体标记隐式编码了相应的高级信息。在这个阶段，我们只更新BEV编码器、地图头和智能体头的参数。
规划预训练：在第二阶段，为了防止强化学习训练的冷启动不稳定，首先进行模仿学习，基于专家驾驶员在现实世界中的大规模驾驶演示来初始化动作的概率分布。在这个阶段，我们只更新图像编码器和规划头的参数，而BEV编码器、地图头和智能体头的参数被冻结。感知任务和规划任务的优化目标可能会相互冲突。然而，通过将训练阶段和参数解耦，这种冲突在很大程度上得以避免。
强化后训练：在强化后训练中，强化学习和模仿学习协同微调分布。强化学习旨在引导策略对关键风险事件敏感，并适应分布外的情况。模仿学习作为正则化项，使策略的行为与人类行为保持相似。

我们从收集到的驾驶演示中选择了大量高碰撞风险的密集交通片段。对于每个片段，我们训练一个独立的3DGS模型，对该片段进行重建，并将其作为数字驾驶环境。如图3所示，我们设置了N个并行工作进程。每个工作进程随机采样一个3DGS环境并开始滚动，即AD策略控制自车移动，并与3DGS环境进行迭代交互。在这个3DGS环境的滚动过程结束后，生成的滚动数据被记录在滚动缓冲区中，并且该工作进程将采样一个新的3DGS环境进行下一轮滚动。

在策略优化方面，我们迭代执行强化学习训练步骤和模仿学习训练步骤。对于强化学习训练步骤，我们从滚动缓冲区中采样数据，并遵循近端策略优化（PPO）框架来更新AD策略。对于模仿学习训练步骤，我们使用现实世界的驾驶演示来更新策略。在固定数量的训练步骤之后，更新后的AD策略被发送到每个工作进程中，以替换旧策略，从而避免数据收集和优化之间的分布偏移。我们只更新图像编码器和规划头的参数。BEV编码器、地图头和智能体头的参数被冻结。下面将详细介绍强化学习的设计。

AD策略与3DGS环境之间的交互机制

在3DGS环境中，自车根据AD策略行动。其他交通参与者以日志重放的方式根据现实世界数据行动。我们采用一个简化的运动学自行车模型，每隔秒迭代更新自车的位姿，公式如下：

其中和表示自车相对于世界坐标系的位置；是航向角，定义了车辆相对于世界x轴的方向；是自车的线速度；是前轮的转向角；L是轴距，即前后轴之间的距离。

在滚动过程中，AD策略在时间步为0.5秒的时间范围输出动作。我们根据推导出线性速度和转向角。基于公式3中的运动学模型，自车在世界坐标系中的位姿从更新为。基于更新后的，3DGS环境计算自车的新状态。更新后的位姿和状态作为下一次推理过程迭代的输入。3DGS环境还根据多源信息（包括其他智能体的轨迹、地图信息、自车的专家轨迹和高斯参数）生成奖励R，这些奖励用于优化AD策略。

奖励建模

奖励是训练信号的来源，它决定了强化学习的优化方向。奖励函数旨在通过惩罚不安全行为和鼓励与专家轨迹对齐来引导自车的行为。它由四个奖励组件组成：（1）与动态障碍物碰撞、（2）与静态障碍物碰撞、（3）与专家轨迹的位置偏差、（4）与专家轨迹的航向偏差：

如图4所示，这些奖励组件在特定条件下被触发。在3DGS环境中，如果自车的边界框与动态障碍物的标注边界框重叠，则检测到动态碰撞，触发负奖励。类似地，当自车的边界框与静态障碍物的高斯分布重叠时，识别为静态碰撞，产生负奖励。位置偏差通过自车当前位置与专家轨迹上最近点之间的欧几里得距离来衡量。如果偏差超过预定义阈值，则会产生负奖励。航向偏差计算为自车当前航向角与专家轨迹匹配的航向角之间的角度差。如果偏差超过阈值，则会产生负奖励。

这些事件中的任何一个，包括动态碰撞、静态碰撞、过度的位置偏差或过度的航向偏差，都会立即触发情节终止。因为在这些事件发生后，3DGS环境通常会生成有噪声的传感器数据，这对强化学习训练是有害的。

策略优化

在闭环环境中，每一步的误差会随着时间累积。上述奖励不仅由当前动作引起，还受到前面步骤动作的影响。奖励通过广义优势估计（GAE）向前传播，以优化前面步骤的动作分布。

具体来说，对于每个时间步，我们存储当前状态、动作、奖励和值的估计。基于解耦的动作空间，并考虑到不同奖励与横向和纵向动作的相关性不同，奖励被分为横向奖励和纵向奖励：

类似地，值函数被解耦为两个组件：用于横向维度的和用于纵向维度的。这些值函数分别估计横向和纵向动作的预期累积奖励。优势估计和的计算如下：

其中和是横向和纵向维度的时间差分误差，是折扣因子，是GAE参数，用于控制偏差和方差之间的权衡。

为了进一步阐明优势估计与奖励组件之间的关系，我们基于公式5中的奖励分解和公式6中的优势估计，对和进行分解。具体来说，我们得到以下分解：

其中是避免静态碰撞的优势估计，是最小化位置偏差的优势估计，是最小化航向偏差的优势估计，是避免动态碰撞的优势估计。

这些优势估计用于遵循PPO框架指导AD策略的更新。通过利用分解后的优势估计和，我们可以独立优化策略的横向和纵向维度。这是通过为每个维度定义单独的目标函数和来实现的，如下所示：

其中是横向维度的重要性采样比，是纵向维度的重要性采样比，和是小常数，用于控制横向和纵向维度的裁剪范围，确保策略更新的稳定性。

裁剪后的目标函数可防止对策略参数进行过大的更新，从而保持训练的稳定性。

辅助目标

强化学习通常面临奖励稀疏的问题，这使得收敛过程不稳定且缓慢。为了加快收敛速度，我们引入了辅助目标，为整个动作分布提供密集的指导。

辅助目标旨在通过纳入特定的奖励源来惩罚不良行为，这些奖励源包括动态碰撞、静态碰撞、位置偏差和航向偏差。这些目标是基于旧的自动驾驶策略在时刻选择的动作和计算的。为了便于评估这些动作，我们将动作的概率分布分为四个部分：

这里，表示减速动作的总概率，表示加速动作的总概率，表示向左转向动作的总概率，表示向右转向动作的总概率。

动态碰撞辅助目标：动态碰撞辅助目标根据潜在碰撞相对于自车的位置调整纵向控制动作。如果检测到前方有碰撞，策略优先选择减速动作（）；如果检测到后方有碰撞，则鼓励加速动作（）。为了将这种行为形式化，我们定义一个方向因子：

避免动态碰撞的辅助目标定义为：

其中，是避免动态碰撞的优势估计。

静态碰撞辅助目标：静态碰撞辅助目标根据与静态障碍物的接近程度调整转向控制动作。如果检测到静态障碍物在左侧，策略促进向右转向动作（）；如果检测到静态障碍物在右侧，则促进向左转向动作。为了将这种行为形式化，我们定义一个方向因子：

避免静态碰撞的辅助目标定义为：

其中，是避免静态碰撞的优势估计。

位置偏差辅助目标：位置偏差辅助目标根据自车相对于专家轨迹的横向偏差调整转向控制动作。如果自车向左偏离，策略促进向右修正（）；如果向右偏离，则促进向左修正（）。我们用一个方向因子来形式化这一过程：

位置偏差修正的辅助目标为：

其中，用于估计轨迹对齐的优势。

航向偏差辅助目标：航向偏差辅助目标根据自车当前航向与专家参考航向之间的角度差调整转向控制动作。如果自车逆时针偏离，策略促进顺时针修正（）；如果顺时针偏离，则促进逆时针修正（）。为了将这种行为形式化，我们定义一个方向因子：

航向偏差修正的辅助目标定义为：

其中，是航向对齐的优势估计。

整体辅助目标：整体辅助目标是各个单独目标的加权和：

其中，、、和是加权系数，用于平衡每个辅助目标的贡献。

优化目标：最终的优化目标将裁剪后的近端策略优化目标与辅助目标相结合：

实验结果分析实验设置

数据集和基准：我们在真实物理世界中收集了2000小时的专家人类驾驶演示数据。通过低成本的自动标注流程，获取这些驾驶演示中地图和智能体的真实标签。在第一阶段的感知预训练中，我们将地图和智能体标签作为监督信息。在第二阶段的规划预训练中，我们使用自车的里程计信息作为监督。在第三阶段的强化后训练中，我们从收集到的驾驶演示中挑选出4305个高碰撞风险的关键密集交通片段，并将这些片段重建为3DGS环境。其中，3968个3DGS环境用于强化学习训练，另外337个3DGS环境作为闭环评估基准。
评估指标：我们使用九个关键指标来评估自动驾驶策略的性能。动态碰撞率（DCR）和静态碰撞率（SCR）分别量化与动态和静态障碍物碰撞的频率，它们的总和表示为碰撞率（CR）。位置偏差率（PDR）衡量自车相对于专家轨迹在位置上的偏差，而航向偏差率（HDR）评估自车与专家轨迹在前进方向上的一致性。整体偏差由偏差率（DR）量化，定义为PDR和HDR之和。平均偏差距离（ADD）量化在发生任何碰撞或偏差之前，自车与专家轨迹之间的平均最近距离。此外，纵向加加速度（Long. Jerk）和横向加加速度（Lat. Jerk）通过测量纵向和横向的加速度变化来评估驾驶的平稳性。CR、DCR和SCR主要反映策略的安全性，而ADD反映自动驾驶策略与人类驾驶员之间的轨迹一致性。

结果消融实验

为了评估RAD中不同设计选择的影响，我们进行了三项消融实验。这些实验研究了强化学习（RL）和模仿学习（IL）之间的平衡、不同奖励源的作用以及辅助目标的效果。

RL-IL比例分析：我们首先分析不同RL与IL步骤混合比例的影响（表1）。纯模仿学习策略（0:1）导致最高的CR（0.229），但ADD最低（0.238），这表明其轨迹一致性强，但安全性较差。相比之下，纯强化学习策略（1:0）显著降低了CR（0.143），但增加了ADD（0.345），这意味着以轨迹偏差为代价提高了安全性。在4:1的比例下实现了最佳平衡，此时CR最低（0.089），同时ADD也相对较低（0.257）。进一步增加RL的主导地位（例如8:1）会导致ADD恶化（0.323）和加加速度升高，这意味着轨迹平滑度降低。
奖励源分析：我们分析了不同奖励组件的影响（表2）。仅使用部分奖励项训练的策略（例如ID 1、2、3、4、5）与完整奖励设置（ID 6）相比，具有更高的碰撞率（CR）。ID 6实现了最低的CR（0.089），同时保持了稳定的ADD（0.257）。这表明，一个平衡良好的奖励函数，包含所有奖励项，能够有效地提高安全性和轨迹一致性。在部分奖励配置中，ID 2省略了动态碰撞奖励项，表现出最高的CR（0.238），这表明缺少该项会显著削弱模型避免动态障碍物的能力，从而导致更高的碰撞率。
辅助目标分析：最后，我们研究了辅助目标的影响（表3）。与完整的辅助目标设置（ID 8）相比，省略任何一个辅助目标都会增加CR，当所有辅助目标都被移除时，CR显著上升。这突出了它们在提高安全性方面的集体作用。值得注意的是，ID 1保留了所有辅助目标但排除了近端策略优化（PPO）目标，其CR为0.187。这个值高于ID 8，这表明虽然辅助目标有助于减少碰撞，但与PPO目标结合时最为有效。

我们的消融实验强调了结合RL和IL、使用全面的奖励函数以及实施结构化辅助目标的重要性。最优的RL - IL比例（4:1）以及完整的奖励和辅助目标设置始终能产生最低的CR，同时保持稳定的ADD，确保了安全性和轨迹一致性。

与现有方法的比较

如表4所示，我们在提出的基于3DGS的闭环评估中，将RAD与其他端到端自动驾驶方法进行了比较。为了进行公平比较，所有方法都使用相同数量的人类驾驶演示数据进行训练。RAD中用于RL训练的3DGS环境也是基于这些数据构建的。与基于IL的方法相比，RAD在大多数指标上表现更优。特别是在CR方面，RAD实现了低三倍的碰撞率，这表明RL帮助自动驾驶策略学习了通用的避撞能力。

定性比较

我们对仅使用模仿学习的自动驾驶策略（无强化后训练）和RAD进行了定性比较，如图5所示。仅使用模仿学习的方法在动态环境中表现不佳，经常无法避免与移动障碍物的碰撞或处理复杂的交通情况。相比之下，RAD始终表现良好，能够有效地避免动态障碍物并处理具有挑战性的任务。这些结果突出了混合方法中闭环训练的优势，它使模型能够更好地处理动态环境。

研究局限与结论

在本研究中，我们提出了首个基于3D高斯溅射（3DGS）的强化学习框架，用于训练端到端的自动驾驶策略。我们将强化学习和模仿学习相结合，其中强化学习有助于建模因果关系、缩小开环差距，而模仿学习则使策略在行为上更贴近人类驾驶。不过，本研究也存在一定的局限性。目前所使用的3DGS环境运行方式缺乏反应性，即其他交通参与者不会根据自车的行为做出反应，仅以日志重放的形式行动。并且3DGS的效果仍有提升空间，尤其是在渲染非刚性行人、未观测到的视角以及低光照场景方面。未来的研究将致力于解决这些问题，并将强化学习提升到新的水平。