当前位置：首页 > article >正文

经典文献阅读之--Senna(桥接大型视觉语言模型和端到端自动驾驶)

article 2025/1/6 13:34:40

0. 简介

桥接大型视觉语言模型和端到端自动驾驶。端到端自动驾驶通过大规模数据展现出强大的规划能力，但是由于常识有限，在复杂、罕见的场景中仍然面临困境。相比之下，大型视觉语言模型（LVLMs）在场景理解和推理方面均表现出色。前进的道路在于融合这两种方法的优势。先前使用LVLMs预测轨迹或者控制信息的方法会产生次优的结果，因为LVLMs不太适合于精确的数值预测。本文提出了Senna，这是一种将LVLM（Senna-VLM）与端到端模型（Senna-E2E）相结合的自动驾驶系统。Senna将高级规划与低级轨迹预测解耦。Senna-VLM以自然语言生成规划决策，而Senna-E2E则预测精确的轨迹。Senna-VLM利用了多图像编码方法和多视图提示来实现高效的场景理解。此外，本文还引入了面向规划的QAs以及三阶段训练策略，在保留常识的同时提升了Senna-VLM的规划性能。相关的代码将会在Github上开源。

图1：Senna是一个结构化的自动驾驶系统，包含一个大型视觉语言模型（Senna-VLM）和一个端到端驾驶模型（Senna-E2E）。Senna-VLM以自然语言生成高层次的规划元动作，而Senna-E2E则预测低层次的规划轨迹。我们设计了一系列可以大规模自动标注的以规划为导向的问答，并配以三阶段训练策略，以实现对驾驶场景的深刻理解和准确规划。

1. 主要贡献

关于训练策略，大多数现有方法采用通用预训练，随后进行驾驶微调。然而，我们的实验结果表明，这可能并不是最佳选择。相反，我们提出了一种针对Senna-VLM的三阶段训练策略，包括混合预训练、驾驶微调和规划微调。实验结果表明，我们提出的训练策略能够实现最佳的规划性能。

Senna具有多个优势。其结构化规划策略结合了大语言视觉模型（LVLM）和端到端模型的优点，从而提高了自动驾驶的安全性、鲁棒性和泛化能力。同时，Senna对环视和多图像输入的支持有效增强了其对驾驶场景理解的能力。所提出的以规划为导向的问答（QAs）和三阶段训练策略使Senna-VLM能够在保持常识的同时做出更准确的规划决策，防止模型崩溃。

我们的主要贡献可以总结如下：

我们提出了Senna，一个将LVLM与端到端模型相结合的自动驾驶系统，实现了从高层决策到低层轨迹预测的结构化规划。Senna-VLM利用常识和逻辑推理分析场景，并以自然语言输出决策，Senna-E2E则基于这些决策生成具体的规划轨迹。
Senna采用高效的多图像编码策略，并设计了精心构建的环视提示，从而实现对驾驶场景的准确感知和空间理解。
我们设计了一系列以规划为导向的问答和三阶段训练策略，以增强Senna的驾驶理解和规划性能，同时保持其常识知识。
来自nuScenes数据集和大规模数据集DriveX的广泛实验表明，Senna在规划性能上达到了最先进水平。值得注意的是，通过利用DriveX数据集的预训练权重并在nuScenes数据集上进行微调，Senna实现了显著的性能提升，展现出强大的跨场景泛化能力和迁移能力。这些结果验证了Senna结构化规划方法、架构设计和训练策略的有效性和多样性。

图2：以往的方法在规划轨迹时没有决策步骤，这使得模型学习变得困难。大型视觉语言模型（LVLMs）在精确轨迹预测方面也面临挑战。Senna采用了一种结构化的规划方法：Senna-VLM利用预训练的常识和驾驶知识进行自然语言中的高层次决策，随后Senna-E2E利用这些决策生成最终的轨迹。

2. SENNA

在本节中，我们将详细介绍Senna。图3展示了Senna的整体架构。输入的场景信息包括多视角图像序列、用户指令和导航命令。用户指令作为提示输入到Senna-VLM中，而其他信息则同时发送给Senna-VLM和Senna-E2E。Senna-VLM将图像和文本信息分别编码为图像和文本标记，然后由大语言模型（LLM）进行处理。LLM生成高层决策，这些决策通过元动作编码器（Meta-action Encoder）编码为高维特征。Senna-E2E基于场景信息和Senna-VLM生成的元动作特征预测最终的规划轨迹。我们设计了一系列以规划为导向的问答（QAs）用于训练Senna-VLM，这些问答不需要人工标注，并且可以通过自动标注管道大规模生成。

图3：Senna的整体架构。Senna由两个模块组成：Senna-VLM和Senna-E2E。Senna-VLM高效地编码多视角图像，并从周围环境中实现空间理解。根据输入的场景信息，Senna-VLM预测高层次的规划决策，并将其编码为元动作特征。随后，Senna-E2E基于场景信息和元动作特征预测最终的规划轨迹。我们使用自动标注的大规模驾驶数据对Senna进行训练。

在第三节中，我们详细介绍了用于驾驶场景理解的规划导向问答。第4节和第5节分别聚焦于Senna-VLM和Senna-E2E的设计。第六节介绍了我们提出的三阶段训练策略。

3. 驾驶场景理解

理解驾驶场景中的关键因素对于安全和准确的规划至关重要。我们设计了一系列以规划为导向的问答，以增强Senna-VLM对驾驶场景的理解。每种类型的问答细节如图7所示。用于生成这些问答的原始数据，如3D物体检测框和物体跟踪轨迹，可以通过自动标注系统获得。此外，描述性问答可以通过像GPT-4o这样的LVLM生成。以下是对每种类型问答的详细说明。

场景描述：我们利用预训练的LVLM根据环视图像生成驾驶场景的描述。为了避免生成与规划无关的冗余信息，我们在提示中明确所需的信息，包括：交通状况、环境（如城市、乡村等）、道路类型（如铺装道路、高速公路）、天气状况、时间和道路状况（如道路是否平坦或是否有障碍物）。通过这种方式构建提示，我们可以获得简洁且信息丰富的场景描述。

交通信号检测：交通信号有多种类型，但这里我们主要关注最关键的一种：交通灯。交通灯的状态可以分为四种类型：红灯、绿灯、黄灯和无信号，其中无信号表示在自车前方未检测到交通灯。

脆弱道路用户识别：通过识别环境中的脆弱道路用户（VRUs），我们增强了Senna对这些关键物体的感知，从而提高了规划的安全性。具体而言，我们使用真实的3D检测结果获取VRUs的类别和位置，并以文本形式描述这些信息。位置信息以自车为中心，包括每个VRU相对于自车的横向和纵向距离。我们仅使用Senna-VLM预测距离的整数部分，以降低学习复杂性，同时构建距离感知。

运动意图预测：准确预测其他车辆的未来运动意图是安全规划的前提。我们还采用了元动作方法，使Senna能够预测周围车辆的未来行为。这增强了Senna对场景动态特征的理解，使其能够做出更明智的决策。

元动作规划：为了避免使用LVLM进行精确轨迹预测，我们将自车的未来轨迹转换为元动作以进行高层规划。具体而言，元动作由横向和纵向决策组成。横向元动作包括左转、直行和右转，而纵向元动作涵盖加速、保持、减速和停车。横向元动作基于预测未来时间步T期间的横向位移确定，纵向元动作则由预测期间的速度变化决定。最终的元动作由横向和纵向元动作组成。

规划解释：我们还使用LVLM生成基于车辆真实未来运动的规划解释。换句话说，我们告知LVLM车辆的实际未来动作（例如，加速和左转），并要求其分析这些决策背后的原因。在提示中，我们引导模型通过考虑影响规划的以下因素来分析决策：其他交通参与者的行为、导航信息、道路状况和交通灯状态。

4. Senna-VLM

Senna-VLM由四个组件组成。视觉编码器（Vision Encoder）接收多视角图像序列 I∈RNimg×H×W×3I∈RNimg×H×W×3 作为输入，并提取图像特征，这些特征随后通过驾驶视觉适配器（Driving Vision Adapter）进行编码和压缩，最终生成图像令牌 Eimg∈RNimg×Mimg×CEimg∈RNimg×Mimg×C。其中，NimgNimg、MimgMimg 和 CC 分别表示图像数量、每幅图像的图像令牌数量以及大语言模型（LLM）的特征维度。HH 和 WW 分别是图像的高度和宽度。文本编码器（Text Encoder）将用户指令和导航命令编码为文本令牌 Etxt∈RMtxt×CEtxt∈RMtxt×C，其中 MtxtMtxt 是文本令牌的数量。图像令牌和文本令牌都被输入到LLM中，以预测高层次的决策。在实际应用中，我们使用Vicuna-v1.5-7b [64] 作为我们的LLM。最后，元动作编码器（Meta-action Encoder）将决策编码并输出元动作特征 eact∈RDeact∈RD，其中 DD 是Senna-E2E的特征维度。

我们使用CLIP [51] 中的ViT-L/14作为视觉编码器，每幅图像被调整为 H=W=224H=W=224，从而生成576个图像令牌。对于多图像输入，这将导致图像令牌数量过多，不仅会减慢VLM的训练和推理速度，还可能导致模型崩溃和解码失败。因此，我们引入了一个驾驶视觉适配器模块。该模块不仅与之前的研究 [13]、[54] 类似，将图像特征映射到LLM特征空间，还对图像特征进行额外的编码和压缩，以减少图像令牌的数量。具体而言，我们采用一组图像查询 Qimg∈RNimg×Mimg×CQimg∈RNimg×Mimg×C 来编码图像特征并输出图像令牌：...

点击经典文献阅读之--Senna(桥接大型视觉语言模型和端到端自动驾驶)查看全文。

查看全文

http://www.kler.cn/a/465772.html