当前位置：首页 > article >正文

51c自动驾驶~合集41

article 2025/4/2 14:14:37

我自己的原文哦~ https://blog.51cto.com/whaosoft/12830614

#SFPNet

迈向通用Lidar分割！取代Transformer的新架构SFPNet

迈向通用激光雷达语义分割（），取代Transformer的新架构SFPNet，新数据集S.MID

论文标题：SFPNet: Sparse Focal Point Network for Semantic Segmentation on General LiDAR Point Clouds
论文地址：https://arxiv.org/abs/2407.11569
数据集网站：https://www.semanticindustry.top
代码地址：https://github.com/Cavendish518/SFPNet

背景

激光雷达因其在包括低光照条件在内的多种环境下的精确距离检测能力而成为自动驾驶汽车和机器人的热门选择。激光雷达点云能够精准表征真实场景，通过语义分割实现对三维场景的直接理解，相比基于二维图像的分割，这些优势能够更有效地支持后续的定位、规划等任务。

摘要

现有激光雷达语义分割的SOTA方法通常包含专门为机械旋转激光雷达设计的归纳偏置。这限制了模型在其他类型激光雷达技术中的通用性，并使超参数调整变得更加复杂。为了解决这些问题，上海交通大学团队提出了一种通用的框架SFPNet，用稀疏焦点机制代替窗口注意力机制，以适应市场上流行的各种类型的激光雷达。SFPNet能够提取多层上下文信息，并使用门控机制动态聚合不同层次的信息。作者还提出了一种针对工业机器人应用场景的新型混合固态激光雷达语义分割数据集S.MID。SFPNet在nuScenes 和SemanticKITTI等机械旋转激光雷达数据集中展示了具有竞争力的性能，在固态激光雷达数据集PandaSet和混合固态激光雷达数据集S.MID上表现优于现有方法。

动机

图1不同类型的激光雷达点云分布和FOV对比。

对于激光雷达分割任务的backbone网络，它需要解决的三个主要挑战是稀疏性、大规模性和点云密度的非均匀变化。先前的研究将归纳偏置（特殊分区或特殊窗口和位置编码）引入到单一类型的激光雷达（通常是机械旋转激光雷达）来解决上述三个挑战（图2）。这会限制模型对其他类型激光雷达的通用性，并使超参数调整更加复杂。在这种背景下作者提出了稀疏焦点机制来替换窗口注意机制。

图2窗口注意力机制（左上，左下），圆柱分区（右上）和稀疏焦点机制（右下）的直观对比。

方法

稀疏焦点模块可以替换窗口注意力机制，直接插入现有的网络中。稀疏焦点模块具有如下形式：

稀疏焦点模块具有两条性质1）包含上下文信息的显式局部性 2）平移不变性。

图3 稀疏焦点模块。

方法具体实现如下，给定一个激光雷达特征序列X。
先进行多级上下文提取：

然后进行自适应特征聚合：

最后实现通道信息查询：

数据集

作者使用装备了Livox Mid-360的工业机器人在电站场景采集并标注了38904 帧数据。数据集场景如下：

图4 S.MID数据集中的累计点云图。

和传统benchmark，nuScenes 和SemanticKITTI的对比：

表1 数据集对比。

实验结果

作者在不同类型的激光雷达数据集nuScenes ,SemanticKITTI, PandaSet和S.MID上进行了实验，SFPNet均取得了非常好的分割效果，表现出了很好的通用性和鲁棒性。

表2 和现有backbone类型的网络在不同类型激光雷达数据集上的效果对比。

表3 nuScenes验证集。

特别地，针对混合固态激光雷达点云分布的随机性，SFPNet有较好的结果，而前人的方法和标准稀疏卷积网络相比效果没有明显提升，即前人设计的模块失效。印证了方法的通用性。

表4 S.MID验证集。

作者还给出了可解释性的可视化验证。消融实验验证了各个模块的必要性。

图5 可解释性分析。某一个点（红星）和周围特征()的相关性。

表5 消融实验。

总结

作者提出了一种新的通用的激光语义分割网络SFPNet。该方法可以替换现有主流网络中的窗口注意机制。SFPNet在各种类型激光雷达的数据集上表现出出色的性能，并具有良好的可解释性。作者还构建了一个全新的基于混合固态激光雷达的数据集S.MID。

#Sparse4D-V1论文详解

1.研究介绍

看到算法带有版本号就让人yolo,从第1代干到现在的11代了，以前还能说清楚yolo1到yolo3的改进和差异，当发展到11代就很难想起他们的差异了。Sparse4D目前已经发展到第三代了。

paper: arXiv reCAPTCHA
github:https://github.com/linxuewu/Sparse4D

与基于BEV的方法相比，基于稀疏方法的性能较为落后，但仍然具有许多不可忽视的优点。为了进一步推动稀疏3D检测的发展，本文通过稀疏采样和融合时空特征进行锚框的迭代优化。

（1）稀疏4D采样

对于每个3D anchor，分配多个4D关键点，这些关键点然后被投影到多视角/尺度/时间戳的图像特征中，以采样相应的特征；

（2）层次化特征融合

对不同视角/尺度、不同时间戳和不同关键点的采样特征进行层次化融合，以生成高质量的实例特征。

Sparse4D无需依赖于密集视角转换或全局注意力，并且更适合于边缘设备的部署。此外，还引入了一个实例级深度重加权模块，以缓解3D到2D投影中的病态问题。

1. 引言

摄像头由于缺乏明确的深度信息，从2D图像进行3D感知是一个病态问题，如何融合多摄像头图像以解决3D感知任务，是视觉BEV要解决的问题。

目前BEV主要分两类：

（1）基于BEV的方法（dense）

以LSS、为代表

通过将多视角图像特征转换到统一的BEV空间中来进行3D检测。但仍然存在一些不可避免的缺点

图像到BEV的透视变换需要密集的特征采样或重排，这对于低成本边缘设备的部署来说既复杂又计算量大；
最大感知范围受限于BEV特征图的大小，难以在感知范围、效率和精度之间进行平衡；
BEV特征在高度维度上被压缩，丧失了纹理信息。因此，BEV特征在一些感知任务（如标志检测）中表现不佳。

（2）基于稀疏的方法

detr3d,petr为代表

与BEV的方法不同，基于稀疏算法不需要密集的透视变换模块，而是直接对3D锚点（anchor）进行稀疏特征采样，从而能够缓解上述问题。

其中，最具代表性的稀疏3D检测方法是DETR。

（1）然而，DETR3D的模型容量有限，因为它仅对每个锚点查询采样一个单一的3D参考点特征。

（2）SRCN3D利用RoI-Align对多视角特征进行采样，但效率不够高，且无法精确对齐来自不同视角的特征点。

同时，现有的稀疏3D检测方法并未充分利用丰富的时间上下文信息，因此与最先进的BEV方法相比，性能存在显著差距。

sparse4D针对以上问题，改进如下：

（1）sparse4D利用分布在3D锚点框区域内的多个关键点进行特征采样。与单点方法和RoI-Align方法相比，

1）能够高效地提取每个锚点框内部丰富且完整的上下文；

2）能够简单地扩展到时间维度，作为4D关键点，从而有效对齐时间信息。

（2）为缓解基于摄像头的3D检测中的病态（ill-posed）问题并提高感知性能，显式地加入了一个实例级深度重加权模块，其中实例特征通过从预测的深度分布中采样的深度置信度进行重加权。

2.相关工作

早期的目标检测方法使用密集预测作为输出，然后通过非极大值抑制 (NMS) 来处理这些密集预测。DETR 引入了一种新的检测范式，利用基于集合的损失和 Transformer 来直接预测稀疏的检测结果。DETR 在目标查询（object-query）和全局图像上下文之间执行交叉注意力，这导致了较高的计算成本和收敛困难。由于使用了全局交叉注意力，DETR 不能被视为一种纯粹的稀疏方法。Deformable DETR对 DETR 进行了改进，提出了一种基于参考点的局部交叉注意力，这加速了模型收敛并降低了计算复杂度。Sparse R-CNN提出了另一种基于区域提议思想的稀疏检测框架，其网络结构极其简单有效，展示了稀疏检测的可行性和优越性。作为 2D 检测的扩展，许多 3D 检测方法最近也开始更多关注这些稀疏范式，例如 MoNoDETR 、DETR3D 、Sparse R-CNN3D 、SimMOD。

单目3D检测算法以单张图像作为输入，输出目标的3D边界框。由于图像不包含深度信息，这个问题是病态（ill-posed），相较于2D检测更加具有挑战性。FCOS3D 和 SMOKE 基于单阶段的2D检测网络进行扩展，使用全卷积网络直接回归每个目标的深度。也有算法则将2D图像通过单目深度估计结果转换为3D伪点云信号，然后使用基于LiDAR的检测网络完成3D检测。OFT 和 CaDDN 借助视图变换模块将密集的2D图像特征转换为BEV（鸟瞰图）空间，然后将BEV特征输入检测器以完成3D目标检测。不同的是，OFT 使用3D到2D的逆投影关系完成特征空间变换，而CaDDN基于2D到3D投影，更类似于伪LiDAR的方法。

密集算法是多视角3D检测的主要研究方向，这类算法使用密集特征向量进行视图变换、特征融合或边界框预测。目前，基于BEV的方法是密集算法的主要组成部分。BEVFormer 采用可变形注意力来完成BEV特征生成和密集的时空特征融合。BEVDet使用提升-投影操作（lift-splat operation）实现视图变换。在BEVDet的基础上，BEVDepth 添加了显式的深度监督，显著提高了检测的精度。BEVStereo 和 SOLOFusion 将时间立体技术引入3D检测，进一步改善了深度估计效果。PETR 利用3D位置编码和全局交叉注意力进行特征融合，但全局交叉注意力的计算开销较大。DETR3D是稀疏方法的代表性工作之一，其基于稀疏参考点执行特征采样和融合。Graph DETR3D 延续了DETR3D，并引入了图网络以实现更好的空间特征融合，尤其在多视角重叠区域中表现突出。

3.方法介绍

Sparse4是encoder-decoder结构。encoder用于提取具有共享权重的图像特征，包括一个主干网络（如ResNet [10] 和 VoVNet [14]）以及一个特征融合网络（如FPN）。给定时间戳 t 的 N 张多视角输入图像，encoder提取多视角、多尺度的特征图。

为了利用时间上下文信息，提取最近 T 帧的图像特征，构建图像特征队列：

随后，decoder以迭代细化的方式预测检测结果，包括一系列细化模块和一个分类头，用于最终分类置信度的预测。每个细化模块以图像特征队列 I、3D锚框 B和对应的实例特征 F作为输入，输出更新的3D框和实例特征。这里，M 表示锚框的数量，C表示特征通道的数量。每个锚框的格式为：

所有3D锚框均设置在统一的3D坐标系中（如中心LiDAR坐标系）。在每个细化模块中，首先采用自注意力机制实现实例间的交互，并在交互前后添加锚框参数的嵌入(embedding)。进行可变形4D聚合，融合多视角、多尺度、多时间戳以及多关键点的特征。此外引入深度重权模块，以缓解基于图像的3D检测中的病态问题。最后，通过回归头预测当前锚框与真实值之间的偏移量，从而细化当前锚框。整体结构，如下图所示：

3.1 可变形4D聚合

实例特征的质量对整个稀疏感知系统具有关键影响。为了解决这个问题，引入了可变形4D聚合模块，通过稀疏特征采样和层次特征融合来获得高质量的实例特征。

3.2 4D关键点生成

对于第 m个锚点实例，分配 K个4D关键点，表示为 P，这些关键点由 KF个固定关键点和KL 个可学习关键点组成。在当前时间戳 t0 下，先将固定关键点 Pm放置在锚框的立体中心以及六个面的中心位置。与固定关键点不同，可学习关键点会随不同的实例特征而变化，使得神经网络能够找到每个实例最具代表性的特征。

通过将实例特征与锚框嵌入相加，可学习关键点 Pm计算公式如下：

表示偏航角的旋转矩阵

3.3时间特征处理

时间特征对3D检测至关重要，并能提升深度估计的准确性。获得当前帧的3D关键点后，将其扩展为4D，以便进行时间融合。对于一个过去的时间戳 t，首先构建一个匀速模型，将每个3D关键点平移到当前帧的3D坐标系中：

3.4稀疏采样

3.5层次融合

为了生成高质量的实例特征，以分层方式融合上述特征向量。对于每个关键点，首先用预测的权重对不同视角和尺度的特征进行聚合，然后通过序列线性层进行时间融合。最后，对于每个锚点实例，融合多个关键点特征生成实例特征。

具体来说，给定锚点实例特征（已加上锚框嵌入），我们首先通过线性层 Ψ 预测分组加权系数：

其中 G是按通道划分的分组数。通过该系数，可以对不同组的通道使用不同权重进行加权聚合，类似于分组注意力机制。

3.6深度重加权模块

这种 3D 到 2D 的转换存在一定的模糊性，同的 2D 坐标。对于不同的 3D 锚点，可能会采样到相同的特征（见图4），这增加了神经网络拟合的难度。为了解决这一问题，我们引入了显式深度估计模块该模块由多个带残差连接的多层感知机（MLP）组成。对于每个聚合特征Fm，我们估计一个离散的深度分布，并利用 3D 锚框中心点的深度来采样对应的置信度Cm，该置信度将用于对实例特征进行重加权。

通过这种方式，对于那些 3D 中心点在深度方向上远离真实值的实例，即使它们的 2D 图像坐标与真实值非常接近，相应的深度置信度也会趋于零。因而，对应的实例特征 Fm在重加权后也会被惩罚，趋于零。此外，深度估计模块可以作为一个独立部分设计和优化，从而提升模型性能

综合看来，sparse4D,还是难理解的。

4.细节

5.code

使用比较多的tricks,持续更新中

#国内首个面向科研&落地的3DGS全栈实战教程

神经辐射场（Neural Radiance Fields）自2020年被提出以来，相关论文数量呈指数增长，不但成为了三维重建的重要分支方向，也逐渐作为自动驾驶闭环仿真的重要工具。三年多的时间里，新的算法和改进层出不穷，其视觉质量逐步提高突破。并且在该技术的支持下，许多领域都取得了突破性的成果。但NeRF per-pixel ray marching的原理避免不了重建效率较低、过度平滑且容易发生灾难性遗忘。因此研究人员开始思考，有没有更好更快的三维场景表达形式，以实现高质量重建。

至此3DGS应运而生。原始的3DGS算法聚焦于静态场景重建，研究人员进一步引入时序位姿构造4DGS，而压缩3D表示到2D则为2DGS。三维重建领域旋即又是一轮新的变革风暴，目前已经应用到数字人体、表面重建、自动驾驶场景重建等等子领域，甚至在自动驾驶Occupancy感知、预训练等方面也也有很多优秀的工作。

3DGS为什么受欢迎？

相比于隐式神经网络的黑盒表示，3D Gaussian的表征方式更符合直觉，更通俗易懂。3DGS之所以爆火，很大程度在于他的实时性。除此之外，Gaussian Splatting根本不涉及任何神经网络，甚至没有一个小型的 MLP，也没有什么 "神经"的东西，场景本质上只是空间中的一组点。而更重要的一点，相比自动驾驶感知任务、大模型之类的领域，3DGS所需的算力非常小，基本上单卡就能运行，训练往往只需要分钟级。在大家都在研究数十亿个参数组成的模型的人工智能世界里，这种方法越来越受欢迎，令人耳目一新。

目前为止，3D Gaussian Splatting已经衍生出很多子领域，原始3DGS关注静态场景的重建；引入时序位姿进化为4DGS，重建动态场景；压缩三维表示到2DGS，重建表面场景；动静态结合可以重建自动驾驶场景。

重建效果如何？

静态场景重建：10

表面场景重建：

动态场景重建：

自动驾驶场景重建：

#GaussianFormer-2

Gaussian的含金量还在提升！清华&鉴智强强联合

三维语义占用预测是稳健的视觉主导自动驾驶中的一项重要任务，它预测周围场景的精细几何结构和语义信息。大多数现有方法采用密集的基于网格的场景表示，忽略了驾驶场景的空间稀疏性。尽管三维语义高斯分布作为一种以对象为中心的稀疏替代方案，但大多数高斯分布仍以低效的方式描述空旷区域。为解决这一问题，我们提出了一种概率高斯叠加模型，该模型将每个高斯分布解释为其邻域被占用的概率分布，并遵循概率乘法原则来推导整体几何结构。此外，我们采用精确的高斯混合模型进行语义计算，以避免高斯分布的不必要重叠。为了有效地在非空旷区域初始化高斯分布，我们设计了一个基于分布的初始化模块，该模块学习像素对齐的占用分布，而不是表面的深度。在nuScenes和KITTI360数据集上进行了大量实验，GaussianFormer-2模型以高效率实现了最先进的性能。

代码地址：https://github.com/huang-yh/GaussianFormer

一些基础介绍

在自动驾驶领域，与基于激光雷达（LiDAR）的同类产品相比，以视觉为中心的系统更具成本效益。然而，它们无法捕捉任意形状的障碍物，这对驾驶的安全性和可靠性构成了挑战。三维语义占用预测方法的出现通过预测周围三维环境的精细几何结构和语义信息，缓解了这一局限性。这一进展支持了一系列新兴应用，包括端到端自动驾驶、四维占用预测以及自监督三维场景理解。

尽管三维语义占用预测有着广阔的应用前景，但其本质上是一项密集的三维分割任务，因此需要一种既高效又有效的三维场景表示方法。基于体素的方法使用密集的三维体素作为表示，以最精细的细节描述场景。然而，它们忽略了三维占用中的空间冗余，并面临高计算复杂度的挑战。为了规避这一问题，平面表示方法，如鸟瞰图（BEV）和透视投影体素（TPV），通过沿某一轴压缩三维网格来生成二维特征图，从而减少标记数量。尽管如此，它们在建模环境时仍然考虑了空旷区域，这损害了其模型容量和效率。作为以对象为中心的稀疏场景表示的先驱，三维语义高斯分布通过为每个高斯分布学习均值、协方差、不透明度和语义，以稀疏的方式描述三维空间。然而，当前的三维语义高斯表示仍存在一些局限性：1）每个高斯分布仍然可以描述空旷区域，考虑到三维占用的空间稀疏性，在以对象为中心的公式中，大多数高斯分布都是无用的。2）聚合过程忽略了重叠问题，直接累加每个高斯分布的贡献以产生占用预测，这导致语义逻辑回归值无界，并进一步增加了高斯分布之间的重叠。因此，独立描述占用区域的有效高斯分布的比例可能极低，这损害了三维语义高斯表示的效率。这里我们引入了一种概率高斯叠加模型，以解决三维语义高斯分布的上述局限性，并提高利用率和效率。具体来说，我们提出了概率高斯表示，通过将每个高斯分布解释为其邻域被占用的概率分布，使三维高斯分布专门用于建模非空旷区域。采用概率乘法定理来聚合独立概率分布，并推导出几何预测。此外，我们将高斯混合模型整合到我们的概率高斯表示中，以生成归一化的语义预测，从而避免逻辑回归值无界，并防止高斯分布发生不必要的重叠。由于我们的表示仅建模占用区域，这里还设计了一个基于分布的初始化模块，以有效地在非空旷区域周围初始化高斯分布，该模块学习像素对齐的占用分布，而不是表面的深度值。我们分别在nuScenes和KITTI-360数据集上进行了广泛的实验，用于环视和单目三维语义占用预测。GaussianFormer-2模型以高效率超越了最先进的方法。此外，定性可视化结果表明，GaussianFormer-2能够生成整体且逼真的场景感知。

相关工作回顾

3D语义占用预测

3D语义占用预测已成为自动驾驶中一种颇具前景的环境建模方法，因为它能够全面描述驾驶场景。这项任务旨在通过一种或多种类型的传感器作为输入，为场景中的每个体素打上标签。最常用的两种传感器是激光雷达（LiDAR）和摄像头。尽管基于LiDAR的方法在三维感知任务中表现卓越，但在恶劣天气条件下和远距离物体检测方面存在局限；因此，基于摄像头的方法越来越受到关注。在3D语义占用预测任务的开创性工作中，采用基于密集网格的表示作为推导占用的直接手段，随后的工作转向以对象为中心的稀疏表示，以解决密集表示固有的冗余问题。

基于网格的场景表示

在自动驾驶的场景感知任务中，平面表示已成为一种具有竞争力的表示方法。BEVFormer是这类工作的先驱，它仅使用摄像头输入，并在检测和分割任务中与基于LiDAR的方法表现相当。它将图像特征转换为鸟瞰图（BEV）特征，作为统一的场景表示，因为从这个视角获得的信息最为丰富。然后，将BEV特征用于下游任务。然而，BEV特征不适合用于3D占用构建，因为它会导致高度信息丢失。作为BEV空间的推广，TPVFormer提出了三视角表示，以包含高度信息，从而使其更适合于3D场景。另一个研究方向采用基于体素的表示作为更具体于3D且更精细的方法，使其有利于3D体积语义预测。然而，这些方法使用基于密集网格的表示，无论环境的空间稀疏性如何，都平等地描述每个体素，从而导致固有的冗余。

以目标为中心的场景表示

为了消除密集表示中固有的空间冗余，许多近期工作采用了稀疏表示。一种方法是将密集网格划分为物体所在的部分，并省略预见为空旷的区域。然而，非空旷区域可能会被错误地分类为未占用，并在整个后续过程中被完全消除。另一种方法利用点表示，通过在场景范围内采样点作为后续细化过程中的查询；但是，点表示的描述范围有限，因为它没有空间范围。另一种方法，GaussianFormer，采用了3D语义高斯表示，其中概率围绕均值分布，从而实现了更高的利用率。然而，由于没有规定高斯不能表示空旷，空间冗余仍然存在。

GaussianFormer-2方法

我们提出了一种概率高斯叠加方法，用于高效的三维语义占用预测。首先，我们回顾了原始的三维语义高斯表示法及其局限性。然后介绍了我们的概率高斯建模方法，以及如何基于概率乘法定理和高斯混合模型来推导几何和语义预测。最后详细阐述了基于分布的初始化模块，该模块可有效地在占用区域周围初始化概率高斯。

3D 语义高斯表示

以视觉为中心的3D语义占用预测旨在获取3D场景的精细几何结构和语义信息。具体而言，其目标是根据输入图像，预测体素级别的语义分割结果，其中C、{X, Y, Z}、N分别代表预定义类别的集合、占用的空间分辨率和输入视图的数量。

为了实现这一目标，3D语义高斯表示采用了一组P个高斯基元，其中每个通过其均值、尺度、旋转、不透明度和语义来描述一个局部区域。GaussianFormer将这些基元解释为局部语义高斯分布，这些分布通过加性聚合对整体占用预测做出贡献：

其中，表示第i个语义高斯对的贡献，是在位置x处的整体占用预测。贡献g进一步计算为在位置x处评估的相应语义高斯分布的值：

其中，Σ表示协方差矩阵，R表示由四元数r通过函数q2r(·)构造的旋转矩阵，S表示由函数diag(·)得到的对角尺度矩阵。

尽管与密集体素的数量相比，由于高斯分布如等式（2）所示的可变形特性，高斯数量有所减少，但3D语义高斯表示仍存在一些局限性。首先，它使用语义属性c以相同的方式对占据区域和未占据区域进行建模，由于室外场景中空旷区域占比巨大，导致大多数高斯被归类为空。其次，语义高斯表示鼓励高斯重叠，因为等式（1）中的聚合过程独立地累加每个高斯的贡献，导致无界的占用预测oˆ。为了优化，模型会学习分配更多的高斯来描述同一区域，由于oˆ的无界特性，这加剧了高斯之间的重叠。这些局限性源于当前对高斯的解释，阻碍了3D语义高斯表示的效率和有效性。我们的方法从概率的角度探讨了基于高斯的对象中心表示，为解决这些问题提供了根本性的方案，如图2所示。

概率高斯叠加

我们提出概率高斯叠加作为一种高效且有效的3D场景表示方法。如图3所示，将3D建模目标分解为几何和语义预测，并分别采用概率乘法定理和高斯混合模型从概率的角度来解决这些问题。几何预测。为了限制高斯仅表示几何预测中的占据区域，我们将高斯基元解释为它们周围空间被占据的概率。具体来说，在高斯中心分配100%的概率值，该值随着与中心m的距离呈指数衰减。

其中，α(x; G)表示由高斯G引起的点x被占据的概率。等式（4）在点x接近高斯G的中心时赋予其较高的占据概率，从而防止任何高斯描述空区域。为了进一步推导出整体的占据概率，我们假设不同高斯描述的点被占据的概率是相互独立的，因此可以根据概率乘法定理将它们聚合起来。

其中，α(x) 表示点 x 处的总体占据概率。除了具备以目标为中心的特性外，等式（5）还避免了高斯分布之间的不必要重叠，因为对于任意高斯分布 Gi，都有 α(x) ≥ α(x; Gi) 成立。这意味着，如果点 x 足够接近任意一个高斯分布，则预测该点被占据。

语义预测。除了以目标为中心的无重叠几何建模外，我们还需要在语义预测上实现相同的目标。首先，由于空类已经在几何预测中考虑过了，我们从高斯分布的语义属性c中移除了表示空类的通道。然后，我们将高斯集合G解释为高斯混合模型，其中语义预测可以表述为在给定的概率高斯混合模型下计算期望语义。具体来说，将原始的不透明度属性a作为高斯分布的先验分布，该分布是L1标准化的。此外采用由均值m、尺度s和旋转r参数化的高斯概率分布作为条件概率。然后使用softmax对原始语义属性c进行归一化，以确保预测语义的有界性。最后，我们计算期望e(x; G)。

在给定了几何和语义预测后，我们迈出了简单的一步，将它们结合起来以生成最终的语义占据预测。

Distribution-Based Initialization

之前的3D语义高斯表示采用了一种可学习的初始化策略，该策略在训练开始时随机初始化高斯属性的值，并以数据驱动的方式优化这种初始化。这种策略使模型能够学习到整个数据集占据情况的先验分布，这依赖于后续网络的精细化调整以适应每个单独样本的分布。然而，高斯分布的局部感受野限制了其移动性，这阻碍了每个高斯分布在后续精细化调整中学习到达正确位置的路径。对于我们的概率高斯叠加表示（其中高斯分布仅用于建模占据区域）来说，这个问题甚至更加严重。

为了解决这个问题，我们提出了一个基于分布的初始化模块，该模块为高斯分布提供了更准确且全面的样本特定初始化，如图4所示。我们使用来自占用注释的像素对齐占用分布来监督来自2D主干网络的图像特征。具体来说，首先利用相机校准数据确定与每个图像特征相对应的射线的原点b和方向d。然后，我们在这条射线上固定深度范围内等间隔地采样R个参考点。对于每个参考点，我们查询其在相应位置的地面真实占用情况O，以获得表示参考点是否被占用的二进制标签然后，我们将作为监督信息来优化我们的初始化模块，该模块由一个图像主干网络B和一个分布预测器M组成。分布预测器M直接将图像特征解码为沿相应射线的占用分布，这些分布与l使用二进制交叉熵损失进行匹配：

与以前使用激光雷达监督来预测深度值的初始化方案不同，我们的方法学习的是整体的占据分布，而不仅仅是场景的可见表面，并且不需要任何额外的模态作为监督信息。

总体而言，我们的基于分布的初始化模块用于初始化高斯分布，这些高斯分布随后被送入到如GaussianFormer中所述的B个基于注意力的架构块中。每个块由自编码、图像交叉注意力和细化模块组成，其中概率高斯属性稳步提高，然后，通过我们提出的新方法（鼓励更高程度地利用高斯分布）对所得高斯分布进行聚合。

实验对比分析

#自动驾驶视觉大语言模型探讨会

普渡大学、伊利诺伊大学香槟分校、弗吉尼亚大学、腾讯以及博世北美研究院于2025年2月28日-3月4日在美国亚利桑那州图森的Winter Conference on Applications of Computer Vision (WACV)会议上举办第三届"大型语言与视觉模型在自动驾驶中的应用"研讨会(3rd Workshop on Large Language and Vision Models for Autonomous Driving - "LLVM-AD")。

本次研讨会诚邀学术界和工业界的研究人员投稿，研究主题包括：自动驾驶中的大型语言模型应用、自动驾驶的基础模型、自动驾驶新型语言/视觉数据集、自动驾驶中的长尾问题、知识蒸馏、不确定性量化、多模态融合、状态空间模型等相关领域。

针对此次研讨会，我们发布了MAPLM-QA开源数据集挑战赛，该数据集专注于交通场景的视觉问答任务。参赛者将开发创新方法，利用高分辨率全景图像和2.5D鸟瞰图来回答复杂交通场景的多选题。表现优异的团队将获得证书和奖金。

#毫秒级端到端无人机规划算法

You Only Plan Once

导读：在无人机领域，如何实现障碍物密集环境下⽆⼈机⾼速⾃主⻜⾏⼀直是⼀⼤挑战。本⽂将深⼊解读这项⼯作，并探讨它是如何通过端到端轨迹规划算法实现毫秒级的规划速度与⾼速⻜⾏的能⼒。

论⽂题目：You Only Plan Once: A Learning-Based One-Stage Planner With Guidance Learning
论文作者：Junjie Lu , Xuewei Zhang , Hongming Shen,LiwenXu , and Bailing Tian

论文地址：https://ieeexplore.ieee.org/document/10528860

在无人机领域，实现自主路径规划是一个重要的主题，它涉及到在给定环境下生成一条从起点到终点的无碰撞最优路径。目前的主流算法如Fast-Planner等主要通过获取图像->建图->前端路径搜索->后端轨迹规划这⼀框架实现满足无人机运动学和动力学的最优路径生成。但是，受建图与前端路径搜索耗时的影响，导致规划速度很难有大的提升，进而限制了无人机高速飞行的能力。为减小耗时，实现毫秒级的规划速度，作者提出了⼀种名为You Only Plan Once (YOPO) 的端到端规划算法，通过端到端的方式去除建图与前端路径搜索过程，实现从获取图像直接到轨迹规划，为规划算法节省大量时间，使得高速飞行成为可能。

▲图1 YOPO轨迹规划图

▲图2 系统概述：YOPO算法以深度图像、当前状态和目标方向作为输入，并预测每个原始轨迹的偏移量、末端导数和得分。

YOPO算法框架如上图所示，主干网络为ResNet-18，网络策略的输入为深度图像（表示环境的深度信息）、当前状态（无人机的当前位置、速度和加速度等）以及目标方向（表示无人机的目标位置或方向）；输出为偏移量（表示每个原始轨迹的偏移量，用于调整无人机的运动路径）、末端导数（表示每个原始轨迹的末端导数，用于描述轨迹的末端状态）以及得分（表示每个原始轨迹的得分，用于评估轨迹的可行性）。

YOPO算法将运动规划问题定义为空间分离的多项式轨迹和相关分数的回归。通过采用一组运动基元来覆盖搜索空间，并在前向传播中预测基元的偏移量和分数以进行局部优化。在训练阶段，作者提出了一种称为引导学习的无监督学习策略，被开发来提供数值梯度作为训练的指导。

■3.1基元坐标系

在YOPO算法中，基元坐标系的设计是实现精确运动规划的关键基础。该系统首先对输入的深度图像进行结构化划分，将图像在垂直和水平方向分别均匀划分为和块，从而形成了⼀个网格化的结构，总计包含个区块。这种划分方式确保了对整个空间的系统性覆盖，如下图所示。

▲图3 基元坐标系

每个锚点采用球坐标系表示，其初始位置定义为：

为实现精确的位置控制，系统使用ResNet-18网络预测位置偏移量。考虑偏移量后，锚点的实际位置变为：

其中：

网络输出的偏移量具有维度，包含位置、速度和加速度等信息。这些偏移量通过如下变换计算：

这种坐标系统设计既保证了对空间的完整覆盖，又通过偏移机制实现了精确的局部调整，为后续的运动规划奠定了基础。

■3.2时间轨迹系数求解

上一节中ResNet-18输出的偏移量信息主要用来实现本节的时间轨迹求解。轨迹采用五次多项式来表示无人机在三维空间中的平滑运动，对于每个空间维度，其位置轨迹可以表示为：

在规划过程中，对于一段轨迹，只需要考虑起始时刻t = 0和终止时刻t=T的边界条件。这些边界条件构成了一个线性方程组，可以表示为矩阵形式，其中是包含起始时刻（当前位置，速度，加速度，已知）和终止时刻（锚点的偏移位置，偏移速度，偏移加速度，偏移量由ResNet-18输出）边界条件的向量，M是系数矩是待求解的多项式系数向量。通过求解方程，可以得到轨迹多项式的系数。在实际应用中，可以被分解为已知量和可调偏移量，即需求灵活调整轨迹参数。

■3.3引导学习

作者采用基于Actor-Critic框架的引导学习方法来训练无人机端到端轨迹规划。与传统需要拟合的 Critic网络不同，这里直接使用已知的代价方程作为引导用的Critic，使学习过程更加稳定和高效。系统的整体代价函数由三个部分组成，表示为：

其中平滑代价确保轨迹连续性，通过系数矩阵计算：

避障代价通过指数函数评估安全距离：

目标代价度量终点精度：

得分估计通过最小化损失函数得到，其中为ResNet-18预测得分。这种引导学习的方法结合确定性代价函数和深度学习网络，提供了一个高效的端到端轨迹规划解决方案。

论文中的实验设计旨在验证YOPO端到端无人机规划算法的毫米级规划速度与高速飞行能力。

■4.1硬件配置

在硬件配置方面，作者使用了RealSense D455深度相机获取16:9宽高比的深度图像，并将其缩放至160×96分辨率。实验平台采用了i7-9700 CPU和RTX 3060 GPU运行Flightmare模拟器，同时在实际平台上使用NVIDIA Xavier NX作为计算单元进行验证。

▲图4 YOPO无人机硬件平台

■4.2性能比较

在性能比较方面，作者将所提出的方法与多个现有方法进行了对比，包括TopoTraj、MPPI Planner和Agile Autonomy等。通过在不同障碍物密度(1/30和1/20 tree/m²)和不同速度(2-10 m/s)条件下的测试，评估了算法在计算延迟、安全性和轨迹平滑度等多个指标上的表现。结果如下图所示，该方法在1.6ms的规划时间下就能完成推理，明显优于其他方法，同时在安全性指标上也展现出了较好的性能。

▲图5 YOPO与其他主流算法性能比较

■4.3真机实验在真机实验环节，作者使用了一台配备250mm直径、重1.13kg的四旋翼飞行器进行验证。飞行器搭载RealSense D455相机(87°×58° FOV，6m感知范围)和Xavier NX计算单元。实验在密度为1/10 tree/m²、树木直径约0.25m的密集森林环境中进行。实验结果如下图所示，该方法能够在实际场景中有效处理有限的深度观测和有限的传感器范围等挑战，成功实现了最⾼5.52m/s的高速飞行。这些结果验证了该方法在实际应用中的可行性和优越性。

▲图6 障碍物密集环境下的飞行轨迹与速度

端到端无人机规划算法YOPO将感知和建图、前端路径搜索以及后端优化集成到ResNet-18网络中。通过采用一组运动基元来覆盖搜索空间，并在前向传播中预测所有基元的偏移量和得分。通过对比实验，所提出的方法实现毫米级规划时间，并在与主流规划算法的比较中表现出了更优越的性能。

#Omni-Scene

Gaussian统一表征下的自动驾驶多模态生成新SOTA！

西湖大学和浙大的工作，利用3DGS的统一表征，结合扩散模型打通自动驾驶场景的多模态生成。近期生成+重建的算法越来越多，这说明单重建或者单生成可能都没有办法很好的cover闭环仿真，所以现在的工作尝试两者结合，这块应该也是后面闭环仿真落地的方向。

先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。然而，这种表示需要交叉视图重叠才能进行精确的深度估计，并且受到对象遮挡和截头体截断的挑战。因此，这些方法需要以场景为中心的数据采集来保持交叉视图重叠和完整的场景可见性，以规避遮挡和截断，这限制了它们在以场景为核心的重建中的适用性。相比之下，在自动驾驶场景中，一种更实用的范式是以自车为中心的重建，其特征是最小的交叉视图重叠和频繁的遮挡和截断。因此，基于像素的表示的局限性阻碍了先前工作在这项任务中的实用性。鉴于此，本文对不同的表示方法进行了深入分析，并引入了具有定制网络设计的泛高斯表示方法，以补充其优点并减轻其缺点。实验表明，在以自车为中心的重建中，Omni-Scene明显优于最先进的像素Splat和MVSplat方法，并在以场景为中心的重构中取得了与先前工作相当的性能。此外Omni-Scene用扩散模型扩展了我们的方法，开创了3D驾驶场景的前馈多模态生成。

论文链接：https://arxiv.org/abs/2412.06273

总结来说，本文的主要贡献有以下几个方面：

我们提出了Omni Scene，这是一种全高斯表示，具有量身定制的网络设计，用于自我中心重建，利用了基于像素和体积的表示，同时消除了它们的缺点。
将一种新的以自我为中心的重建任务引入到驾驶数据集（即nuScenes）中，目的是在仅给出单帧周围图像的情况下进行场景级3D重建和新颖的视图合成。我们希望这能促进该领域的进一步研究。
实验表明，我们的方法在自我中心任务上明显优于最先进的前馈重建方法，包括pixelSplat和MVSplat。进一步还通过在RealEstate10K数据集上执行以场景为中心的任务的先前工作获得了具有竞争力的性能。
通过将Omni Scene与2D扩散模型集成来展示其生成潜力，开创了一种以前馈方式多模态生成3D驾驶场景的新方法。

相关工作回顾

神经重建和渲染：最近利用神经渲染和重建技术的方法可以将场景建模为可学习的3D表示，并通过迭代反向传播实现3D重建和新颖的视图合成。NeRF因其在重建场景中捕捉高频细节的能力而受到认可。然而，在渲染过程中，它需要对每条光线进行密集的查询，尽管随后进行了加速，但这仍然导致了高计算需求，限制了其实时能力。3D高斯散斑（3DGS）通过使用3D高斯显式建模场景并采用高效的基于光栅化的渲染管道来缓解这个问题。尽管3DGS和NeRF及其变体在单场景重建中表现出了卓越的性能，但它们通常需要每个场景的优化和密集的场景捕获，这使得重建过程耗时且不可扩展。与这些工作不同，我们的方法可以在单次前向过程中从稀疏观测中重建3D场景。

隐式3D表示的前馈重建。这一系列工作将隐式3D先验（如NeRF或光场）纳入其网络中，以实现前馈重建。基于NeRF的方法利用具有多视图交叉注意力的Transformer，或使用极线和成本体积等投影3D先验来估计重建的辐射场，这继承了NeRF渲染的昂贵光线查询过程。因此，这些方法在训练和推理阶段都非常耗时。相比之下，基于光场的方法可以通过基于光线到图像的交叉注意力直接回归每条光线的颜色来绕过NeRF渲染，这牺牲了可解释性以提高效率。然而，由于缺乏可解释的3D结构，它们无法重建场景的3D几何形状。

三维高斯前馈重建。最近使用3DGS的方法可以实现可解释性和效率。通常，他们在网络中采用类似于基于NeRF的方法（例如，极线、成本量和多视图交叉注意力）的3D先验，并采用基于像素的高斯表示来预测沿射线的每像素高斯分布以进行重建。然而，这种基于像素的表示依赖于大的交叉视图重叠来预测深度，并且受到对象遮挡和截头锥体截断的影响，因此仅适用于以场景为中心的重建，适用性有限。相比之下，本文主要研究以自我为中心的重建，其特征是最小的交叉视图重叠和频繁出现的对象遮挡和截头体截断。这促使我们研究了一种新的3D表示方法，该方法不过度依赖于交叉视图重叠，同时可以解决基于像素的表示的局限性。

Omni-Scene方法详解

方法的整体框架图如下所示：

Volume Builder

体积生成器旨在使用基于体积的高斯模型预测粗略的3D结构。主要的挑战是如何将2D多视图图像特征提升到3D体积空间，而不显式地保持密集的体素。我们使用Triplelane Transformer来解决这个问题。然后，提出了体积解码器来预测体素锚定高斯GV。

Triplane Transformer。由于H×W×Z的立方复杂度，将体积表示为体素并为每个体素编码特征是昂贵的。因此，我们采用三平面将体积分解为三个轴对齐的正交平面HW、ZH和WZ。一些对象级3D重建工作也采用三平面表示来压缩体积。然而，它们要么依赖于三平面和图像之间密集的每像素交叉注意力，要么要求输入图像也与三平面对齐，以进行直接的2D级特征编码。它们都不适合具有更大体积和无约束数据收集的真实场景。

受最近3D感知方法]的启发，我们的三平面变换器利用可变形的交叉注意力，在2D和3D空间之间实现稀疏但有效的空间相关性。这里我们以HW平面的特征编码为例进行说明。如图3（b）所示，我们定义了一组网格形状的可学习嵌入作为transformer的平面查询，其中C表示嵌入通道。然后，对于位于（h，w）处的查询，我们将其扩展为沿Z轴均匀分布的多个3D柱点，并通过将它们投影回输入视图来计算它们在2D空间中的参考点Ref。由于这种透视投影的稀疏性，qh、w将只关注1/2输入视图中最相关的2D特征，以平衡效率和特征表现力。上述操作，即交叉图像可变形注意，在图3（b）中由紫色虚线箭头表示。我们推导如下：

考虑到查询柱点可能被遮挡或位于任何输入视图的截头锥体范围之外，我们进一步利用跨平面可变形注意力来丰富这些点的跨平面上下文。特别是，对于查询，我们将其坐标（h，w）投影到HW、ZH和WZ平面上，以获得三组参考点。

我们从不同的平面提取上下文信息，从而增强图3（b）中红色虚线箭头所示的特征。推导如下：

对所有平面的查询重复这两种交叉注意力，我们可以获得具有丰富语义和空间上下文的三平面特征，而不依赖于交叉视图重叠，这对于之前仅依赖基于像素的高斯表示的方法来说是必要的。

Volume解码器。然后，我们提出了体积解码器来估计体素锚定高斯分布。具体来说，给定一个位于（h，w，z）的体素，我们首先将其坐标投影到三个平面上，通过双线性插值获得平面特征，然后进行平面求和，得出聚合的体素特征。

Pixel Decorator

Pixel Decorator由多视图U-Net和像素解码器组成，分别负责提取跨视图相关特征和预测基于像素的高斯GP。由于GP是在与细粒度图像空间对齐的情况下获得的，因此它可以为粗体素锚定的高斯GV添加细节。此外，由于GP可以不投影到无限距离的位置，因此它可以用距离高斯来补充体积有界GV。

多视图U-Net concat图像特征；
像素解码器对U-Net特征进行上采样。

Volume-Pixel Collaboration

全高斯表示的核心在于基于体积和像素的高斯表示的协作。为此，我们提出了一种双重方法，可以从两个方面进行协作：基于投影的特征融合和深度引导的训练分解。

基于投影的特征融合。我们的Volume Builder预计将在输入视图中遮挡或截断的位置预测高斯分布，这超出了Pixel Decorator的设计目的。因此，为了使Volume Builder知道遮挡或截断发生的位置，我们建议将三平面查询与基于像素的高斯GP的投影特征融合。以HW平面为例，我们首先过滤掉GP中超出H×W×Z体积范围的高斯分布。然后，我们收集GP剩余高斯人的U-Net特征，并将其投影到HW平面上。投影到相同查询位置的特征被平均合并，并在线性层转换后添加到QHW的相应查询中。同样的过程也适用于ZH和WZ平面。我们在实验中证明，这种特征融合促进了GV和GP之间的互补相互作用，从而提高了性能。

Depth-Guided Training Decomposition：为了进一步加强协作，我们提出了一种深度引导训练分解方法，根据基于像素和体积的高斯的不同空间属性来分解我们的训练目标。

整体损失函数如下：

实验结果

结论

本文提出了Omni-Scene，这是一种具有Omni高斯表示的方法，可以在基于像素和体积的高斯表示中达到最佳效果，用于自我中心稀疏视图场景重建。采用鼓励体像素协作的设计，我们仅从周围的单帧观测中实现了高保真场景重建。大量实验表明，与以前的方法相比，我们在自我中心重建方面具有优势。此外，我们将2D扩散模型集成到我们的框架中，这使得多模态3D场景生成具有多种应用。

#GaussianAD

万物皆可高斯！清华最新GaussianAD：以高斯为中心的端到端自动驾驶，完爆当前SOTA！

基于视觉的自动驾驶因其令人满意的性能和低成本而显示出巨大的潜力。大多数现有方法采用密集表示（如鸟瞰图）或稀疏表示（如实例框）进行决策，这会在全面性和效率之间进行权衡。本文探索了一个以高斯为中心的端到端自动驾驶（GaussianAD）框架，并利用3D语义高斯来广泛而稀疏地描述场景。我们用均匀的3D高斯分布初始化场景，并使用环视图像逐步细化它们，以获得3D高斯场景表示。然后，我们使用稀疏卷积来有效地执行3D感知（例如，3D检测、语义图构建）。我们用动态语义预测高斯模型的3D流，并相应地规划自我轨迹，以预测未来的场景。我们的GaussianAD可以通过可选的感知标签以端到端的方式进行训练。在广泛使用的nuScenes数据集上进行的广泛实验验证了我们的端到端GaussianAD在各种任务上的有效性，包括运动规划、3D占用预测和4D占用预测。

论文链接：https://arxiv.org/abs/2412.10371v1

本文提出了一个以高斯为中心的自动驾驶（GaussianAD）框架作为肯定答案，如图1所示。我们使用来自2D图像的稀疏3D语义高斯集作为场景表示。尽管存在稀疏性，但它受益于高斯混合的通用近似和显式3D结构带来的细粒度建模，这有助于各种下游任务。我们进一步从3D高斯表示中探索感知、预测和规划。对于感知，我们将3D高斯视为语义点云，并采用稀疏卷积和稀疏预测头来有效地处理3D场景。我们提出了3D高斯流来全面明确地仿真场景演变，我们预测每个高斯流的未来位移。然后，我们整合所有可用信息，相应地规划自我轨迹。由于3D高斯表示的明确性，我们可以使用仿射变换直接计算自车观察到的预测未来场景。我们将预测场景与地面实况场景观测进行比较，作为预测和规划的明确监督。据我们所知，GaussianAD是第一个探索以视觉为中心的端到端自动驾驶显式稀疏点架构的公司。我们在nuScenes数据集上进行了广泛的实验，以评估所提出的高斯中心框架的有效性。实验结果表明，我们的GaussianAD在高效的端到端运动规划方面取得了最先进的结果。

相关工作回顾

自动驾驶感知。从传感器输入中准确感知周围环境是自动驾驶的基本步骤。作为两个主要的传统感知任务，3D目标检测旨在获得周围场景中每个代理的3D位置、姿态和类别，这对轨迹预测和规划非常重要。语义图重建旨在恢复鸟瞰图（BEV）中的静态图元素，为进一步推理提供额外信息。这两个任务都可以在BEV空间中有效地执行，但它们无法描述周围场景和任意形状对象的细粒度3D结构。这促使最近的方法探索其他3D表示，如体素和三视角视图（TPV），以执行3D占用预测任务。3D占用提供了对周围场景的更全面的描述，包括动态和静态元素，可以从稀疏的激光雷达或视频序列中有效地学习。Gaussianformer提出使用3D语义高斯来稀疏地表示3D占用场景。然而，目前尚不清楚3D高斯表示是否可用于一般的自动驾驶。

自动驾驶预测。预测场景演变对自动驾驶汽车的安全性也至关重要。大多数现有方法侧重于根据交通代理的过去位置和语义地图信息预测其移动。早期的方法将智能体和语义图信息投影到边界电动图像上，并采用二维图像主干对其进行处理，以推断未来的智能体运动。随后的方法采用了更有效的动态代理的标记化表示，并使用图神经网络或变换器来聚合信息。最近的工作开始以端到端的方式直接从传感器输入探索运动预测。他们通常首先执行BEV感知以提取相关信息（例如，3D代理框、语义图、轨迹），然后利用它们来推断未来的轨迹。与仅对动态对象运动进行建模的现有方法不同，我们提出了高斯流来预测包括动态和静态元素在内的环视场景演变。

规划自动驾驶。规划是自动驾驶系统的重要组成部分，可分为基于规则的和基于学习的方法。虽然传统的基于规则的方法可以获得令人满意的结果，并且具有很高的可解释性，但基于学习的方法近年来受到了越来越多的关注，因为它们具有扩展到大规模训练数据的巨大潜力。作为简单而有效的基于学习的解决方案，基于模仿的规划者一直是端到端方法的首选。作为早期的尝试，LBC和CILRS采用卷积神经网络（CNN）从专家驾驶数据中学习。以下方法结合了更多的数据或提取了更多的中间特征，为规划者提供了更多的信息，取得了显著的效果。尽管如此，大多数现有的端到端自动驾驶方法采用高级场景描述（例如3D框、地图）进行下游预测和规划，并可能省略某些关键信息。本文提出了一种以高斯为中心的自动驾驶流水线，并使用3D高斯作为稀疏但全面的信息载体。

GaussianAD方法详解

3D Scene Representation Matters for Driving

自动驾驶旨在根据一系列场景观察{o}产生安全一致的控制信号（例如加速器、制动器、转向）。虽然场景观测可以从多个传感器（如摄像头和激光雷达）获得，但由于其高信息密度和低传感器成本，我们主要针对周围摄像头的基于视觉的自动驾驶。

假设控制器性能良好，大多数自动驾驶模型主要侧重于学习从当前和历史观测值{o}到未来自车轨迹{w}的映射f：

传统的自动驾驶方法将f分解为感知、预测和规划模块，并在连接之前分别对其进行训练：

这些模块的单独训练进一步加剧了这个问题，因为不同的任务侧重于提取不同的信息。提供给规划模块的不全面信息可能会影响自动驾驶模型的决策过程。这推动了从模块化框架到端到端框架工作的转变，该框架可区分地连接并共同学习感知、预测和规划模块：

场景表示r在整个模型中传递信息，因此r的选择对端到端系统的性能至关重要。由于自动驾驶需要在3D空间中做出决策，场景表示应该是3D结构的，并包含从输入图像推断出的3D结构信息。另一方面，3D空间通常是稀疏的，导致在设计r时在全面性和效率之间进行权衡。为了全面性，传统的鸟瞰图（BEV）表示在地图视图中使用密集的网格特征，并压缩高度维度以减少冗余。后续方法进一步探索更密集的表示，如体素或三视角视图（TPV），以捕获更详细和细粒度的3D信息。为了提高效率，最近的方法采用了稀疏查询，并专注于对实例框和映射元素进行建模，这是决策中最重要的因素。尽管如此，被丢弃的信息仍然很重要（例如，不规则的障碍物、交通灯、人体姿势），并且与端到端自动驾驶的理念（即全面的信息流）相矛盾。本文探讨了3D高斯分布作为一种全面而稀疏的场景表示，并提出了一个用于端到端感知、预测和规划的完全稀疏框架，如图2所示。

Gaussian-Centric Autonomous Driving

3D高斯表示**。现有的方法通常构建一个密集的3D特征来表示周围环境，并用相等的存储和计算资源处理每个3D体素，这通常会导致难以处理的开销，因为资源分配不合理。同时，这种密集的3D体素表示无法区分不同尺度的对象。与这些方法不同，我们遵循GaussianFormer，它表示一个具有许多稀疏3D语义Gaussian的自动驾驶场景。每个高斯分布都实例化了一个语义高斯分布，其特征是均值、协方差和语义逻辑。这种稀疏显式特征表示对下游任务更有利。

图像中的Gaussians。我们首先将3D高斯分布及其高维查询表示为可学习向量。然后使用高斯编码器迭代地增强这些表示。每个高斯编码器块由三个模块组成：一个促进高斯人之间交互的自编码模块，一个用于聚合视觉信息的图像交叉注意力模块，以及一个用于微调高斯属性的细化模块。与GaussianFormer不同，我们利用由4D稀疏卷积组成的时间编码器将前一帧的高斯特征与当前帧中的相应特征进行整合。

高斯稀疏3D检测。由于3D高斯表示是一种稀疏场景表示，我们遵循VoxelNeXt，它直接基于稀疏体素特征预测3D对象。特别地，我们进行了一个3D稀疏CNN网络V来编码3D高斯表示r。根据GenAD，我们使用V（r）上的一组代理令牌D来解码3D对象a：

Gaussians的稀疏地图构建。与高斯的3D检测表示类似，我们采用一组映射标记M来表示语义建图。我们关注三类地图元素（即车道分隔线、道路边界和人行横道）。

运动预测。运动预测模块通过预测其他交通参与者的未来轨迹来辅助自车轨迹规划。我们通过使代理令牌D通过交叉关注层CA与地图令牌M交互来获得运动令牌Mo：

高斯流用于场景预测。此外，它表明中间表示r的场景预测在端到端自动驾驶中起着重要作用。我们根据当前的高斯表示$r^T$和预测的自车轨迹$w^{T+N}$，将未来的高斯表示预测为高斯流$r^{T+N}$：

对中间高斯表示的未来占用的监督保证了场景预测能力，最终提高了自车轨迹预测的性能。

End-to-End GaussianAD Framework

本节介绍GaussianAD的整体端到端框架。我们首先用一组均匀分布的3D高斯G0初始化场景，然后通过合并周围视图图像o的信息来逐步细化它们，以获得高斯场景表示r。然后，如果相应的标注可用，我们可以从r中提取各种场景描述d作为辅助任务。具体来说，我们使用高斯到体素飞溅来获得密集描述的密集体素特征（例如，3D占用预测），并使用完全稀疏卷积来获得稀疏描述的稀疏查询（例如，三维边界框、地图元素）。辅助感知监督的使用引入了场景表示r的额外约束和先验知识，以指导其学习过程。尽管如此，我们还是直接在3D高斯模型上预测未来的演变，以减少信息损失，并相应地规划自车轨迹{w}。GaussianAD通过稀疏但全面的3D高斯表示在整个模型中传递信息，为决策过程提供更多知识。我们的GaussianAD的总体框架如下：

对于训练，我们自适应地对从r中提取的场景描述d施加不同的感知损失：

由于3D高斯分布的显式表示，我们可以使用全局仿射变换来模拟在某个给定的自车位置w处观察到的场景表示r。在用提出的高斯流获得预测的未来场景表示后，我们使用计划的航路点来模拟未来的自车场景表示：

预测的未来自车场景表示也取决于计划的轨迹${w}^F$如（10）所示。因此，除了传统的轨迹损失外，我们还采用预测损失（11）进行规划：

所提出的GaussianAD是一个灵活的框架，可以适应具有不同可用监督的各种情况，如图3所示，总体目标如下：

对于推理，GaussianAD使用3D高斯表示实现端到端驱动，以在整个流水线中有效地传递信息。它为决策过程提供了全面的知识，并通过稀疏计算保持了高效率。

实验

结论

本文基于视觉的端到端自动驾驶提出了一个以高斯为中心的框架。为了保留更全面的信息，我们采用3D高斯作为场景表示，并采用高斯流来有效地预测未来的演变。我们的框架提供了灵活性，可以容纳具有各种注释的不同训练数据。我们对广泛使用的nuScenes进行了广泛的实验，并在各种任务上展示了具有竞争力的性能，包括端到端规划和4D占用预测。探索基于用更多样化数据训练的3D高斯场景表示的大规模端到端模型是很有趣的。

#V2XPnP

加利福尼亚大学最新！V2XPnP：多智能体V2X时空融合新方案

V2XPnP的算法概览

V2X 技术为缓解单一车辆系统在观测能力上的局限性提供了一个有前景的范式。之前的研究主要集中在单帧协同感知上，该方法融合了来自不同空间位置的智能体信息，但忽略了时间线索和时间相关任务（例如，时间感知和预测）。本文聚焦于V2X场景中的时间感知和预测任务，并设计了单步和多步通信策略（即何时传输），同时考察了这两种策略与三种融合策略——早期融合、后期融合和中间融合（即传输什么信息）的结合，并提供了与各种融合模型的综合基准（即如何融合）。此外，本文提出了V2XPnP，一个新的中间融合框架，适用于单步通信中的端到端感知和预测。本文的框架采用统一的基于Transformer的架构，有效建模跨时间帧、空间智能体和高清地图的复杂时空关系。本文还引入了V2XPnP序列数据集，该数据集支持所有V2X协作模式，并解决了现有现实世界数据集的局限性——这些现有数据集仅支持单帧或单模式的协作。大量实验表明，本文的框架在感知和预测任务中均优于现有的最先进方法。

论文链接：https://arxiv.org/pdf/2412.01812

主要贡献

本文提出了V2XPnP，一个V2X时空融合框架，采用了一种新颖的中间融合模型，适用于单步通信。该框架基于统一的Transformer架构，集成了多种注意力融合模块，用于V2X时空信息的融合。
本文引入了首个大规模现实世界V2X序列数据集，涵盖多个智能体和所有V2X协作模式（即VC、IC、V2V、I2I），包括感知数据、物体轨迹和地图数据。
本文对各种时空融合策略进行了广泛分析，并为所有V2X协作模式下的协同感知和预测任务提供了全面的基准，展示了所提模型在协同时间感知和预测任务中的最先进性能。

方法设计：

自动驾驶系统需要准确感知周围的道路用户，并预测其未来轨迹，以确保安全和互动驾驶。尽管在感知和预测方面已有一些进展，但单一车辆系统仍然面临感知范围有限和遮挡问题，这影响了驾驶性能和道路安全。因此，V2X技术作为一种有前景的范式应运而生，能够让联网自动驾驶车辆（CAVs）和基础设施共享互补信息，减少遮挡，从而支持全面的环境理解。

尽管V2X技术具有潜力，现有的研究主要集中在逐帧协同检测，该方法聚合来自不同空间位置的智能体信息。然而，这些研究忽略了跨序列帧的时间线索，而这些线索对于定位之前可见但当前未检测到的物体[44]以及预测物体未来轨迹[29]至关重要。V2X在增强这些时间相关任务，特别是在协同时间感知和预测方面的潜力，仍然很大程度上未得到探索。本文旨在解决多智能体协作中的关键问题：（1）应传输什么信息？（2）何时传输？（3）如何跨空间和时间维度融合信息？为了回答“应传输什么信息”，本文扩展了单帧协同感知中的三种融合策略（即早期融合、后期融合和中间融合），以涵盖时间维度。关于“何时传输”，本文引入了单步和多步通信策略，以捕捉多帧时间信息。至于“如何融合”，本文对各种时空融合策略进行了系统分析，为所有V2X协作模式下的协同感知和预测任务提供了全面的基准。

图1. V2X时序任务及本文的V2X时空融合框架示意图。通过融合时间信息，本文的框架增强了V2X通信，支持超越单帧感知的端到端感知和预测。

在这些策略中，本文提倡在单步通信中使用中间融合策略，因为它有效地平衡了精度和增加的传输负载之间的权衡。此外，它能够传输中间时空特征，使其非常适合端到端的感知和预测，支持跨多个任务的特征共享，并减少计算需求，如图1所示。基于这一策略，本文提出了V2XPnP，一个V2X时空融合框架，利用统一的Transformer结构进行有效的时空融合，涵盖时间注意力、自空间注意力、多智能体空间注意力和地图注意力。每个智能体首先提取其跨帧和自空间特征，这些特征可以支持单车感知和预测，同时减少通信负载，然后多智能体空间注意力模型将单智能体特征在不同智能体之间进行融合。

另一个挑战是缺乏涵盖多种V2X协作模式的现实世界序列数据集。在V2X场景中，车辆和基础设施作为主要智能体，协作模式包括车对车（V2V）、车对基础设施（V2I）和基础设施对基础设施（I2I）。大多数现有数据集是非序列型的，局限于单一协作模式，且仅关注单帧协同感知，缺乏对时间相关任务的支持。为弥补这一空白，本文引入了首个大规模现实世界V2XPnP序列数据集，该数据集包含四种智能体，并支持所有协作模式。该数据集包括100个以车辆为中心（VC）的场景和63个以基础设施为中心（IC）的场景，具有时间一致的感知和轨迹数据，共计40k帧，并提供来自24个交叉口的点云和矢量地图数据。

图2. 不同V2X融合策略在感知和预测中的示意图。

(a) 传输什么信息：早期融合、中间融合和后期融合，分别传输原始传感器数据、中间BEV特征或边界框。
(b) 何时传输：多步通信和单步通信。

中间融合的时空特征使其成为端到端感知和预测的自然选择。因此，本文提出了一个统一的端到端感知和预测框架，用于跨时空维度执行多个任务。整体V2XPnP框架如图3所示，包括六个组件，本文将对其进行详细展开。时空融合模型的详细内容请参见第3.3节。值得注意的是，V2XPnP中的每个模块都是模块化的，便于替换。

图3. V2XPnP框架和多智能体时空融合模型。该框架包含用于特征提取、融合和解码的各个组件。在本文的融合模型中，引入了多种注意力机制以增强融合过程。

本文提出了基于统一Transformer架构的时空融合。所提模型由三个模块组成：时间注意力、自空间注意力和多智能体空间注意力，如图3所示，以及两个核心融合模块。

(1) 多帧时间融合：每个智能体首先通过迭代的时间注意力和自空间注意力提取其时空特征。
(2) 多智能体空间融合：通过V2X获取来自多个智能体的丰富BEV特征，然后通过迭代的多智能体空间注意力和自空间注意力进行融合。

本文提出了V2XPnP-Sequential数据集，这是首个大规模、现实世界的V2X序列数据集，涵盖多个智能体和所有协作模式。该数据集包含100个场景，每个场景跨越95到283帧，采样频率为10 Hz。数据集包括来自CAV感知的两种数据序列（点云和相机图像）和来自基础设施感知的两种数据序列，如图4(b)所示。本文还为所有采集区域提供了相应的矢量地图和点云地图，如图4(c)所示。数据集包含十个物体类别，每个类别的平均轨迹长度和频率如图4(d)所示。关于数据标注、轨迹和地图生成的更多细节，请参见补充材料。

图4. V2XPnP序列数据集示意图。

(a) V2X数据采集系统；
(b) 序列LiDAR和相机数据；
(c) 数据采集区域和矢量地图；
(d) 每类3D跟踪物体的总数量和平均跟踪长度。

实验结果：

图5. 不同融合模型在测试集上的定性结果。V2XPnP表现出更好的感知和预测结果。

表1. V2XPnP序列数据集（V2XPnP-Seq）上协同感知和预测模型的基准结果。

表2. 单步通信和多步通信的比较；粗体值表示在延迟和噪声环境下的结果。

表3. V2XPnP模型的消融实验结果。

总结：

本文提出了V2XPnP，一种用于协同时间感知和预测的新型V2X时空融合框架。该框架的核心是一个基于统一Transformer模型的时空融合和地图融合机制。此外，本文探讨了关于“传输什么信息”、“何时传输”和“如何融合”的不同融合策略，并提供了全面的基准。本文还引入了V2X Sequential数据集，该数据集支持所有V2X协作模式。大量实验评估结果表明，所提框架具有优越的性能，证明了其在推进V2X支持的协同时间任务中的有效性。未来的工作将集中于开发更有效的融合模型和自适应通信策略，以动态优化带宽利用率。

#无人驾驶生死簿

一家极越折戟，多家头部车企销量大降超20%……

100亿入场无人驾驶后，急流勇退？

12月10日，美国通用汽车公司宣布计划重新调整其自动驾驶战略，优先开发高级驾驶辅助系统，通用汽车也将不再为Cruise的自动驾驶出租车开发工作提供资金。

通用汽车打算将其控股公司 Cruise 和通用汽车技术团队合并，同时 Cruise 自动驾驶汽车部门将退出无人驾驶出租车（robotaxi）业务。

而，此前通用汽车已向Cruise投资超过100亿美元。

吉利汽车的“喜”与“忧”？

近期，吉利宣布，其银河系列全系产品将搭载 Flyme Auto，2025年第一季度银河所有车型都将免费升级 Flyme Auto 车机系统。

Flyme Auto 是星纪魅族与吉利汽车联合打造的智能座舱系统。

而其搭载 Flyme Auto 的银河 E5 在上市119天就达成了6万辆交付，吉利星愿上市的49天交付超3万辆。

最近，「倒闭圈」热度最高的极越汽车，其前身是集度汽车有限公司，正是由吉利控股与百度控股于 2021 年 3 月共同投资设立。

极越，百度、吉利对近日风波发联合声明

上周智驾领域热榜话题，自然是非「极越」莫属了。

12月13日，吉利和百度针对极越汽车近日的解散风波一事发表关于联合声明。声明称，作为股东，吉利和百度将积极协助集度管理层妥善处理相关事宜，内容包括：

1、第一时间解决员工社保缴纳、离职员工问题；

2、维护用户车辆正常使用、售后和维修保养；

3、推进其他事宜的合理合法解决。

据了解，吉利和百度内部已在12日晚间走完转账流程，为极越员工缴纳11月社保。

声明中还提到，极越汽车产品由吉利工厂制造，授权集度独家运营。

由于行业竞争格局发生巨大变化，既定商业计划无法执行，经营遇到了挑战。

小马智行与广汽埃安合作Robotaxi

12月11日，小马智行与广汽埃安举行Robotaxi战略合作签约仪式。

根据协议，双方将基于埃安全球车型和小马智行第七代自动驾驶软硬件系统方案，共同研发全冗余前装量产Robotaxi车辆平台。

其中首批将在2025年完成，并将率先在大湾区落地。

宁德时代合作Stellantis成立合资公司

12月10日，宁德时代与Stellantis共同宣布，双方已达成协议，拟联合在西班牙出资成立合资公司。

并以合资公司为主体，在西班牙阿拉贡自治区萨拉戈萨市建设一座大型磷酸铁锂电池工厂。

根据宁德时代公告，合资公司注册资本为24.22亿欧元，其中CATL卢森堡出资50%，STLA西班牙和STLA法国分别出资40%与10%，合资公司由宁德时代控股。

理想超充站累积上线数突破1200座

12月11日晚，理想汽车宣布，第1200座理想超充站上线。

此前，在12月5日，理想汽车宣布，全国理想超充站突破1100座，相当于一周左右就又增加了100座超充站。

Mobileye 将使用 Innoviz 激光雷达

12月11日，汽车辅助驾驶系统供应商Mobileye Global（Mobileye）与高性能车规级激光雷达传感器和感知软件供应商Innoviz Technologies（Innoviz）在一份联合声明中表示：

Mobileye将在其提供给汽车制造商的自动驾驶系统中，使用Innoviz LiDAR（激光雷达）。

当前，Mobileye正寻求从车企更广泛地部署自动驾驶汽车中获利。

2024年中国汽车产销有望超3000万辆

11月，中国汽车产销分别完成343.7万辆和331.6万辆，环比分别增长14.7%和8.6%，同比分别增长11.1%和11.7%。

中国汽车工业协会专务副秘书长许海东表示：

预计2024全年国内汽车销量将达到3100万辆规模，其中，新能源汽车有望达到1300万辆。

小米SU7 Ultra以及YU7明年发布上市

12月9日，雷军在短视频平台发布视频称，小米SU7 Ultra将在明年3月发布，还有最后几个月的时间，要紧锣密鼓地改进、完善更高的品质。

此外，雷军还透露，小米SU7 Ultra小订用户的驾驶培训项目也在准备着，预计马上就会有报名信息。

而小米汽车第二款车型——小米YU7，预计明年六七月正式上市。

同一时间，雷军还表示，小米汽车希望YU7测试车可以尽早拆除重伪装。

“有助于我们做更全面、更细致的长时间、大规模测试，来确保产品质量，做出更好的产品。”

小鹏P7+上市四周累计交付突破1万台

12月11日，小鹏汽车宣布，旗下的P7+车型在上市四周时间内，完成10000台交付。

此前，在三季度例行财报电话会议上，何小鹏表示，目前正与供应商一起扩大产能，预计 P7+在12月份交付量将突破万辆。

他认为，小鹏汽车第四季度销量有望再创新高。

12月首周销量榜：小鹏、问界大降

经历了11月最后一周的大涨后，12月首周中国新能源头部品牌销量下滑。

小鹏、问界、极氪、吉利、小米、比亚迪周销量环比下滑超10%。

其中小鹏和问界销量大降超20%，零跑销量环比下滑7.6%，再次超越销量环比大降26%的小鹏，位居新势力榜第二。

而深蓝销量上涨7.9%，首次超越销量大降22%的问界，进入榜单前五。

除深蓝销量上涨外，理想、智界、五菱销量均实现不同程度的上涨。

特斯拉销量环比增幅最大超17%。

#自动驾驶的窗口，已经对百度关闭？

可能很多人不知道，在百度内部推动了十余年，前后投入1000多亿人民币的自动驾驶业务，事实上只有唯一的一个整车自动驾驶客户——和吉利合资的极越汽车，而这个品牌也在上周宣布倒闭。

在所有中国公司中，百度可以说是最早看到自动驾驶机会的。在大部分人还搞不清楚L2、L3、L4级别自动驾驶是什么区别时，百度已经开始大量从美国挖人并且投重金开始研发自动驾驶。得益于从谷歌X（Waymo）和特斯拉FSD等部门挖来的专业人才，以及特斯拉不断将自己的FSD技术进行开源，百度在中国自动驾驶市场起了个大早。

但十多年下来，百度智能驾驶事业群却成了中国自动驾驶产业的黄埔军校和练兵场。比如彭军是小马智行的联合创始人兼 CEO ，以前在百度美国研究院做主任架构师。楼天城是小马智行的创始人兼 CTO ，被称作“世界上最好的编程者之一”，之前在百度无人车当首席架构师。韩旭是文远知行的创始人兼 CEO ，曾经在百度自动驾驶事业部当首席科学家。余凯是地平线的创始人兼 CEO ，过去在百度深度学习研究院任常务副院长。

有人统计过，离开百度的自动驾驶大牛，自主创业或者担任其他企业高管的多达50余人，分布在这个方向上：1. 整车自动驾驶的开发 2. L4 级自动驾驶的解决方案 3. 量产智能驾驶的解决方案 4. 智能汽车芯片 5. 车路协同的方案。其中，专注于智能驾驶芯片和方案的地平线，专注无人驾驶和智驾方案的小马智行、文远知行，这三家公司都已经成功上市，相关的待上市的相关公司则更加多。

可以说，百度以超前的眼光和一己之力培育孵化了大半个中国自动驾驶市场，但百度自己呢？

整车厂商采用百度智能驾驶系统的几乎没有，唯一的客户，百度自己投资的极越汽车，却因为管理不善而濒临死亡。

但比百度启动晚很多年的华为智驾，却很快崛起。短短几年，除了之前风生水起的赛力斯问界系列，目前深度绑定华为智驾系统的整车品牌已经有奇瑞智界、江淮尊界、北汽享界等。采用华为智驾系统的车型有东风日产的中大型纯电轿车 N74 、比亚迪方程豹豹 8 车型，长安阿维塔的很多款车型。以及上汽、一汽奥迪、广汽传祺都在使用华为的高阶智驾技术。在这个方向上，百度已经完败给华为。

整车不行，就看无人驾驶的另外一个赛道——无人出租车业务，百度在这个方向的状况稍好一点，百度的“萝卜快跑”无人驾驶出租车服务已经在 11 个城市开放了载人测试运营服务，而且还在北京、武汉、重庆、深圳、上海开展了全无人自动驾驶出行服务的测试。

但未来最大的不确定性，是萝卜快跑能抵得过特斯拉的入局么？

目前已经很明确，特斯拉的全自动驾驶（FSD）要在中国落地，2024 年7月24日，马斯克也在财报业绩会上讲，特斯拉会在欧洲和中国申请监管批准，来实施监督下的FSD。这一行动有望在2024年年底获批，也就是说，特斯拉的入局近在咫尺。有消息称，和百度合资的吉利汽车，正在和特斯拉沟通，在其整车上采用FSD。

和FSD绑定在一起的是无人出租车业务（Robotaxi），马斯克为了这个业务还将推出一款只有两个座位的全新特斯拉汽车，搭载FSD后蹦跑在大街小巷，为消费者提供“滴滴”服务。特斯拉这项业务未来也很有可能在中国申请通过监管。

届时，百度的萝卜快跑能扛住特斯拉Robotaxi带来的挑战吗

#RoboMatrix

The more things change, the more they stay the same.

机器人现有的策略学习方法主要采用以任务为中心的范式，必须端到端地收集任务数据。然而，基于该范式建立的策略在处理新任务时往往会失败，这是由于缺少新任务的演示数据。此外，对于具有多个阶段的复杂任务，该范式很难对机器人的执行错误进行定位，进而导致策略快速迭代的困难。为了应对上述挑战，来自早稻田大学、北京理工大学和旷视研究院的团队提出了RoboMatrix，一个以技能为中心的层级化框架，用于机器人可扩展的任务规划和执行。该框架首次引入了一种以技能为中心的全新范式，从开放世界里丰富的复杂任务中提取机器人可执行的元技能，该范式允许机器人从以技能为中心的具体化演示中学习元能力，通过将复杂任务规划成可执行的元技能序列来完成开放世界的丰富任务。RoboMatrix层级化框架可解耦为三个相互关联的层：高级模块化调度层、中级技能层、底层硬件层。实验结果表明，以技能为中心的范式在新对象、场景、任务和机器人中取得了显著的泛化性能。该框架为开放世界中机器人的任务规划和执行提供了一种新颖的解决方案。项目详情见主页：https://robo-matrix.github.io/

介绍

当前基于视觉-语言-动作模型的机械臂操作策略主要遵循以任务为中心的范式，该范式将单个完整的复杂任务视为一种技能，要求机器人的演示数据是一次性收集的，这将导致机器人以端到端的方式学习复杂策略，高度依赖于完整的任务数据。该范式存在以下三个缺点：

数据收集效率低：许多复杂任务通常涉及多个阶段，单次演示往往需要很长时间。
对新任务的泛化能力差：该范式难以生成新的动作序列，因为新任务未包含在训练数据中。这限制了视觉-语言-动作模型在新任务和新环境中的可扩展性和适应性。
难以定位推理错误：由于端到端学习的黑盒特性，难以区分和定位错误出现的阶段。

为了解决以任务为中心的学习框架中的问题，我们引入一种全新的以技能为中心的范式，并提出一种层级化框架，称为RoboMatrix。我们从不同的复杂任务中提取共通的元技能，以构建与机器人相关的技能矩阵，这些元技能通过一个统一的视觉-语言-动作模型和多个混合模型进行学习。以该范式为基础，机器人可以通过在技能矩阵中进行动态路由来完成丰富的开放世界任务。

RoboMatrix中以技能为中心的方法提供了更强的可解释性，从而更容易识别和定位系统错误。当某个特定技能表现不佳时，我们的方法只需要有针对性地补充该技能的演示数据，无需像以任务为中心的范式一样，对复杂的任务进行完成的数据采集，可以实现性能表现的快速提升。通过技能的不同组合，RoboMatrix在开放世界场景中实现了更好的泛化能力。综上所述，我们的核心贡献可以总结为：

我们提出了一种以技能为中心的层级化框架，用于在开放世界场景中进行可扩展的机器人任务规划与任务执行。
我们提出了一种新颖的统一视觉-语言-动作模型，该模型能够实现机器人移动和操作动作的同步输出。
我们的框架在四个维度下展现出了极强的泛化能力：新物体、新场景、新任务和新机器人。

以技能为中心的范式

由于开放世界中的任务种类繁多，为每个独立的任务分别采集数据是不切实际的。每当一个新任务被设立时，采集特定任务的数据既费时又费力。面对开放世界中无尽的任务种类，我们自然而然地想到：能否从不同的任务中提取一些不变的元素？由于我们引出了元技能的概念。

具有不同模态的机器人可以执行不同的任务，而具有相同模态的机器人可以应用于多种场景。事实上，不同的任务往往共享一些共通的元技能，而这些元技能不仅适用于多种场景，而且其集合是有限且可枚举的，在图2中我们展示了构建以技能为中心的方法的流水线。我们从多样的机器人任务中提取出可共享的相似元素，将这些元素定义为元技能并存储在技能列表中，比如移动、操作和抓取。

为了获取元技能，我们通常根据特定技能对任务数据进行分段，然后将相似的技能分组并定义为元技能。例如，在移动方面，机器人能够移动到盒子、抽屉或其他物体，这些技能被整合成一个标记为“移动到物体”的单一元技能。

层级化框架

如图4所示，RoboMatrix以文本或音频的格式作为任务描述的输入，音频会通过语音转文本模块转换为文本格式。整个框架分为三个层级：

模块化调度层：系统的高级规划器，负责将复杂任务分解为有序的子任务序列，并根据机器人的技能列表将这些子任务依次添加到执行队列中。在执行子任务之前，执行检查器通过基于机器人的环境观察，确定待操作或抓取的物体是否出现在场景中，从而验证子任务是否可执行。
技能层：将子任务的描述映射为机器人动作，使用混合模型或视觉-语言-动作模型来完成此映射。动作包括一个停止信号，用以判断当前子任务是否完成。
硬件层：管理机器人的控制器和状态观测器，其中控制器将动作转化为控制信号，状态观测器则实时更新机器人的状态和图像。

模块化调度层

我们开发了一个基于生成式预训练Transformer的任务规划智能体，将复杂任务分解为子任务序列，并根据来自技能模型的观测和反馈来规划它们的执行，以确保整个任务序列的正确和高效的执行。如图3所示，该层级包含一个技能列表，存储了用于各种元技能的提示集合。智能体根据任务描述和元技能列表生成一系列可顺序执行的子任务。如果分解过程中产生了新技能，这些技能将经过人工精炼并添加到元技能列表中以供未来复用。

除此之外，我们开发了一个基于开放词汇物体检测器的执行检查器，确保每个子任务在当前条件下是可执行的，从而提高任务执行的整体效率和成功率。例如，考虑一个子任务：“移动到红色可乐罐”，执行检查器首先从中提取出对象名称：”红色可乐罐“，并将对象名称和机器人观测图像发送给Grounding DINO进行检验，若在图像中可以检测到该对象，技能层才会被激活，否则任务将被中断。

技能层

根据不同技能的特点，技能模型主要包括视觉-语言-动作模型和混合模型，前者主要用于处理移动操作任务，而混合模型则用于执行射击、搜索和攀爬等任务。

我们的视觉-语言-动作技能模型基于Decode-only的大语言模型（Vicuna 1.5），该模型是基于LLaMA 2训练的。使用CLIP-Large作为视觉编码器，其输入尺寸为336x336像素，通过两层线性层进行视觉嵌入投影。整个模型将图像和技能提示作为输入，并生成离散动作。为了保持大语言模型输出的更高稳定性，我们按照RT-2中提到的做法，将连续的动作投影到离散的区间中。通过对收集的多机器人数据进行全面的统计分析，我们将离散区间的最优数量设定为256。值得一提的是，我们为了避免破坏原始词汇表，我们添加了256个特殊词汇，而不是和RT-2一样将256个使用频率最低的词汇覆盖掉。我们的离散动作分为7个维度，每个维度包含256个区间，如下式所示：

其中，𝜖表示停止信号，用于判断单个技能操作是否完成；Δ𝑋,Δ𝑌,分别表示在现实世界地面平面上X-Y位置和旋转角度的变化；,分别表示机械臂末端执行器的位置；𝜙是夹爪的开合状态。

为了实现多模态对齐，我们使用了LLaVA 1.5中预训练的视觉嵌入投影。在机器人领域的对齐过程中，我们冻结了视觉编码器，同时打开了投影层和LLM。我们使用来自网页数据的多模态文本-图像数据和我们粗略采集的图像-动作数据进行联合微调。我们利用了来自技能数据库的约60K视觉-动作指令调优数据，这些数据是经过了精细标注的。在模型训练过程中，我们解冻了所有参数，包括视觉编码器。

硬件层

硬件层基于ROS2设计，是多机器人并行执行实时任务的基础，其去中心化的特性使得机器人能够在无需依赖主节点的情况下，在其自身模块内或多个机器人之间建立直接通信。通过这种通信特性，所有机器人连接到同一局域网，而技能VLA模型的推理任务则在基于云的服务器上执行。因此，机器人与服务器之间的通信机制类似于客户端-服务器模式，机器人充当客户端。具体来说，机器人需要通过特定协议将观察数据（例如图像）发送到云服务器，并请求相应的动作响应。此外，控制器采用类似于发布-订阅模型的机制，控制器通过将动作值转换为控制信号来管理机器人，并将这些信号直接映射到机器人模块，按照主题进行分配。

实现细节

我们使用大疆RoboMaster系列机器人作为RoboMatrix的物理平台。不同模态的机器人可以通过特定的网络通信协议连接到一台计算机上，从而允许RoboMatrix同时控制多个机器人。我们在ROS 2框架内重新组织了RoboMaster的开源API，以实现更灵活的分布式控制和更高效的技能模型调度。通过简单地更改控制信号源的映射，可以切换控制模式，从而实现通过Xbox控制器进行遥控操作和通过技能模型进行自主控制。

我们从大约5000个高质量人类演示的长程任务中提取了八个技能的数据，采用了基于规则和人工标注相结合的方法，并确保两者的适当比例。图5展示了我们VLA模型的八个元技能，每个技能可以独立执行，也可以组合执行以完成长程任务。我们确保每个技能在各个维度上都有足够的多样性和全面性，这些维度包括物体类别、外观、位置、机器人初始状态和场景复杂度。我们还对原始数据中的机器人状态观察噪声进行了过滤，确保数据在各维度上呈现均匀分布。此外，我们将这5000条演示整理成了完整的数据集，从完整数据集中，我们选取了涵盖5种不同技能的200条演示，创建了一个小型数据集。除非另有说明，所有消融实验默认在该小型数据集上进行。

我们对每个技能的停止帧应用数据增强，以确保停止信号输出的稳定性。这些停止帧被复制，以在整体技能数据中达到适当的比例。

我们使用了8个80GB内存的A100 GPU训练VLA技能模型，并采用了96的patch大小。在推理阶段，VLA模型仅在单个A100 GPU上运行。为了实现高效的部署，我们实现了一个远程VLA推理服务器，使得机器人能够进行实时动作预测，从而无需依赖本地计算资源进行控制。在所有训练阶段，VLA模型仅训练了1个epoch。此外，对于对齐和SFT（监督微调）训练，我们使用了2e-5的学习率和0.01的预热比例，遵循LLaVA-1.5的配置。

单个元技能性能表现

我们对VLA模型进行了八个元技能的全面评估，除非另有说明，本文中的所有实验默认进行了10次测试。如图6所示，针对已见物体和已见场景的结果展示了我们技能模型的强大性能，针对未见物体和未见场景的强大表现进一步验证了我们技能模型的泛化能力。大多数技能在应用于未见场景时相比已见场景表现略有下降。然而，对于“释放<物体>”和“放置<物体>”这两个技能，我们的VLA模型在未见场景中的表现与已见场景中的表现相当。

泛化性

我们选择了“将粉色立方体放入白色盒子中”作为基本任务，用以评估VLA在不同泛化水平下的表现。

基于VIMA，我们引入了一个5级泛化评估协议，如图7所示。由于在开放世界环境中进行评估的复杂性，我们的指标主要评估物体和场景的泛化能力。等级1-2代表物体泛化的难度；等级3作为过渡，等级4-5对应场景泛化。难度从等级1到等级5逐渐增加。等级4-5主要评估物体泛化，它们之间的区别基于物体识别的难度；而等级3-5则侧重于场景泛化，它们的区别主要取决于场景的复杂性。

在表1中，我们展示了任务中心方法与我们基于技能的VLA模型在小型数据集和完整数据集上的泛化性能比较。对于较简单的等级，我们的基于技能的方法略微优于任务中心方法；而在更具挑战性的等级上，我们的基于技能的方法则显著超过了任务中心的对应方法。这些结果表明，基于技能的方法在处理困难和长时程任务时具有明显的优势。

如图8所示，我们进一步验证了基于技能的方法在任务层面和体现层面上的泛化能力。

我们在两种类型的长程任务上进行了实验，每个任务都要求执行十个元技能，同时控制场景和待操作的物体。此外，我们还将训练好的模型从EP机器人直接部署到S1机器人上，执行障碍物穿越和射击任务。尽管任务具有较高的复杂性，我们的基于技能的方法在任务1和任务2上分别达到了40%和50%的成功率，如表3所示。进一步地，我们的方法在迁移到新机器人时也达到了20%的成功率。

消融实验

预训练

在表2中，我们展示了三种实验设置，旨在证明对齐训练的必要性和重要性。“w/o Pretrain”设置指的是仅对机器人数据进行监督微调（SFT）的VLA模型，没有进行任何对齐训练。“w/ web pretrain”设置使用LLaVA-665K数据集进行多模态对齐训练。“w/ Robotics Pretrain”设置则是在LLaVA-665K和机器人技能数据的共同微调之后进行SFT。表中的结果清晰地表明，多模态对齐训练是非常有效的，而在机器人领域内的对齐进一步提升了性能。

模型大小

在大语言模型领域，增大模型参数通常意味着更强的泛化和理解能力。表4展示了这一原则在VLA模型中的适用性。除了模型大小外，所有其他实验设置（包括对齐训练和监督微调（SFT））在不同模型之间保持一致。更大的13B模型在所有任务中始终取得了更高的成功率，尤其是在未见场景和需要长时程规划的任务中表现尤为突出。

长程任务

表5展示了关于不同难度级别的长时程任务的消融实验。一般来说，随着任务时程的增加，任务的难度也随之上升。对于简单任务，任务中心方法和基于技能的方法在成功率上相当。然而，对于中等难度的长时程任务，基于技能的方法比任务中心方法提高了20%，而在困难任务中，这一性能差距进一步扩大，达到了40%。因此，随着任务时程的增加，基于技能的方法在长时程任务中的优势变得更加明显

结论

在本研究中，我们提出了一种面向可扩展机器人任务规划和执行的基于技能的层次化框架，旨在解决在复杂场景中对适应性强且高效的机器人控制的需求。我们框架的一个关键创新是一个统一的视觉-语言-动作（VLA）模型，专为运动和操作设计，能够将运动和操作输出整合，从而实现多样化的机器人动作。此外，我们的框架在多个维度上展现了强大的泛化能力，包括物体、场景、任务和多机器人泛化，凸显了其适应性和在多种应用中的潜力。综合来看，这些贡献代表了在可扩展和通用机器人自主性方面的重大进展。

#Stag-1

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

近年来，随着自动驾驶在感知、预测和规划方面取得的重大进步，端到端算法网络也取得了重大进展。随着现如今这些技术的飞速进步，自动驾驶汽车的全面测试和验证也变得越来越重要。然而，真实世界的车辆测试仍然耗时、费用昂贵，并且场景的覆盖范围也非常有限。

现在，主流研究越来越依赖仿真软件进行广泛的算法测试和验证。然而，基于 3D 建模的仿真难以准确复制真实的驾驶场景，从而导致合成环境与现实世界之间存在巨大的差距。为了解决这个问题，当前的自动驾驶测试解决方案力求构建高度逼真的场景来验证驾驶算法。随着文本到图像和文本到视频生成模型的快速发展，一些研究集中于生成轨迹可控的图像或视频来模拟自动驾驶场景，并以地图和周围车辆位姿为指导，以提高场景的准确性。然而，现实世界的驾驶涉及不断移动的行人、车辆和物体，这些都会给环境带来结构性的变化。视频生成方法通常难以捕捉这些动态变化或元素之间的密切相互作用，从而导致场景连续性不一致，例如背景和车辆类型变化，这使保持时序一致性变得非常复杂。

最近，基于 NeRF 和 3DGS 的方法旨在通过渲染和建模 3D 场景来更精确地捕捉动态元素。尽管如此，这些方法在从任意视角重建 4D 场景、处理具有显著相机移动的广泛动态视图变化以及管理静态视图下的长期时序变换方面仍然面临挑战。

针对上述提到的相关挑战，为了实现更真实的自动驾驶测试，我们提出了一个基于真实世界自动驾驶场景的可控 4D 模拟框架，称之为Stag-1。

经过大量的多级场景训练后，我们提出的Stag-1可以从任何需要的视角进行仿真，并且可以在静态的时间和空间条件下实现对于场景演变的深入理解。与现有方法相比，我们的方法在多视角场景一致性、背景连贯性和准确性方面表现出色，并为现实自动驾驶模拟的持续进步做出了贡献。

论文链接：https://arxiv.org/pdf/2412.05280

网络模型的结构&技术细节

4D Autonomous Driving Simulation

生成式4D自动驾驶仿真旨在解决传统自动驾驶仿真场景缺乏真实感的问题，并克服图像生成模型在场景质量和控制能力方面的限制。

形式上来看，生成式 4D 自动驾驶仿真会根据真实世界场景和一组控制信号生成一个场景，如下公式所示。

传统的方法通常需要控制信号，比如车辆的连续轨迹、油门的位置、转向角以及周围车辆的实际位置以及BEV图，从而实现控制场景。这一过程可以用下面的公式进行表述。

然而，传统的方法往往不能有效捕捉场景中真实的时间和空间关系，导致生成的场景出现时间跳跃和可控性不足的问题。因此，我们需要探索4D场景点云重建，以便使用生成模型实现真实的场景理解和高质量的图像生成。该方法结合4D点云、相机参数和时间信息，利用生成框架有效捕捉时间和空间的独立变化，实现更自然、更精确的自动驾驶仿真，可表示为如下的公式形式：

通过上述的这种方式，我们就可以生成与控制信号一致的逼真的模拟场景。

为了准确控制场景，我们从当前场景中提取 4D 点云信息，并将点云投影到连续的 2D 图像上从而形成一组关键帧视频。然后，我们使用视频生成网络生成连续、准确、可控的4D自动驾驶仿真场景。

Spatial-Temporal Aligned Reconstruction

生成式4D自动驾驶仿真场景的构建依赖于精确的4D点云数据信息。根据自动驾驶的实际需求，我们采用了如下的三种原则来定义点云的形式。

真实性：4D点云数据必须用真实的参数进行构建，需要知道准确的场景大小和范围，而不仅仅是相对的比例大小。
准确性：场景应精确估计物体的位置和距离，以提高 3D 点云的精度。
一致性：每个场景帧应与车辆或相机的参数保持一致，以保持一致性。

遵循以上提到的这些原则，我们首先估计并使用环视摄像头参数来生成环视 3D 点云数据信息。我们进一步使用自车参数进行点云对齐，并对其进行迭代细化，以构建精确的 4D 点云场景。

单帧的3D点云重建

为了从单帧当中重建3D场景，我们对每一幅图像进行了处理。然后，我们使用相应的相机位姿来获得准确的环视点云。通过组合所有视角的点云，我们得到了在时刻的环视点云，其整体流程可以用如下的公式进行表述。

连续帧4D点云的粗糙对齐

对于每一个时刻的点云数据信息，我们还会采用如下的公式实现连续帧的4D点云对齐。

然后，为了构建完整的4D点云数据，我们在时间戳上对齐4D 点云序列，记作如下的形式。

连续帧4D点云的精修对齐

鉴于3D点云是通过深度估计的方式得到的，缺乏精确的真值，仅基于参数的对齐方式并不能保证完全的对齐精度。因此，我们引入了一种精细对齐方法，该方法通过多次迭代来完善对齐过程。在每次迭代的过程中，旋转和平移都会根据点云对齐误差进行更新，该误差测量了变换点与参考对齐点之间的差异。通过最小化对齐误差来更新变换参数。

通过将此过程迭代应用于每一帧，我们生成一系列的3D点云数据。最后，我们获得对齐的点云，用于支持后续的时空场景解耦。

Point-Conditioned Video Generation

实现时空解耦是自动驾驶模拟的关键方面。然而，现有模型由于结构限制，在单独捕捉场景中的空间和时间变化方面存在着不少的挑战，因此很难在同一环境中将空间和时间进行解耦。为了解决这个问题，我们提出的Stag-1 处理一系列连续的 4D 稀疏点云数据以生成 2D 稀疏关键帧视频，如下公式所示。

时间解耦关键帧

在固定相机位姿的情况下，我们提出了一种有效的时空解耦关键帧建模方法，通过提取每个关键帧的 3D 点云数据并将其投影到 2D 图像中。具体来说，对于每个时间戳，我们选择与当前帧对应的 3D 点云。随后，我们使用相机矩阵以及当前时间戳的旋转矩阵和平移向量来投影每个关键帧的3D点云数据，用于实现获取图像中的稀疏二维点云。

通过这种方法，动态点云数据可以从固定的视点准确地投影到二维图像中。

空间解耦关键帧

在空间解耦关键帧建模中，我们使用对齐的空间信息将当前帧的 3D 点云投影到 2D 图像平面上。通过透视投影，我们将 3D 点云映射到 2D 图像平面。

通过使用对齐的空间信息，我们精确地将当前帧的 3D 点云转换为其 2D 投影。该方法有效地利用了空间信息，将其转换为 2D 点云表示，同时减轻了时间变化对关键帧提取的影响。

4D Spatial-Temporal Simulation

下图展示了我们提出的自动驾驶 4D 生成仿真模型的整体训练框架。具体而言，我们的训练整体过程遵循两阶段的方法：Time-Focused Stage阶段在时间背景下训练单视图场景，而The Spatial-Focused Stage阶段整合环视信息来捕捉空间和时间关系。

The Time-Focused Stage

我们使用奇数帧连续图像作为真值数据，并根据奇数帧的位姿和相机内参将偶数帧 3D 点云投影到图像平面上。

我们通过创建投影的 3D 点云序列及其对应的真实图像来生成配对训练数据。为了提高训练效率，我们将条件信号编码到潜在空间中，并在其中进行优化。为了确保准确对齐和有效的模型学习过程，我们定义了一个自定义损失函数来指导优化过程。损失函数定义如下。

The Spatial-Focused Stage

我们使用与Time-Focused Stage阶段相同的输入方法。为了利用自动驾驶中环视图像之间的重叠信息和交互，我们引入了一种用于跨图像信息交换的注意机制

，如下图所示。

我们的方法捕捉了每帧内不同视角的空间关系，同时也考虑了连续时间步骤之间的时间联系。

实验结果&评价指标

4D重建与合成效果分析

为了评估我们的方法在 4D 重建方面的能力，我们在 Waymo-NOTR 数据集上进行了零样本评估的相关实验，实验结果如下表所示。

通过相关的实验结果可以看出，与现有方法相比，我们的方法在场景重建和新颖视图合成方面表现出色。

对于static-32数据集，我们遵循传统指标，使用 PSNR、SSIM 和 LPIPS 来评估渲染质量，对于动态数据，我们使用 PSNR* 和 SSIM* 来关注动态对象。我们的结果优于其他方法，展示了该模型在零样本条件下的泛化能力及其对静态场景和动态对象进行建模的能力。为了更加直观的展现我们算法的效果，我们也对相关的实验结果进行了可视化，如下图所示。从质量上讲，我们的方法在单目场景重建和多视图合成方面表现出色。