K-Radar:适用于各种天气条件的自动驾驶4D雷达物体检测
文章:K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions
作者:Dong-Hee Paek, Seung-Hyun Kong,Kevin Tirta Wijaya
编辑:点云PCL
代码:https://github.com/kaist-avelab/k-radar
欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。
公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。侵权或转载联系微信cloudpoint9527。
摘要
与使用可见光频段(384∼769 THz)的RGB相机和使用红外频段(361∼331 THz)的激光雷达不同,毫米波雷达使用相对较长波长的无线电频段(77∼81 GHz),从而在恶劣天气条件下实现了强大的测量能力。不幸的是,现有的毫米雷达数据集与现有的相机和激光雷达数据集相比只包含相对较少的样本。这可能会阻碍基于毫米波雷达的感知的先进数据驱动深度学习技术的发展。此外大多数现有的毫米波雷达数据集只提供包含沿多普勒、距离和方位维度的功率测量的3D雷达张量(3DRT)数据。由于没有俯仰角信息,因此从3DRT估算物体的3D边界框具有挑战性。在这项工作中,我们引入了KAIST-Radar(K-Radar),这是一个新颖的大规模对象检测数据集和基准,包含35K帧的4D雷达张量(4DRT)数据,其中包含了多普勒、距离、方位和俯仰角维度上的功率测量,并配有标注的3D边界框标签。K-Radar包括恶劣的驾驶条件,如不同道路结构上的不良天气(雾、雨和雪)(城市、郊区道路、小巷和高速公路)。除了4DRT,我们还提供了经过精心校准的高分辨率激光雷达、周围立体摄像头和RTK-GPS的辅助测量。我们还提供了基于4DRT的对象检测基线神经网络(基线NNs),并展示了高度信息对于3D物体检测的重要性。通过将基线NN与类似结构的基于激光雷达的神经网络进行比较,我们证明了4D雷达是一种在恶劣天气条件下更为强大的传感器。所有代码都可在 https://github.com/kaist-avelab/k-radar 获取。
图2:各种天气条件下的K-Radar数据集示例。每列显示不同天气条件下的(1) 4DRTs、(2) 前视摄像头图像和(3) 激光雷达点云(LPCs)。4DRTs以二维(BEV)笛卡尔坐标系表示。在此示例中,黄色和红色边界框分别代表轿车和公交车或卡车类别。
主要贡献
深度神经网络通常需要从各种条件下收集大量的训练样本,以便它们能够在卓越的泛化性能方面取得显著的成绩。在自动驾驶领域,有许多提供不同传感器模态的大规模数据的目标检测数据集,如表1所示。
为了证明基于4DRT的感知模块的必要性,我们提出了一个直接使用4DRT作为输入的3D对象检测基线神经网络(基线NN)。通过在K-Radar上的实验结果,我们观察到基于4DRT的基线NN在3D对象检测任务中优于基于激光雷达的网络,特别是在恶劣的天气条件下。我们还展示了基于4DRT的基线NN利用高度信息明显优于仅利用BEV信息的网络。此外,我们发布了完整的开发工具包(devkits),包括:(1)基于4DRT的神经网络的训练/评估代码,(2)标定/校准工具,和(3)用于加速4DRT感知领域研究的可视化工具。总的来说,我们的贡献如下:
-
提出了一个新颖的基于4DRT的数据集和基准,即K-Radar,用于3D对象检测。据我们所知,K-Radar是第一个具有多样化和具有挑战性的照明、时间和天气条件的大规模基于4DRT的数据集和基准。通过仔细标注的3D边界框标签和多模态传感器,K-Radar还可用于其他自动驾驶任务,如目标跟踪和里程计。
-
提出了一个直接使用4DRT作为输入的3D对象检测基线NN,并验证了4DRT的高度信息对于3D对象检测的重要性。还展示了基于4DRT的感知在自动驾驶中的鲁棒性,特别是在恶劣天气条件下。
-
提供了devkits,包括:(1)用于基于4DRT的神经网络的训练/评估,(2)标定/校准,以及(3)可视化工具,以加速基于4DRT的自动驾驶感知研究。
图1:FMCW雷达信号处理的概述,以及两种主要数据类型的可视化(即雷达张量(RT)和雷达点云(RPC))。
内容概述
这里描述用于构建K-Radar数据集的传感器配置、数据采集过程以及数据的分布。然后解释了4DRT的数据结构,以及可视化、校准和标注过程。最后展示了可以直接使用4DRT作为输入的3D目标检测基线网络。
K-Radar传感器规格
为了在恶劣天气条件下收集数据,我们安装了五种防水传感器,其符合IP66标准,配置如图3所示。首先将一个4D雷达安装在汽车的前格栅上,以防止由于汽车引擎盖或车顶引起的多径现象。其次64通道长距离激光雷达和128通道高分辨率激光雷达分别位于车顶中心,高度不同(图3-(a))。长距离激光雷达用于准确标记各种距离的物体,而高分辨率激光雷达提供具有宽(即44.5度)垂直视场(FOV)的密集信息。第三立体摄像机分别安装在车辆的前、后、左和右侧,从而产生覆盖360度FOV的四个立体RGB图像,其角度基于自车的视角。最后RTK-GPS天线和两个IMU传感器设置在车辆的后侧,以实现对自车位置的精确定位。
图3:K-Radar传感器套件和每个传感器的坐标系统。 (a)展示了在大雪中行驶5分钟后传感器的状态。由于汽车向前行驶,雪在传感器前方积累,覆盖了前置摄像头镜头、激光雷达和雷达表面,如(a)所示。因此,在大雪天气中,前置摄像头和激光雷达无法获取大部分有关环境的信息。相比之下,雷达传感器对恶劣天气非常强大,因为发射的波能够穿过雨滴和雪花。该图强调了雷达在恶劣天气条件下的重要性,尤其是在大雪天气下,以及考虑恶劣天气条件时传感器放置和额外设计的必要性(例如,在激光雷达前安装雨刷)。 (b)展示了每个传感器的安装位置和每个传感器的坐标系统。
数据收集和分发
大多数在恶劣天气条件下的数据是在韩国江原道收集的,该省份是韩国全国降雪量最大的地区。另一方面,城市环境下的帧大多在韩国大田(Daejeon)收集。数据收集过程产生了包含多模态传感器测量的35K帧数据,构成了K-Radar数据集。此外将数据集分为训练集和测试集,确保每个条件在两个集合中都以平衡的方式出现,如图4所示。
图4:数据在收集时间(夜晚/白天)、天气条件和道路类型上的分布。中央的饼图显示了数据在收集时间上的分布,而左右的饼图分别显示了训练集和测试集在天气条件和道路类型上的分布。在每个饼图的外边缘,我们说明了收集时间、天气条件和道路类型,而在内部部分,我们说明了每个分布中的帧数。
总共K-Radar数据集中有93.3K个对象(轿车、公交车或卡车、行人、自行车和摩托车)在自车纵向半径120米和横向半径80米的范围内行驶,具有3D边界框标签。请注意仅对出现在正纵向轴上,即在自车前方的对象进行注释。 在图5中,我们展示了K-Radar数据集中对象类别和距离自车的分布情况。大多数对象位于离自车60米的范围内,每个0米∼20米、20米∼40米和40米∼60米的距离类别中出现了10K∼15K个对象,并且在超过60米的距离类别中出现了约7K个对象。因此,K-Radar可用于评估针对各种距离的3D对象检测网络的性能。
图5:K-Radar数据集提供的训练/测试拆分中对象类别和到自车的距离分布。在扇形图的外部说明了对象类别名称和到自车的距离,而在扇形图的内部说明了每个分布中的对象数量。
数据可视化、校准和标注过程
与缺乏高度信息的3D雷达张量(3DRT)相反,4D雷达张量(4DRT)是一个密集的数据张量,包含四个维度的功率测量:多普勒、距离、方位和俯仰。然而,密集数据的附加维度在可视化4DRT时会对点云等稀疏数据造成挑战(见图2)。为了解决这个问题,我们通过启发式处理将4DRT可视化为笛卡尔坐标系中的二维热图,如图6-(a)所示,从而在俯视图(BEV-2D)、前视图(FV-2D)和侧视图(SV-2D)中产生了2D热图可视化。我们将这些2D热图集体称为BFS-2D。
图6: (a) 4DRT 可视化过程和 (b) 4DRT 可视化结果。
通过BEV-2D,我们可以直观地验证4D雷达对不良天气条件的稳健性,如图2所示。正如前面提到的,相机和激光雷达的测量在不良天气条件下(如雨、雨夹雪和雪)可能会变差。在图2-(e,f)中,我们展示了在大雪天气条件下,激光雷达对于远距离对象的测量丢失的情况。然而,4DRT的BEV-2D清晰地显示了具有高功率测量的对象在对象的边界框边缘。即使使用了BFS-2D,人类标注者仍然很难识别出现在帧上的对象的形状并准确标注相应的3D边界框。因此,我们创建了一个工具可以在LPC中进行3D边界框标注,其中对象的形状更容易识别。此外,我们使用BEV-2D来帮助标注者在由于不良天气条件而导致激光雷达测量丢失的情况下进行标注。我们还提供了一个用于BEV-2D和LPC逐帧校准的工具,将激光雷达坐标框中的3D边界框标签转换为4D雷达坐标框,校准工具支持每像素1厘米的分辨率,最大误差为0.5厘米。此外介绍的一系列过程精确获取了激光雷达与摄像机之间的校准参数。激光雷达和摄像机之间的校准过程使得3D边界框和LPC能够准确投影到相机图像上,这对于多模态传感器融合研究至关重要,并可用于生成用于单目深度估计研究的稠密的深度图。
基线神经网络(Baseline NNs)K-Radar
我们提供两个基线神经网络来演示 3D 对象检测中高度信息的重要性:
(1) 具有高度信息的雷达张量网络(Radar Tensor Network with Height,RTNH),它使用 3D 稀疏 CNN 从 RT 提取特征图(FMs),以便利用高度信息;
(2) 不具有高度信息的雷达张量网络(Radar Tensor Network without Height,RTN),它使用 2D CNN 从 RT 提取 FMs,不利用高度信息。
图 7: 用于验证基于4DRT的3D对象检测性能的两个基线神经网络。
如图 7 所示,RTNH 和 RTN 都包含预处理、主干、颈部和头部。预处理将 4DRT 从极坐标变换为笛卡尔坐标系,并在感兴趣区域(RoI)内提取 3DRT-XYZ。请注意,我们通过沿多普勒维度取平均值来减小维度。然后,主干提取包含用于边界框预测的重要特征的 FMs。使用 3D Sparse Conv Backbone(3D-SCB)和 2D Dense Conv Backbone(2D-DCB)分别构建 RTNH 和 RTN 的主干。3D-SCB 利用 3D 稀疏卷积,以便将三维空间信息(X、Y、Z)编码到最终的 FM 中。我们选择在稀疏 RT 上使用稀疏卷积(RT 中前 10% 的功率测量值),因为在原始 RT 上进行密集卷积需要大量的内存和计算,这对于实时自动驾驶应用来说是不合适的。与 3D-SCB 不同,2D-DCB 使用 2D 卷积,因此最终 FM 只包含二维空间信息(X、Y)。因此,3D-SCB 产生的最终 FM 包含 3D 信息(带有高度),而 2D-DCB 产生的最终 FM 只包含 2D 信息(不带高度)。
实验
我们展示了基于4D雷达张量(4DRT)的自动驾驶感知在各种天气条件下的稳健性,以便比较基线神经网络(NN)与类似结构的基于激光雷达的NN之间的3D对象检测性能。我们还通过比较具有3D稀疏卷积主干(RTNH)的基线NN和具有2D密集卷积主干(RTN)的基线NN之间的3D对象检测性能,讨论了高度信息的重要性。
实验设置和度量实现细节
使用PyTorch 1.11.0在Ubuntu机器上的RTX3090 GPU上实现了基线NN和PointPillars。我们将批量大小设置为4,并使用Adam优化器和学习率为0.001进行了11轮的网络训练。请注意,我们将检测目标设置为轿车类,该类在K-Radar数据集中拥有最多的样本。在实验中使用广泛使用的基于交并比(IOU)的平均精度(AP)指标来评估3D对象检测性能。
RTN和RTNH之间的比较
在表3中展示了RTNH和RTN之间的检测性能比较。我们可以观察到,与RTN相比RTNH在AP3D和APBEV方面分别提高了7.32%和7.72%。RTNH在AP3D和APBEV两方面都显著优于RTN,表明4DRT中可用的高度信息对于3D目标检测非常重要。
RTNH和PointPillars之间的比较
在表4中展示了RTNH和同样结构的激光雷达检测网络PointPillars之间的检测性能比较。与正常条件相比,激光雷达网络在雨夹雪或大雪条件下在BEV和3D检测性能上分别下降了33.5%和29.6%或25.8%和22.6%。相比之下,基于4D雷达的RTNH检测性能在恶劣天气中几乎不受影响,在雨夹雪或大雪条件下的BEV和3D目标检测性能较正常条件更好或相似。这些结果证明了4D雷达在恶劣天气中的感知的稳健性。
其他附图
图 8:K-Radar数据集在不同天气条件下的额外样本,(1) 三个框中分别显示了相同天气条件下三种不同道路条件的4DRT、前视摄像头图像和激光雷达点云(LPCs)。在此示例中,黄色、红色和蓝色的边界框分别代表轿车、公共汽车或卡车以及行人类。由于恶劣天气造成的所有LPC测量值丢失的对象用紫色虚线标记。
图 9:视频片段的一部分,展示了在大雪天驾驶过程中每个传感器测量值的动态变化。
图11:显示标注过程的视频剪辑片段
图17:用于微调激光雷达和相机之间校准参数的GUI程序。
图22:在有降水的天气条件下,RTNH(4DRT)和Point Pillars(LPC)的3D目标检测结果。从左到右分别是冻雨、小雪和大雪。我们使用黄色和红色框分别表示地面真实情况和预测。
总结
本文介绍了一个基于4D雷达张量(4DRT)的3D目标检测数据集和基准,即K-Radar。K-Radar数据集包含35,000帧的4DRT、LPC、环视摄像头图像和RTK-IMU数据,这些数据在各种时间和天气条件下收集。K-Radar提供了93,300个距离最多达120米的五类对象的3D边界框标签和跟踪ID。为了验证基于4D雷达的目标检测的稳健性,引入了使用4DRT作为输入的基线神经网络。从实验结果中展示了在传统的3D雷达张量(3DRT)中不可用的高度信息的重要性,以及在恶劣天气条件下4D雷达的稳健性。虽然本工作的实验主要集中在基于4DRT的3D目标检测上,但K-Radar还可以用于基于4DRT的目标跟踪、SLAM和各种其他感知任务。因此希望K-Radar能够加速基于4DRT的自动驾驶感知领域的研究。
以上内容如有错误请留言评论,欢迎指正交流。如有侵权,请联系删除
扫描二维码
关注我们
让我们一起分享一起学习吧!期待有想法,乐于分享的小伙伴加入知识星球注入爱分享的新鲜活力。分享的主题包含但不限于三维视觉,点云,高精地图,自动驾驶,以及机器人等相关的领域。
分享与合作:微信“cloudpoint9527”(备注:姓名+学校/公司+研究方向) 联系邮箱:dianyunpcl@163.com。
为分享的伙伴们点赞吧!