BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection 论文阅读
研究背景:本文提出了新型多视角3D目标检测器BEVDepth,以可靠的深度估计提升基于相机的鸟瞰视角(BEV) 3D检测性能。相较于成本较高的LiDAR,多视角相机因低成本受关注,但现有方法(如Lift-Splat-Shoot)在深度估计上存在预测不准、泛化性差和BEV语义不精确等问题,限制了3D检测效果。(指出了Lift-splat中的深度学习机制带来了三个缺陷:深度间接监督,质量差;大多数像素无法预测合理的深度,这意味着它们在学习阶段没有得到适当的训练。 这让我们对深度模块的泛化能力产生怀疑;深度较差导致只有部分特征投影到正确的 BEV 位置,从而导致 BEV 语义不精确。
源码:https://github.com/GengzeZhou/NavGPT
主要贡献: 引入了显式深度监督(Explicit Depth Supervision),通过使用从点云数据生成的深度真值指导深度学习;
设计了一个相机感知深度预测模块(Camera-aware Depth Prediction Module),将相机的内参和外参编码到深度学习模块中;
提出了深度优化模块(Depth Refinement Module),能够纠正特征反投影过程中产生的不精确问题;
通过定制化的高效体素池化方法(Efficient Voxel Pooling)和多帧融合机制(Multi-frame Fusion),显著提高了性能和效率。
第一个对深度质量如何影响整个系统进行彻底分析的(这是我的总结,前面4点基于原文总结)