【论文阅读】三平面相关与变体
文章目录
- 1. 【CVPR2023】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
- 动机
- 可视化
- 方法
- Pipeline
- 2. 【2023/08/31】PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction
- 动机(针对雷达点云、与TPV相比)
- 可视化
- 3. 【2024/04/时空】Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction
- 4. 【CVPR2024】SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction
- 针对痛点和贡献
- 模型框架
- 5. Tri-Perspective View Decomposition for Geometry-Aware Depth Completion
- 贡献
- 框架及即插即用模块
社区开放麦#42 | 面向自动驾驶场景的纯视觉三维语义占有预测
1. 【CVPR2023】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
动机
可视化
方法
具体而言,为了获得 3D 空间中点的特征,我们首先将其投影到三个平面中的每一个平面中,并使用双线性插值来获得每个投影点的特征。然后,我们将三个投影特征相加作为 3D 点的综合特征。因此,TPV 表示能够以任意分辨率描述 3D 场景,并为 3D 空间中的不同点生成不同的特征。我们进一步提出了一种基于变换器的编码器 (TPVFormer),以便有效地从 2D 图像中获取 TPV 特征。我们首先在 TPV 网格查询和相应的 2D 图像特征之间执行图像交叉注意,以将 2D 信息提升到 3D 空间。然后,我们在 TPV 特征之间执行跨视图混合注意,以实现三个平面之间的交互。
我们提出了一种三视角视图 (TPV) 表示,它能够在不抑制任何轴的情况下对全尺寸的 3D 空间进行建模,并避免立方复杂性,如图 3 所示。正式地,我们学习三个轴对齐的正交 TPV 平面:
直观地讲,从不同角度检查复杂场景可以更好地理解,因为这些角度可能提供有关场景的互补线索。
给定现实世界中 (x, y, z) 处的查询点,TPV 表示会尝试聚合其在顶视图、侧视图和前视图上的投影,以获得该点的全面描述。具体来说,我们首先将该点投影到 TPV 平面上以获得坐标 [(h, w),(d, h),(w, d)],在这些位置对 TPV 平面进行采样以检索相应的特征 [th,w, td,h, tw,d],并聚合这三个特征以生成最终的 fx,y,z:
其中采样函数 S 和聚合函数 A 分别采用双线性插值和求和实现,并且每个投影函数 P 对两个相关坐标执行 简单的缩放,因为TPV 平面与真实世界轴对齐。【O(HW + DH + W D)<<O(HWD)】
相当于点查询公式,TPV 平面沿各自正交方向扩展并相加时,构造出类似于体素特征空间的全尺寸 3D 特征空间,但存储和计算复杂度仅为 O(HW + DH + W D),比体素对应项低一个数量级。与 BEV 相比,由于 TPV 中的三个平面彼此垂直,因此沿一个平面正交方向的点特征会被从其他两个平面采样的特征所多样化,而 BEV 表示会忽略这一点。此外,每个 TPV 平面中的网格特征仅负责相应柱区域的视图特定信息,而不是像 BEV 中那样编码完整信息。总而言之,TPV 表示将 BEV 从单一顶视图推广到互补且正交的顶视图、侧视图和前视图,并且能够在保持高效的同时提供对 3D 周围环境的更全面、更细粒度的理解。
Pipeline
2. 【2023/08/31】PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction
动机(针对雷达点云、与TPV相比)
- 考虑到 LiDAR 点云的距离分布,我们在圆柱坐标系中构建了三透视视图,以便对较近区域进行更细粒度的建模。
- 虽然 TPVFormer 在笛卡尔坐标系中使用三个垂直平面,但我们通过经验发现,由于点云分布不均匀(即点的稀疏性取决于它们与自车的距离),它们不能很好地描述 LiDAR 点云。
- 最近,TPVFormer [16] 提出了一种基于视觉的 3D 感知的三视角 (TPV) 表示,它使用三个正交互补的 2D 平面来建模 3D 场景。由于这三个平面的互补特性,TPV 表示可以在保持效率的同时有效地恢复 3D 结构。尽管如此,TPVFormer 仅使用 TPV 来建模已经提取的图像特征。如何将 LiDAR 点云转换为 TPV 以及如何使用 2D 图像主干处理它们仍然未知。据我们所知,我们是第一个将 TPV 有效地应用于基于 LiDAR 的 3D 感知的人。我们进一步提出了一种圆柱形 TPV 表示来适应 LiDAR 点云,并采用空间组池化方法将 LiDAR 有效地转换为 TPV,同时将信息损失降至最低
可视化
3. 【2024/04/时空】Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction
4. 【CVPR2024】SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction
针对痛点和贡献
痛点:
- 现有方法使用鸟瞰图 (BEV) 或三视角视图 (TPV) 等投影来压缩密集表示。虽然有效,但这些投影会导致信息丢失,尤其是对于语义占用预测等任务。
贡献:
-
首先,3D sparse diffuser 使用空间分解的 3D 稀疏卷积核执行潜在完成。
-
构建了一个特征金字塔,其中包含稀疏插值操作,以使用来自其他尺度的信息来增强尺度。
-
3D 稀疏变换器头,负责生成语义占用预测。通过仅分割占用的体素而不是整个 3D 体积,我们实现了计算成本的显着降低。
-
有趣的是,它还提高了准确率,这在一定程度上可以归因于稀疏表示能够避免在空体素上产生幻觉
模型框架
5. Tri-Perspective View Decomposition for Geometry-Aware Depth Completion
贡献
- (1) TPVD巧妙地将原始点云分解为三个二维视图,其中一个对应于稀疏深度输入。
- (2) 我们设计了TPV融合来通过递归的二维-三维-二维聚合更新二维TPV特征,其中应用了距离感知球面卷积(DASC)【编码在紧凑球面空间中变化分布的点,有助于提炼出精细的几何结构】。
- (3) 通过自适应选择TPV亲和邻居,新提出的几何空间传播网络(Geometric Spatial Propagation Network,GSPN)【即插即用】进一步提高了几何一致性。
框架及即插即用模块
GSPN通过在三个分解的2D TPV空间及其联合的3D投影空间中构建亲和性,同时保留了邻域信息和3D几何结构。这种设计使得GSPN能够逐步细化深度图,生成具有一致几何结构的精细深度结果。