当前位置：首页 > article >正文

PointMamba: A Simple State Space Model for Point Cloud Analysis——点云论文阅读（10）

article 2025/3/11 15:53:49

此内容是论文总结，重点看思路！！

文章概述

这篇文章提出了PointMamba，一种基于状态空间模型（SSM）的点云分析方法，通过引入线性复杂度算法来实现高效的全局建模。与传统基于Transformer的点云方法不同，PointMamba显著减少了计算资源需求，使用空间填充曲线进行点云序列化，简化了模型架构，并在多个数据集上展示了优越的性能，为3D视觉任务提供了一个简单且有效的解决方案。

GitHub - LMD0311/PointMamba: [NeurIPS 2024] PointMamba: A Simple State Space Model for Point Cloud Analysis

PointMamba在性能、推理速度、GPU内存使用和计算开销方面相比Transformer模型的优势。PointMamba的线性复杂度使其在处理长序列时显得更加高效，适合在点云分析中替代传统的Transformer模型。

主要方法

1. 状态空间模型（State Space Model，SSM）

状态空间模型是用于序列数据建模的一种方法。传统的Transformer架构在处理点云数据时有一定的性能瓶颈，尤其是因为其注意力机制的二次复杂度会导致高计算成本。SSM提供了一种线性复杂度的替代方案，可以在不使用注意力机制的情况下实现有效的全局建模。

选择性SSM（Selective SSM）

在PointMamba中，选择性SSM（Selective SSM）是关键模块，它通过调整状态参数的选择来实现对输入数据的建模。Selective SSM使用一种特定的方式来选择性地利用前一时刻的状态信息进行建模，从而有效地降低了计算复杂度。这个模块允许模型在处理长序列时仍然保持较低的计算开销和较高的性能表现。

2. 空间填充曲线（Space-Filling Curves）

为了将三维点云数据转换为适合序列处理的格式，PointMamba引入了空间填充曲线的概念。空间填充曲线是一种将高维空间中的点序列化的方法，常用的曲线包括Hilbert曲线和Z-order曲线。在PointMamba中，作者使用了Hilbert曲线及其变体Trans-Hilbert曲线来将点云数据转换为一维序列，保持了相邻点在序列中的邻近关系。

具体步骤：

Hilbert曲线和Trans-Hilbert曲线：这两种空间填充曲线用于从不同的方向扫描点云，以生成两种不同的序列化点集。Hilbert曲线是一种有良好局部性的空间填充曲线，使得在一维序列中保留了点云数据的局部邻域信息。而Trans-Hilbert曲线是对Hilbert曲线的一种变体，它从另一种方向扫描数据，从而补充了Hilbert曲线的局部信息。
保持局部邻域信息：通过空间填充曲线序列化点云数据，PointMamba可以在一维序列中保留点云的空间邻域结构，使得后续的特征提取更加准确。

3. 远点采样（Farthest Point Sampling，FPS）和K近邻（K-Nearest Neighbors，KNN）

Farthest Point Sampling (FPS)：首先使用FPS算法对点云数据进行采样，以选择一组代表性的关键点。FPS的作用是确保采样点分布均匀，以捕获点云的整体结构特征。
K-Nearest Neighbors (KNN)：对每个关键点使用KNN方法选择其K个邻居点，形成一个局部点集。这些局部点集将被转换为点云标记（tokens），用于后续的特征提取。

4. 序列指示器（Order Indicator）

序列指示器的作用是帮助模型区分由不同空间填充曲线生成的序列。由于Hilbert和Trans-Hilbert曲线产生的序列具有不同的空间扫描顺序，因此需要使用序列指示器来区分这两类序列。

缩放（Scale）和偏移（Shift）：在序列指示器中，模型通过缩放和偏移操作为每个序列应用特定的线性变换，从而区分不同扫描策略生成的序列。这一简单操作可以让模型更好地保持空间信息的一致性，并提高模型的表现力。

5. Mamba块（Mamba Block）

Mamba块是PointMamba模型的核心模块之一，它负责对点云序列数据进行特征提取。每个Mamba块包含多个基本操作层：

线性变换（Linear）：对输入特征进行线性变换，增强特征表达能力。
选择性SSM：在Mamba块中嵌入选择性SSM，以捕获全局序列信息。选择性SSM允许模型对序列中每个点的状态信息进行动态选择和聚合，从而实现全局建模。
深度卷积（Depth-Wise Convolution, DWConv）：对序列数据的特征通道进行卷积操作，以增强模型的空间特征提取能力。
层归一化（Layer Normalization, LN）：用于稳定训练过程，提高模型的训练效率。

Mamba块的设计保持简单，不包含复杂的层次结构，通过多个Mamba块的堆叠，模型可以对序列化后的点云数据进行逐层特征提取。

6. 自监督预训练与掩码建模（Mask Modeling）

PointMamba在预训练阶段采用了一种基于掩码建模的自监督学习方法。具体步骤如下：

掩码序列化点标记：对序列化的点标记进行部分掩码处理，以模拟丢失的信息。这种方法可以帮助模型在训练过程中学习到更具鲁棒性的特征。
解码器与重构：掩码数据通过解码器重建，最终利用Chamfer距离作为损失函数来优化模型。通过这种方式，模型在自监督学习中学到了全局信息，提高了后续的特征提取能力。