当前位置: 首页 > article >正文

登山第二十一梯:点云补全——零样本、跨激光分布的“泥瓦匠”

文章目录

一 摘要

二 资源

三 内容


一 摘要

        现有的点云补全方法通常依赖于预定义的合成训练数据集,在应用于分布外的实际扫描时会遇到重大挑战。为了克服这一限制,我们引入了一个称为 GenPC 的零样本补全框架,旨在通过利用明确的 3D 生成先验来重建高质量的真实世界扫描。我们的主要见解是,最近的前馈 3D 生成模型,在广泛的互联网规模数据上进行训练,已经证明了在零样本场景下从单视图图像执行 3D 生成的能力。为了利用这一点来完成,我们首先开发了一个深度提示模块,该模块通过利用深度图像作为垫脚石,将部分点云与图像到 3D 生成模型联系起来。为了在最终结果中保留原始的部分结构,我们设计了 Geometric Preserving Fusion 模块,该模块通过自适应调整其姿态和比例来将生成的形状与输入对齐。对广泛使用的基准进行的广泛实验验证了我们方法的优越性和通用性,使我们离稳健的真实世界扫描完成更近了一步。

二 资源

文章:GenPC: Zero-shot Point Cloud Completion via 3D Generative Priors

代码:https://github.com/liannuaa/GenPC

日期:2025年

三 内容

1)摘要

        现有的点云补全方法通常依赖于预定义的合成训练数据集,在应用于分布外的实际扫描时会遇到重大挑战。为了克服这一限制,我们引入了一个称为 GenPC 的零样本补全框架,旨在通过利用明确的 3D 生成先验来重建高质量的真实世界扫描。我们的主要见解是,最近的前馈 3D 生成模型,在广泛的互联网规模数据上进行训练,已经证明了在零样本场景下从单视图图像执行 3D 生成的能力。为了利用这一点来完成,我们首先开发了一个深度提示模块,该模块通过利用深度图像作为垫脚石,将部分点云与图像到 3D 生成模型联系起来。为了在最终结果中保留原始的部分结构,我们设计了 Geometric Preserving Fusion 模块,该模块通过自适应调整其姿态和比例来将生成的形状与输入对齐。对广泛使用的基准进行的广泛实验验证了我们方法的优越性和通用性,使我们离稳健的真实世界扫描完成更近了一步。

2)创新点

①我们设计了一种名为 GenPC 的新型零镜头完成框架,它通过提示预先训练的 3D 生成模型来显着改善真实世界的扫描完成。

②我们提出了一个深度提示模块,通过使用深度图像作为垫脚石来弥合部分扫描和生成模型之间的模态差距。

③我们引入了新颖的几何保留融合模块,用于优化初始生成的结果。它自适应地将生成的内容与部分输入对齐,确保最终结果在语义上准确且结构上忠实。

④大量实验表明,GenPC 在真实数据集上实现了最先进的性能,同时显著缩短了完成时间。

3)算法结构

        GenPC 的输入由部分点云 Pin ⊆ R N×3 和对应的文本提示 Tin 组成,其中 N 表示 Pin 中的点数。我们的目标是获得一个完整的 Pout 形状,并保留 input 中的原始结构。如上图所示,我们的方法通过引入两个创新模块,将图像到 3D 生成模型无缝整合到点云补全过程中。首先,当前的 image-to-3D 模型设计为仅接受 2D 图像作为输入。为了使它们适应点云补全,我们引入了深度提示模块,该模块利用深度图像作为垫脚石来弥合部分点云和生成模型之间的模态差距。从图像到 3D 模型生成 3D 形状后,出现了一个关键挑战:Pin 中的原始点不会保留在生成的形状中。为了解决这个问题,我们提出了 Geometric Preserving Fusion 模块,该模块进一步将初始生成的形状与 PIN 对齐,确保最终结果在语义上准确且结构上吻合。

A 深度提示

        上图描述了Depth Prompting 模块。该模块从输入的部分点云 Pin 生成 RGB 图像,首先将其投影到粗略的深度图 Draw 作为中介。通过对缺失区域的遮罩修复,生成平滑的深度图 Dc,以增强对点云稀疏性的鲁棒性。最后,将 Dc 和文本提示 Tin 输入到深度调节 ControlNet中,以产生相应的 RGB 图像。为了从不完整的点云中投影出高质量的深度图像,我们建议找到捕获点云的视点。尽管Huang等采用基于距离的方法进行视点估计,但这种方法有时会导致深度反转等问题。为了解决这些问题,我们遵循 将视点估计定义为隐藏点去除任务。如图(a) 所示,我们首先将 M 个相机 Vi 均匀放置在输入点云 Pin.对于每台相机,如图(b) 所示,我们在 Pin 上执行球面翻转以获得镜像点云 Pˆ in。然后,我们在围绕Pˆ in ∪ Vi 创建一个凸包,将这个包上的点标识为可见点。选择具有最多可见点的摄像机作为扫描视点 Vscan。通过构建凸包,我们的方法有效地防止了深度反转,并将 Pin 投影到初始深度图 Draw 中。

        但是,一些部分点云(例如 KITTI 数据集中的汽车)非常稀疏,导致稀疏深度投影,从而阻碍后续完成。为了解决这个问题,我们使用一个预先训练的 2D 修复扩散模型 来填补稀疏深度 Draw 中缺失的空洞,从而得到一个完整、高质量的深度图像 Dc。要创建修复掩码,我们首先投影具有较大像素大小的点云以获得 M_FULL。然后,我们在 M_FULL 和反转深度图 (¬Draw) 之间应用 XOR操作,从而生成修复所需的掩码。使用此蒙版,修复模型会填充缺失的深度区域并平滑任何不规则的边缘,从而产生 Dc。请注意,任何能够填充蒙版区域的修复模型都可以在此处应用。最后,我们使用 Dc 作为条件输入,以及文本提示 Tin,以生成与部分输入对应的图像 Igen。这是通过利用预先训练的深度条件图像生成模型(如 ControlNet)来实现的。

B 几何保留融合

        在 Dynamic Scale Adaptation 阶段,我们首先使用生成的图像 Igen 对输入点云 Pin 进行着色,从而得到 Ppartial。然后,Ppartial 和 Pgen 在动态尺度上对齐,生成一个初始的、完整的点云 Pall。然后,我们应用可选的 Refining 阶段。在此阶段,Pall 初始化为 3D 高斯 Gall,不同区域具有不同的高斯参数设置,以保留输入点云的原始几何细节,同时优化缺失区域的形状。此步骤有助于消除错误累积并提高整体完成质量。

b1 动态尺度适配

        我们首先使用生成的图像 Igen 通过 Image-to-3D 生成模型获得 3D 形状的 Pgen。由于预训练模型强大的零镜头生成性能,生成的 Igen 和 Pgen 在类别和形状上与输入点云高度一致。接下来,我们使用 Pgen 填充输入点云的缺失区域,如上图所示。为了改进融合过程,我们使用 Igen 的 RGB 信息为 Pin 着色,从而创建一个彩色的部分点云 Ppartial。由于对象的不同部分表现出不同的颜色,因此这些颜色可以被视为语义线索,通过额外的上下文信息丰富融合,以实现更准确的整合。然后将 Ppartial 和 Pgen 都归一化为 [-0.5, 0.5] 范围内的统一比例,从而减少后续积分的搜索空间。

        为了消除缩放和姿态差异的影响,我们在 [0.8, 1.2] 范围内以 0.1 的间隔缩放 Pgen,并在每个缩放下执行 ICP对齐,使用倒角距离评估对齐结果。我们将点云的颜色视为语义信息,这使我们能够不仅在几何上监督对齐,而且还将颜色信息视为额外的监督信号。在迭代配准期间,我们计算 Ppartial 和 Pgen 之间的欧几里得和 RGB 倒角距离。Chamfer Distance 确保精确的几何对齐,而 RGB Chamfer Distance 监督语义信息的对齐,从而提高融合的整体质量。它们共同构成了以下目标: 

其中 α 和 β 是正则化项,s 表示比例因子。最后,我们选择最小化组合 XYZ 和 RGB 切角距离的配准结果,并从 Pgen 中删除与 Ppartial 相邻的点,以避免点云重叠。Pmiss 和 Ppartial 共同构成了初步的完整点云 Pall。

b2 细化

        为了进一步提高点云补全的准确性,减少误差的积累,我们对初步完成的点云进行了优化,如上图所示。首先,将点云初始化为 3D Gaussian,然后将不同的参数配置应用于 3D Gaussian 的不同部分。这种方法在保持原始零件 Gpartial 的完整性的同时,优化了缺失零件 Gmiss 的几何形状,从而提高了点云补全的整体质量和一致性。

Partial setup:对于部分点云 Ppartial,我们将其初始化为 3D 高斯 Gpartial。为了保留原始几何体,我们修复了坐标、颜色、比例和不透明度等参数,使它们不可训练。这确保了部分点云的几何图形在优化过程中不受影响,保证了与原始输入点云的一致性。

Miss setup:对于缺失的点云 Pmiss,我们将其初始化为 3D 高斯 Gmiss。比例保持固定,因为这些点是从网格表面均匀采样的,并且已经具有合理的比例。Opacity 设置为 1 并保持不可训练状态,以确保表面上高斯点的稳定性。颜色参数不是固定的,但学习率设置得相对较低,因为颜色携带语义信息。这允许在优化期间调整颜色,同时尽可能保留其语义特征。高斯坐标是优化的主要焦点,确保缺失的点云适合部分输入的形状。

SDS Guidance Optimization:接下来,在视点 Vscan 下,我们渲染来自 Gpartial 的图像 Ioptim 和深度图 Doptim。然后,我们合并 Gmiss 和 Gpartial,并从随机角度渲染图像 ̃I_i_optimation。这个过程被迭代了多次,在每次迭代中,我们应用 SDS 从预先训练的新视图合成扩散模型 Zero123中提取 2D 先验,基于 Ioptim 优化 Gmiss,直到实现令人满意的完成。SDS 损失可以表示为:

其中 εφ(·) 是 2D 扩散先φ预测的噪声,t 是时间步长,ε 是标准噪声,∆p 分别表示相对于扫描视点 Vscan 的相对相机姿态变化。

        此外,为了防止优化过程中的其他 3D 高斯分布影响 Gpartial 区域中输入的几何信息,我们还在优化迭代期间在视点 Vscan 下渲染图像 I_i_optim 和深度图 D_i_optim,并为部分区域设置了保留损失 LPresv:

其中 MSE 是优化图像和参考图像 I_i_optim 和 Ioptim 以及深度图 D_i_optim 和 Doptim 之间的均方误差。W1 和 W2 是平衡图像和深度损失重要性的权重。通过结合 LPresv 和 LSDS,我们的方法保留了部分点云的几何形状,同时优化了缺失区域,减少了多阶段的误差积累,提高了整体完成质量。

4)实验

A Dataset

Redwood, ScanNet, and KITTI。

B Results on the Redwood dataset

        定量和定性结果见上表和上图。无论是否使用 SDS 优化步骤,GenPC 都能在整个数据集中始终实现最先进的性能。这些结果表明,现有的基于学习的方法难以完成分布外数据,即使这些数据属于训练过程中看到的类别(例如,椅子和沙发)。此外,这些方法对比例变化很敏感,导致当输入比例发生变化时输出不一致。与唯一的零样本方法 SDSComplete相比,GenPC 的 CD 平均降低 36%,EMD 平均降低 29%。此外,上图清楚地表明,GenPC 输出的结构细节比 SDS-Complete 更精细,这要归功于预训练的 3D 生成模型提供的丰富几何先验。

C Results on the ScanNet dataset

        上表和上图列出了与两种基于学习的前沿方法的比较。我们的方法在完成质量方面表现出卓越的性能,即使在处理稀疏和嘈杂的点云时也能保持可靠的结果。如上图所示,我们的方法生成的补全输出对输入点云具有高保真度和丰富的几何细节,而基于学习的方法则受到域间差异的影响,导致其结果中出现许多嘈杂的点。

D Results on KITTI

        上图显示了对 KITTI 数据集的定性比较,结果表明 GenPC 产生的结果具有完整和逼真的形状,没有任何外来噪声。相比之下,以前在 ShapeNet 上训练的方法生成的完成点云的比例比原始点云小,如上图的底部所示。提出的动态比例自适应允许完成的结果保持与原始点云的比例一致性。

E 消融实验

e1 深度提示模块的消融实验

        为了研究深度提取方法的影响,我们比较了深度提示的三种变体。在变体 A 中,我们用类似于基于距离的方法替换了视点选择,从而显着增加了 CD 和 EMD 值。同时,如上图所示,虽然这种方法在某些情况下正确识别了视点,但它可能会选择反向视点,从而导致深度翻转。这种翻转的深度图会破坏准确的图像生成,并严重影响完成质量。在变体 B 中,删除了 ControlNet,并将修复深度 Dc 用作图像到 3D 生成模型的输入,以检查颜色信息对后续过程的影响。在某些情况下,实验观察表明,即使具有高质量的深度,生成的 3D 形状也是合理的,但缺乏颜色,因此不适合第二阶段的 SDS 优化。在变体 C 中,我们跳过了深度修复步骤,以评估低质量深度对下游过程的影响。如图 8 所示,从稀疏点云投影的深度图无法生成准确的图像,导致性能显著下降。因此,虽然这种变体在 Redwood 等密集点云数据集上表现良好,但它在 ScanNet 等稀疏点云数据集上表现不佳,如上表所示。

e2 3D生成模型的消融实验

        为了检查图像到 3D 生成模型在我们的管道中的效果,我们通过将生成的 3D 形状替换为一组高斯噪声点云来形成变体 D。然后应用 Refine 步骤,优化 5000 多次迭代,以尝试完成缺失的区域。上表中的结果表明缺乏明确的几何先验会显着影响完成性能。

e3 几何保留部分融合模块的消融实验

        在变体 E 中,我们直接将生成的 3D 形状 Pgen 与 Ppartial 对齐,而无需使用动态缩放适应来验证此过程的有效性。由于比例不一致,直接对齐无法正确匹配两个点云,从而浪费了 3D 形状提供的丰富几何先验。在变体 F 中,我们省略了 Refining 过程,直接使用合并的点云 Pall 作为完成结果。虽然定量指标表明,精炼过程可以进一步提高整体完井质量,但我们的实验表明,合并后的点云颇尔通常在可视化和定量指标方面都表现得具有竞争力。因此,我们将 Refining 流程设为可选,以提高完成速度。

5)结论

        在这项研究中,我们首次尝试利用预训练的 3D 生成模型进行零样本点云补全,并引入了 GenPC。为了利用生成模型固有的泛化能力,我们的框架由两个关键组件组成:深度提示和几何保留融合。Depth Prompting 模块使用部分点云提示图像到 3D 生成模型。然后,Geometric Preserving Fusion 模块通过动态调整其姿势和比例,将部分输入与生成的 3D 形状对齐。在广泛使用的数据集上的实验表明,GenPC 实现了最先进的性能。借助 3D 生成模型中的显式几何先验,GenPC 向稳健的真实世界扫描补全更近了一步。

原文地址:https://blog.csdn.net/qq625924821/article/details/146541702
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/610337.html

相关文章:

  • LangChain4j与DashScope深度集成实战:一站式开发指南
  • uniapp uni-drawer组件vue3写法
  • MySQL数据库入门
  • Linux 控制台【Console】类型分类
  • 19,C++——11
  • Python项目-基于Python的网络爬虫与数据可视化系统
  • FastAPI 全面指南:功能解析与应用场景实践
  • Java中的事务管理详解
  • AI数据分析:一键生成数据分析报告
  • Nextjs15 - middleware的使用
  • ARCGIS PRO DSK 栅格数据(Raster)
  • SCI一区 | Matlab实现DBO-TCN-LSTM-Attention多变量时间序列预测
  • SpringMVC 配置
  • TensorFlow的数学运算
  • 主流软件工程模型全景剖析
  • JavaScript基础巩固之小游戏练习
  • Node.js 下载安装及环境配置教程、卸载删除环境配置超详细步骤(附图文讲解!) 从零基础入门到精通,看完这一篇就够了
  • .git 文件夹
  • 期权合约作废的话,权利金和保证金会退还么?
  • 两头文件互引问题解决(前置声明)