当前位置：首页 > article >正文

自动驾驶 3DGS 学习笔记

article 2025/4/2 12:57:04

street_gaussians

gsplat依赖项

运行报错：

python>=3.9

SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior

差分高斯光栅化 diff-gaussian-rasterization

street_gaussians

https://github.com/zju3dv/street_gaussians

gsplat依赖项

sudo apt install ninja-build

sudo apt-get install libglm-dev

编译3dgs的源代码成功，后面的版本不匹配，不能调用。

linux安装成功：

pip install git+https://github.com/XingtongGe/gsplat.git

运行报错：

ModuleNotFoundError: No module named 'gsplat.rendering'

python>=3.9

pip install git+https://github.com/Mxbonn/gsplat-pytorch.git

SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior

解说：

街景的新视角合成对于模拟的重要性，并介绍了目前实现此目标的主流技术是神经渲染，例如神经辐射场（NeRF）和三维高斯飞溅（3DGS）。然而，在处理街景时，当前方法在与训练视角明显偏离的视点上保持渲染质量时存在困难。为了解决这个问题，文章提出了一种新方法，通过利用扩散模型的先验以及补充的多模态数据，增强了3DGS的能力。实验结果表明，这种方法相对于当前最先进模型更有效，并展示了在渲染更广泛视角的图像方面的优势。

2.1 微调扩散模型

本节介绍了一种用于微调扩散模型的新方法，该方法专门针对驾驶数据进行微调。驾驶数据按顺序收集，因此我们可以轻松地确定任何新视角的最接近的前后帧。作者将这些相邻帧的图像作为参考图像，因为它们提供了有价值的上下文信息。此外，360°激光雷达点云使我们能够为参考帧和新视图推导深度图，从而全面理解跨视角的相对空间信息。通过微调扩散模型，作者引导它从上下文图像中学习应该存在的内容，以及从深度信息中学习对象之间的空间关系。微调分为两个阶段：第一阶段是基于图像的扩散模型，第二阶段是添加深度控制网络。第一阶段旨在使扩散模型从相邻帧的图像中学习场景的高级信息，而不包括姿态信息。第二阶段旨在利用3D信息控制模型以实现更准确的图像生成。通过这两个阶段的微调，作者的方法在自动驾驶场景中展现出了优异的性能。作者：3D视觉工坊 https://www.bilibili.com/read/cv34267043/ 出处：bilibili

开源地址是错的

GitHub - Leeiieeo/AG-Pose: CVPR2024: Instance-Adaptive and Geometric-Aware Keypoint Learning for Category-Level 6D Object Pose Estimation

原理介绍

全面超越！开源！百度最强SOTA：基于扩散模型的3DGS！ - 哔哩哔哩