3D 生成重建022-GRM基于大模型和多视图扩散模的D生成模型
3D 生成重建022-GRM基于大模型和多视图扩散模的D生成模型
文章目录
- 0 论文工作
- 1 论文方法
- 2 实验效果
0 论文工作
这篇论文介绍了 GRM,这是一个能够在大约 0.1 秒内从稀疏视图图像中重建 3D 模型的大型重建模型。GRM 是一种前馈的基于 Transformer 的模型,它有效地结合了多视图信息,将输入像素转换为像素对齐的高斯分布,然后将这些高斯分布反投影以创建一组密集分布的 3D 高斯分布,这些分布代表场景。Transformer 架构和 3D 高斯分布的使用共同构建了一个可扩展且高效的重建框架。大量的实验结果表明,改方法在重建质量和效率方面都优于其他方法。还通过将 GRM 与现有的多视图扩散模型相结合,展示了 GRM 在文本到 3D 和图像到 3D 生成任务中的潜力。
整体来说,主要是用多视图作为输入进行特征预测,并建立3DGS
paper
1 论文方法
GRM 旨在解决高效生成高质量三维模型的难题。它直接从四张稀疏视角的图像出发,通过一个纯Transformer架构,将像素信息转换为密集分布的、像素对齐的3D高斯分布。这些高斯分布直接表示三维场景,避免了传统方法中耗时的体渲染过程,显著提高了重建效率。GRM 的架构包含三个主要部分:一个基于卷积和Transformer的编码器提取图像特征;一个新颖的基于Transformer的、具有窗口化自注意力机制的上采样器,用于高效地将低分辨率特征上采样到高分辨率;以及一个将上采样后的特征解码为3D高斯分布的解码器。 最后,GRM 可以与现有的多视图扩散模型结合,实现文本到三维和图像到三维的生成。
像素对齐的三维高斯分布表示: 这是 GRM 最重要的创新之一。以往方法常常使用体素、点云或神经辐射场 (NeRF) 来表示三维场景,这些表示方法在计算效率和内存消耗上存在瓶颈,尤其是在处理大规模数据集或高分辨率模型时。GRM 使用像素对齐的三维高斯分布,有效地降低了计算复杂度和内存需求,同时提高了重建精度和效率。
纯Transformer架构: GRM 完全基于Transformer架构,这不同于许多使用卷积神经网络或混合架构的现有方法。Transformer架构能够更好地捕捉图像特征之间的长程依赖关系,提高模型的表达能力和泛化能力,尤其是在处理稀疏视图数据时。
高效的窗口化自注意力上采样器: GRM 设计了一个新颖的基于Transformer的、具有窗口化自注意力机制的上采样器,能够高效地处理高分辨率图像特征,并有效地融合多视图信息。这解决了传统上采样方法在计算效率和内存消耗方面的瓶颈。
与多视图扩散模型的结合: GRM 不仅能够进行高效的三维重建,还可以与现有的多视图扩散模型结合,实现文本到三维和图像到三维的生成。这使得 GRM 能够应用于更广泛的应用场景。