当前位置: 首页 > article >正文

3D 生成重建025-CRM开源的3Dmesh生成大模型

3D 生成重建025-CRM开源的3D生成大模型型


文章目录

    • 0 论文工作
    • 1 论文方法
    • 2 实验结果

0 论文工作

基于Transformer的生成模型,例如大型重建模型(LRM),在生成速度方面表现出色。然而,这些基于Transformer的方法并没有利用其架构中三平面组件的几何先验信息,在三维数据有限的情况下,往往导致次优的质量。在这项工作中,论文提出了一种卷积重建模型(CRM),这是一种高保真度的从单图像到三维纹理网格的前馈生成模型。我们强调了将**几何先验信息融入网络设计的必要性。**CRM基于这样的关键观察结果:三平面的可视化显示了六个正交图像的空间对应关系。首先,它从单个输入图像生成六个正交视图图像,然后将这些图像输入到一个卷积U-Net中,利用其强大的像素级对齐能力和显著的带宽来创建高分辨率的三平面。CRM进一步采用Flexicubes作为几何表示,从而可以直接对纹理网格进行端到端优化。模型在短短10秒内就能从一张图像中生成高保真度的纹理网格,无需任何测试时间的优化。
论文的主要创新点是直接可以生成mesh,然后还有将几何知识添加到这个过程中,但是在我的认识中wonder3d更早一些。随后在CRM的基础上unique3d整体上是在wonder3d跟这个CRM的基础上做了一个融合,用融入法线信息。这个跟我们年中的时候在尝试的一个工作相近,实际上也是收到wonder3d的启发。
paper
github

1 论文方法

下面是论文的流程图,生成六个环绕视图和六个标准空间的坐标图输入CRM中
请添加图片描述
请添加图片描述
有一说一,这个论文的配色虽然不能说优雅,但是画的很详细,让不懂这个方向的人一眼也能看懂这个论文是怎么实现这个功能的。
CRM 旨在解决现有基于Transformer的三维生成模型在利用几何先验知识和处理有限的三维数据方面存在的不足。该模型利用三平面结构的几何特性,巧妙地将单图像的三维重建问题转化为六个正交视图图像的重建问题。 具体来说,CRM 首先使用一个多视图扩散模型,从单张输入图像生成六个正交视图图像以及对应的规范坐标图 (CCM),然后利用一个卷积 U-Net 网络将这些图像和 CCM 映射到一个展开的三平面表示。最后,通过 Flexicubes 表示和双边 Marching Cubes 算法,直接生成最终的纹理网格。整个过程是端到端的,并且在推理阶段无需任何优化过程。
利用三平面几何先验: CRM 的核心创新在于充分利用三平面结构中六个正交视图图像的空间对应关系,将单图像重建问题转化为多视图重建问题。这使得模型能够更好地利用图像中的几何信息,提高重建的准确性和鲁棒性,尤其是在三维数据有限的情况下。
高效的卷积神经网络架构: CRM 使用卷积 U-Net 作为核心架构,而非 Transformer。这使得模型能够更好地处理图像数据的局部特征和像素级对齐信息,在保证效率的同时提高重建精度。卷积网络的并行计算能力也比 Transformer 更高,有利于快速生成。
Flexicubes 表示与端到端优化: CRM 使用 Flexicubes 表示三维几何,并直接对纹理网格进行端到端优化,避免了其他方法中需要额外步骤生成网格的低效过程。 Flexicubes 的高效性和可微性,使其适用于端到端训练和快速推理。
多视图扩散模型辅助: CRM 利用多视图扩散模型生成六个正交视图图像和 CCM,有效地解决了单视图图像信息不足的问题,并提供了更丰富的几何信息用于三维重建。
快速高效的推理: CRM 在推理阶段无需任何优化,能够在 10 秒内生成高质量的三维纹理网格,这在速度和效率方面显著优于许多现有方法。

2 实验结果

实际上在这个阶段的所有工作中效果来说,实际上都差不多,只有后面使用多视图比原来LRM好些。整体上效果相近。
请添加图片描述


http://www.kler.cn/a/430284.html

相关文章:

  • MFC读写文件实例
  • 详细全面讲解C++中重载、隐藏、覆盖的区别
  • Mac中配置vscode(第一期:python开发)
  • maven之插件调试
  • thinnkphp5.1和 thinkphp6以及nginx,apache 解决跨域问题
  • IDEA中Maven依赖包导入失败报红的潜在原因
  • Unity 的介绍
  • 《Python 基于 RSA 算法的数字签名生成软件》
  • Java中线程之间是如何通信的
  • WinForm(C/S)项目中使用矢量字体(FontAwsome、Elegant)图标
  • 使用Python实现科学计算工具:数据分析的利器
  • 论文阅读 - Context De-confounded Emotion Recognition
  • Java 创建图形用户界面(GUI)组件详解之下拉式菜单(JMenu、JMenuItem)、弹出式菜单(JPopupMenu)等
  • es字段修改
  • pytorch多GPU训练教程
  • 快速搭建SpringBoot3+Vue3+ElementPlus管理系统
  • C# 关于实现保存数据以及数据溯源推送
  • 传奇996_53——后端ui窗口局部刷新
  • 3D 生成重建022-GRM基于大模型和多视图扩散模的D生成模型
  • 常见限流算法
  • 【Leetcode Top 100】94. 二叉树的中序遍历
  • 观察者模式的理解和实践
  • vue的指令
  • Python 网络爬虫进阶:突破数据采集的边界
  • 【金猿CIO展】海博科技总经理兼CIO韩东明:大数据与大模型,驱动智能运维的新引擎...
  • 在Excel中实现选中单元格行列变色的功能