当前位置: 首页 > article >正文

3D 生成重建023-DMV3D用扩散模型做3D生成大模型

3D 生成重建023-DMV3D用扩散模型做3D生成大模型


文章目录

    • 0 论文工作
    • 1 论文方法
    • 2 实验效果

0 论文工作

这个论文提出了一种新的三维生成方法DMV3D,它利用基于Transformer 的大型三维重建模型对多视图扩散进行去噪处理。重建模型包含三平面NeRF表示,并能够通过NeRF重建和渲染对噪声多视图图像进行去噪处理,在单块A100 GPU上实现约30秒的单阶段三维生成。使用图像重建损失在大规模多视图图像数据集上训练DMV3D,而无需访问三维资产。在需要对看不见的物体部分进行概率建模以生成具有清晰纹理的各种重建结果的单图像重建问题上展示了较好的结果,还展示了高质量的文本到三维生成结果,其性能优于以前的三维扩散模型。
跟前面的方法相比的话,论文整体上来说是把用图像特征预测三平面特征变成了一个扩散模型的任务。在这一点上这个任务跟我们在23年的论文imagebind3d在思路上相近,都是通过扩散模型预测一种隐藏空间中的3d表示,论文中使用的前面方法延续的三平面特征,我们当时使用的是一个GAN的隐变量。
paper

1 论文方法

请添加图片描述
DMV3D 旨在解决现有三维生成方法在效率和质量上的不足。它并非直接训练一个三维扩散模型,而是利用一个预训练的三维重建模型作为桥梁,将多视图图像的去噪过程转化为三维重建过程。具体来说,DMV3D 首先使用一个多视图扩散模型生成多视角的噪声图像;然后,利用一个基于三平面神经辐射场 (NeRF) 的大型三维重建模型对这些噪声图像进行去噪处理,并直接重建出三维模型。整个过程仅依赖图像重建损失进行端到端训练,无需额外标注的三维数据。 此外,DMV3D 也被拓展应用于文本到三维的生成任务,通过结合文本到图像的生成模型,实现从文本描述生成三维模型。
结合三维重建模型进行三维扩散去噪: 这是 DMV3D 最主要的创新点。它避免了直接训练三维扩散模型的困难,而是利用一个强大的预训练三维重建模型来引导扩散过程,将多视图图像的去噪问题转化为一个相对更容易解决的三维重建问题。这有效地降低了训练难度,并提高了生成质量和效率。
单阶段三维生成: DMV3D 采用单阶段的生成流程,直接从噪声多视图图像生成三维模型,避免了多阶段方法中存在的误差累积问题,提高了生成效率。
无需三维数据标注: DMV3D 的训练过程仅依赖图像重建损失,无需额外标注的三维数据,这大大降低了数据获取和标注的成本。

2 实验效果

每次看到大家用坤坤展示生成效果都有一种喜感。
请添加图片描述


http://www.kler.cn/a/429416.html

相关文章:

  • 自动驾驶3D目标检测综述(八)
  • SQL BETWEEN 操作符
  • 业务幂等性技术架构体系之消息幂等深入剖析
  • 一体机cell服务器更换内存步骤
  • Java 泛型及其优势
  • UML系列之Rational Rose笔记九:组件图
  • Spring-AOP(面向切面)
  • 深入理解C#的TCPIP通信机制
  • 深度学习:CPU和GPU算力
  • Python基于OpenCV实现的人脸识别和笑容检测
  • 【Apache Paimon】-- 4 -- Flink 消费 kafka 数据,然后写入 paimon
  • Linux如何安装discuz
  • docker安装Emqx并使用自签名证书开启 SSL/TLS 连接
  • 数据库之连接池Druid
  • ZZCMS2023存在跨站脚本漏洞(CNVD-2024-44822、CVE-2024-44818)
  • sock_poll内核函数
  • No module named ‘_ssl‘ No module named ‘_ctypes‘
  • 如何防范顶级应用程序安全威胁
  • 【大语言模型】LangChain ModelsIO与Models I/O Promopts详解
  • 【CKS最新模拟真题】Dockerfile修改
  • CTF-RE/WEB: python-Hook(钩子)
  • 电子信息工程自动化 基于单片机的居室安全报警系统
  • 为什么 JavaScript 中的回调函数未按顺序执行?
  • Pydantic 动态字段:使用和不使用 `@computed_field` 的对比指南
  • 如何使用 JavaScript 获取页面滚动位置?
  • Java项目实战II基于微信小程序的跑腿系统(开发文档+数据库+源码)