当前位置: 首页 > article >正文

Chirpy3D:用于创意 3D 鸟类生成的连续部分潜在特征

Chirpy3D框架可以将细粒度的2D图像理解提升至3D生成的全新境界。当前的3D生成方法往往只关注于重构简单的对象,缺乏细致的特征和创造性。Chirpy3D通过结合多视角扩散模型和连续的部件潜在空间,能够生成全新且合理的3D鸟类模型。该系统不仅能够保持细致的物种特征,还能通过插值和采样生成全新的部件。通过自监督特征一致性损失,Chirpy3D确保了未见部件的稳定生成,展现了其在细粒度3D生成领域的创新能力。

生成的由不同部分组成的活泼的 3D 鸟类。Chirpy3D 从原始 2D 图像中学习部分潜在空间,并且可以通过探索部分潜在空间生成高质量的创意 3D 鸟类。(顶部)现有物种,(底部)新物种

相关链接

  • 论文:http://arxiv.org/abs/2501.04144v1

  • 主页:https://github.com/kamwoh/chirpy3d

论文介绍

论文将细粒度 3D 生成的边界推向了真正具有创造性的领域。当前的方法要么缺乏复杂的细节,要么只是模仿现有对象——我们同时实现了这两种方法。通过多视图扩散将 2D 细粒度理解提升到 3D,并将部分潜在建模为连续分布,我们解锁了通过插值和采样生成全新但合理部分的能力。自监督特征一致性损失进一步确保了这些看不见的部分的稳定生成。结果是第一个能够创建具有超越现有示例的物种特定细节的新型 3D 对象的系统。虽然我们在鸟类身上展示了我们的方法,但底层框架超越了会鸣叫的事物!

方法

Chirpy3D 的整体架构。(顶部)在训练期间,我们仅使用鸟类的 2D 图像对文本到多视图扩散模型(例如 MVDream)进行微调。我们的目标是通过建模连续的部分感知潜在空间来学习底层的部分信息。这是通过学习一组物种嵌入 e,通过可学习的 f 将它们投射到部分潜在 l 中,通过可学习的 g 解码为词嵌入 t 并插入文本提示来实现的。我们训练具有扩散损失(等式 5)和多个损失目标的扩散模型 - Lreg(等式 2)将部分潜在建模为高斯分布,Lattn(等式 6)用于部分解缠,以及我们提出的 Lcl(等式 4)以增强视觉连贯性。f 和 g 是可训练模块。为了提高训练效率,我们在 U-Net 的交叉注意层中添加了 LoRA 层。 (底部)在推理过程中,我们可以首先通过选择所需的部分潜在特征作为条件来预览多视图图像,然后通过 SDS 损失 LSDS 将它们转换为 3D 表示(例如 NeRF)。

结果

两个不同物种(蓝松鸦和白鹈鹕)的主题生成。

部分组成的视觉比较。A、B、C、D、E、F 分别代表红雀、威尔逊莺、最小海雀、加州鸥、角百灵和歌带鹀。红色圆圈表示已更改的部分。所有部分(包括源和目标)均由同一种子生成。

蓝松鸦和红雀两种不同物种之间所有部分潜伏值的线性插值。仅显示一个视图。我们的 Chirpy3D 实现了更平滑的插值,而不像 PartCraft 在某个步骤后表现出突然切换现象(红色框)

结论

Chirpy3D是一个细粒度 3D 生成框架,它通过多视图扩散将 2D 理解提升到 3D,将部分潜在信息建模为连续的。所有图像都是用相同的相机姿势生成的但在看不见的潜在信息上使用不同的种子。

连续分布并规范特征一致性以稳定看不见部分的生成。这种方法可以创建具有前所未有的细粒度细节和创作自由的新型 3D 对象。虽然该方法是在鸟类身上进行演示,但这种方法也可以应用于其他物体。


http://www.kler.cn/a/539302.html

相关文章:

  • C语言基础第04天:数据的输出和输出
  • Linux(CentOS)安装 Nginx
  • SQL自学,mysql从入门到精通 --- 第 14天,主键、外键的使用
  • 对接DeepSeek
  • Chapter2:C#基本数据类型
  • 非递减子序列(力扣491)
  • Unity 基础编程
  • 334递增的三元子序列贪心算法(思路解析+源码)
  • feign Api接口中注解问题:not annotated with HTTP method type (ex. GET, POST)
  • 【系统设计】使用Spring Boot连接MySQL数据库
  • IT行业方向细分,如何做到专家水平——1.运维
  • MySQL时间类型相关总结(DATETIME, TIMESTAMP, DATE, TIME, YEAR)
  • CANoe工具使用技巧 --- 如何使用 “on ethernetPacket “事件处理程序
  • “深入浅出”系列之C++:(20)C++17
  • 四种垄断组织形式的简洁解释-AI
  • DevOps 与站点可靠性工程的比较
  • 小红书提出新面部视频交换方法DynamicFace,可生成高质量且一致的视频面部图像。
  • C++ -- 异常
  • 解密编程语言的执行机制:从解释到编译的进化
  • 数据库高安全—审计追踪:传统审计统一审计
  • 8.Python 面向对象(类和对象):定义类、类的构成、类的__init__()方法、创建对象、理解self
  • 【PGCCC】在 PostgreSQL 上使用 pg_hint_plan替换 Oracle Hints 的最佳实践
  • 采用DDNS-GO与cloudflare实现双域名同时访问NAS
  • (done) openMP学习 (Day13: 线程私有数据和如何支持库(Pi again),蒙特卡洛计算 Pi,线性同余法)
  • [图文]DeepSeek能做对《软件方法》的测试题吗?
  • python基础入门:4.4模块与包管理