当前位置：首页 > article >正文

PhyCAGE：符合物理规律的图像到 3D 生成

article 2025/1/21 22:56:14

Paper: Yan H, Zhang M, Li Y, et al. PhyCAGE: Physically Plausible Compositional 3D Asset Generation from a Single Image[J]. arXiv preprint arXiv:2411.18548, 2024.
Introduction: https://wolfball.github.io/phycage/
Code: Unreleased

PhyCAGE 是一种 image-to-3D 方法，完成的任务是保证 3D 物体中的两个组成部分的嵌入方式在物理学上尽可能可信。
在这里插入图片描述

PhyCAGE 的生成过程如下：

先根据输入图像生成多视角的图像；
用多视角的图像训练 3D GS 场景。为了保证生成 3D 物体的物理合理性，引入 PSE-SDS 损失函数，使用物理模拟器修正 Gaussians 的位置信息。

在这里插入图片描述

一. Multi-view Generation

输入图像 $I$ 包含背景 $O_1$ 和前景 $O_2$ ，分别对应文本描述 $\tau_1$ 和 $\tau_2$ 。使用 Grounded-SAM 从 $I$ 中分割出前景目标 $O_2$ ：
$\left\{M_1, M_2\right\}=\operatorname{GroundedSAM}\left(I ; \tau_1, \tau_2\right)$

然后修复 $O_1$ 中被 $O_2$ 遮挡的区域：
$\hat{I}=\operatorname{Inpainting}\left(I *\left(\sim M_2\right)+I_{\text {noise }} * M_2 ; \tau_1\right)$

再使用 SyncDreamer 生成 16 个视角的全景和背景图像：
$\begin{gathered} \{I_i\}_{i=1}^{16}=\operatorname{SyncDreamer}(I), \\ \{\hat{I}_i\}_{i=1}^{16}=\operatorname{SyncDreamer}(\hat{I}) \end{gathered}$

并使用 Grounded-SAM 获取每张全景图 $I_i$ 中的语义 mask $S_i$ ，-1 代表背景，1 代表 $O_1$ ，2 代表 $O_2$ 。

二. Multi-view Images to 3D

上一步已经获得了多视角的全景 RGB 图像、全景图像的 mask、背景 RGB 图像，现在来重建 3DGS 场景。但由于 Grounded-SAM 分割得到的 mask 并不能保证多视角连续性，因此使用 Part123 根据全景 RGB 图像和 mask 优化一个 SDF 场和语义场以提供几何引导：
$\{f, g\}=\operatorname{Part123}(\left\{I_i, S_i\right\}_{i=1}^{16})$

再使用 Marching Cubes 算法从 SDF 场中提取顶点 $V$ ，并将其分为 $V_1$ 和 $V_2$ ，分别表示背景和前景的顶点。

然后使用背景 RGB 图像 $\hat{I}_i$ 重建 GS 场景 $G_1$ ，使用全景 RGB 图像 $I_i$ 结合 $V_2$ 顶点重建 GS 场景 $G_2$ ：
$\begin{gathered} G_1=\text { GaussianSplatting }\left(\left\{\hat{I}_i\right\}_{i=1}^{16}\right), \\ G_2=\operatorname{GaussianSplatting}\left(\left\{I_i\right\}_{i=1}^{16} ; \mu \in V_2\right)\\ \end{gathered}$

三. Physical Simulation-Enhanced Optimization

这里所说的物理合理性指的就是前景和背景位置关系的合理性，因此只需要优化与位置相关的参数即可：位置 $\mu$ 、放缩矩阵 $\Sigma$ （原文是 $S$ ）、旋转四元数 $q$ ，不透明度 $\alpha$ 和球谐系数 $c$ 直接冻结。其中 $\mu$ 使用模拟器进行优化， $\Sigma$ 和 $q$ 正常使用优化器优化（文中将 $\Sigma$ 和 $q$ 记为 $t$ ）。

优化过程中计算 SDS 损失和图像 RGB 损失：
$\nabla_\theta \mathcal{L}_{S D S}=\mathbb{E}_{t, \epsilon}\left[w(t)\left(\epsilon_\phi\left(I_t^p ; y, t\right)-\epsilon\right) \frac{\partial I_t^p}{\partial \theta}\right] \\ \mathcal{L}_{\text {Image }}=\left(1-\lambda_1\right) \mathcal{L}_1\left(I^c, I\right)+\lambda_1 \mathcal{L}_{S S I M}\left(I^c, I\right)\\ \mathcal{L}:=\mathcal{L}_{\text {Image }}\left(\theta_\mu, \theta_t\right)+\lambda_3 \mathcal{L}_{S D S}\left(\theta_\mu, \theta_t\right)$

然而，直接优化会导致穿透和伪影，因此将 $\mu$ 的优化过程交给 MLS-MPM 模拟器，将损失函数关于 $\mu$ 的梯度作为粒子的速度：
$\mathbf{x}^{n+1}, \mathbf{v}^{n+1}=\operatorname{MPM}\left(\mathbf{x}^n, \mathbf{v}^n, \Delta t, \psi\right)$