当前位置：首页 > article >正文

【AI论文】GEN3C: 基于3D信息的全球一致视频生成技术，实现精确相机控制

article 2025/3/10 14:04:38

摘要：我们提出了GEN3C，这是一种具有精确相机控制和时间3D一致性的视频生成模型。早期的视频模型已经能够生成逼真的视频，但它们往往利用很少的3D信息，从而导致诸如物体突然出现或消失等不一致现象。即便实现了相机控制，其精度也不足，因为相机参数仅仅是神经网络的输入，网络必须自行推断视频如何依赖于相机。相比之下，GEN3C由3D缓存指导：该缓存是通过预测种子图像或先前生成帧的像素级深度而获得的点云。在生成下一帧时，GEN3C以3D缓存的2D渲染为条件，并结合用户提供的新相机轨迹。至关重要的是，这意味着GEN3C既无需记住之前生成的内容，也无需从相机姿态推断图像结构。相反，该模型可以将其所有生成能力集中在之前未观察到的区域，以及将场景状态推进到下一帧。我们的结果表明，与先前的工作相比，GEN3C实现了更精确的相机控制，并在稀疏视图的新视图合成方面取得了最先进的结果，即使在驾驶场景和单目动态视频等具有挑战性的设置中也是如此。最佳观看效果请参见视频。请访问我们的网页！GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control Huggingface链接：Paper page，论文链接：2503.03751

一、引言

随着计算机图形学和深度学习技术的不断发展，生成沉浸式视觉渲染，以传达现实世界场景并允许灵活的视图操作、操控和模拟，一直是该领域的一个长期目标。这一技术支持了包括电影制作、虚拟现实（VR）/增强现实（AR）、机器人技术和社会平台在内的多个行业。然而，传统的图形工作流程需要大量的手工努力和时间来创建资产和设计场景。

近年来，新颖视图合成（NVS）方法释放了这一需求，能够成功地从一组具有姿态的图像中生成场景新颖视点的逼真图像。然而，这些方法通常需要密集的输入图像，并且在极端视角下观看时往往会遭受严重的伪影。更近一步，视频生成模型能够从文本提示中“渲染”出逼真的视频，展示了令人印象深刻的视觉质量和强大的内容创建能力。这些模型通过训练大量数据来捕捉现实世界视频的潜在分布。然而，面向数字内容创作工作流程的实际应用时，可控性和一致性成为了关键挑战，即允许用户调整相机运动、场景构图和动态，并在长时间生成的视频中保持空间和时间的一致性。

尽管已经提出了几种方法来解决这一挑战，例如通过图像、附加文本提示或相机参数进行微调，但对于微妙或复杂的相机运动或场景布局的精确控制仍未解决。模型在来回查看时很容易忘记之前生成的内容，从而产生严重的伪影。

二、相关工作

1. 新颖视图合成（NVS）

生成从一组具有姿态的图像中的新颖视图已经取得了显著进展，众多扩展方法涵盖了大规模场景重建、改进的渲染质量、更快的渲染速度以及处理动态场景等方面。然而，许多方法需要密集的输入图像集，并且在从极端视角观看时可能会产生严重的伪影。一些工作提出了使用几何先验进行正则化以解决这些问题，但这些方法对估计的深度或法线中的噪声很敏感。另一些方法寻求训练一个前馈模型来从稀疏的具有姿态的图像中预测新颖视图，但这些方法受到训练数据稀缺性的限制，难以泛化到未见领域和极端新颖视图。随着图像/视频生成模型的成功，一些工作开始利用这些模型学习的先验知识来促进稀疏视图NVS，但由于需要对每个场景进行优化，这些方法本质上仍然很慢。

2. 相机可控视频生成

早期工作通过将数值相机参数输入到视频生成模型中作为附加条件来进行微调，以实现相机控制。然而，这些方法在精确控制方面存在困难，因为模型必须学习从相机参数到视频的映射，这通常无法泛化到与训练数据不同的相机运动。一些无需训练的方法提出了利用深度将单帧扭曲到给定相机轨迹，并将结果纳入预训练扩散模型的去噪过程中。这需要调整深度扭曲图像与去噪输出之间的一致性程度，从而导致伪影或相机控制不精确。

3. 一致视频生成

早期工作利用3D点云（类似于我们的3D缓存）来获得视频生成模型的条件，这些点云是通过对过去帧应用结构从运动获得的。然而，这需要对小重叠图像具有鲁棒性。其他工作通过依赖环境的精确高度图来改进视频扩散模型的一致性，但这种高度图并不总是可用。最近的工作通过使生成视频的同步帧彼此一致来增强一致性，但如果内容暂时离开所有视频的视野，则整体一致性仍然会丢失。还有一些工作通过以潜在特征图的形式维持历史来增强一致性，但相机控制仍然困难，因为历史是潜在的而不是3D的。

三、方法概述

我们的关键思想是使用3D指导来告知视频生成，从而实现精确的相机控制并提高视频帧之间的一致性。为此，我们首先从输入图像或先前生成的视频帧中构建3D缓存（Sec. 4.1）。然后，我们将3D缓存沿着用户提供的相机轨迹渲染到相机平面（Sec. 4.2）。尽管这些渲染可能不完美，但它们为视频生成模型提供了关于需要生成的可视内容的强大条件（Sec. 4.3）。我们的视频生成模型据此进行微调，以生成与所需相机姿态精确对齐的3D一致视频（Sec. 4.4）。

1. 构建时空3D缓存

选择一个与不同应用兼容并能泛化到不同场景的适当3D缓存是我们的主要考虑因素。随着深度估计在不同领域（如室内、室外或自动驾驶场景）取得显著进展，我们选择从RGB图像的深度估计中反投影得到的彩色点云作为3D缓存的基本元素。

对于从相机视角v在时间t看到的RGB图像，我们创建一个点云P_t,v。我们表示相机视图的数量为V，时间维度上的长度为L；因此，我们的3D缓存是一个L×V的点云数组。我们根据特定的下游应用构建时空3D缓存。对于从单张图像生成视频，我们只为给定图像创建一个缓存元素（V=1），并沿时间维度复制L次以生成长度为L的视频。对于静态NVS，我们为用户提供的每个V个图像创建一个缓存元素，并沿时间维度复制L次。对于动态NVS，我们从用户提供的或另一个视频模型生成的相同长度L的初始视频（s）中构建缓存。然后，V等于时间同步视频的数量，我们可以启用单视图和多视图动态NVS。

2. 渲染3D缓存

点云可以沿着任何相机轨迹轻松且高效地渲染，就像高斯溅射一样。这样的渲染函数R将P_t,v映射到一个元组：(I_t,v, M_t,v) := R(P_t,v, C_t)，其中I_t,v是从新相机C_t看到的RGB图像。掩码M_t,v标识遮挡区域，标记在渲染点云时未覆盖的像素。在这个意义上，掩码标识了图像I_t,v中需要填充的区域。

对于用户提供的相机轨迹序列C=(C1,...,C_L)，我们渲染所有缓存元素P_t,v，并获得V个视频(R(P1,v,C1), R(P2,v,C2), ..., R(P_L,v,C_L))。我们将每个相机视图v的渲染图像(I1,v,...,I_L,v)和掩码(M1,v,...,M_L,v)沿时间维度连接起来，分别表示为由I_v∈RL×1×H×W给出的图像和掩码的视频。

3. 融合和注入3D缓存

在用我们的3D缓存的渲染来条件化视频扩散模型时，关键挑战是3D缓存可能在不同相机视角下不一致，这可能是由于不完美的深度预测或不一致的光照造成的。因此，模型将需要聚合信息（如果V>1）以进行连贯预测。我们在设计此模块时的关键原则是最大限度地减少引入额外的可训练参数：由于预训练的视频扩散模型已经在大量互联网数据上进行了训练，因此任何新参数可能都不会很好地泛化。

具体来说，我们修改了图像到视频扩散模型的前向计算过程，表示为f'_θ。我们首先使用冻结的VAE编码器E对渲染的视频I_v进行编码，以获得潜在视频z_v=E(I_v)，并使用掩码M_v掩盖不由3D缓存覆盖的区域。在训练期间，然后我们将掩码的潜在与目标视频x的噪声版本z_τ=α_τE(x)+σ_τϵ在潜在空间中沿通道维度连接起来，并输入到视频扩散模型中。为了从多个视角融合信息，我们分别将每个视角输入到扩散模型的第一层（表示为In-Layer），并对所有视角应用最大池化以获得最终特征图。

4. 模型训练

以3D缓存的渲染为条件信号c，我们对修改后的视频扩散模型f'_θ进行微调。具体来说，我们首先创建3D缓存的渲染R(P_t,v,·)和沿新用户提供的相机轨迹的对应RGB真实视频x的对。然后，我们使用我们的融合策略（Sec. 4.3）和等式（1）中的去噪评分匹配目标函数对视频扩散模型进行微调，其中目标y是z0=E(x)，遵循预训练图像到视频扩散模型的实践。我们还使用CLIP模型对第一帧进行编码，作为附加条件。

5. 模型推理

对于推理，我们用高斯噪声初始化潜在代码z，并使用我们的修改后的视频扩散模型f'_θ迭代地对潜在代码进行去噪，以3D缓存的渲染为条件。最终的RGB视频是通过在去噪的潜在代码上运行预训练的VAE解码器D获得的。在单个A100 NVIDIA GPU上生成一个14帧的视频大约需要30秒。

对于需要生成长视频的许多应用，现有的模型特别容易出现不一致性。为了生成长时间一致的视频，我们提出了逐步更新3D缓存。我们首先将长视频分成长度为L的重叠块，两个连续块之间有一帧重叠，然后顺序地以自回归方式生成每个块的帧。为了使预测在时间上保持一致，我们使用先前生成的块来更新3D缓存：对于每个生成的帧，我们使用深度估计器估计其像素级深度，并通过最小化重投影误差将深度估计与现有3D缓存对齐。

四、实验与应用

1. 实验设置

训练GEN3C的一个关键挑战是缺乏提供3D缓存和新颖相机轨迹下真实视频对的多视图、动态、现实世界视频数据。我们利用静态现实世界视频来帮助模型理解空间一致性，并利用合成多视图动态视频来帮助理解时间一致性。

我们选择了三个真实世界视频数据集：RE10K、DL3DV和Waymo Open Dataset（WOD），以及一个合成数据集Kubric4D。对于每个数据集，我们使用深度估计器预测每帧的深度，并使用DROID-SLAM估计相机参数。然后，我们创建3D缓存，并使用相同序列中的过去或未来帧作为真实视频来训练模型，以有效地模拟视点变化。

2. 单视图到视频生成

GEN3C可以轻松地应用于从单张图像创建视频/场景。我们首先预测给定图像的深度，然后创建3D缓存，并将其渲染为2D视频，该视频被输入到训练好的视频扩散模型中，以生成精确遵循给定相机轨迹的视频。

我们与四个基线方法进行了比较，包括GenWarp、MotionCtrl、CameraCtrl和NVS-Solver。在RE10K和Tanks and Temples数据集上进行了定量评估，结果显示我们的方法在域内和域外测试中都优于所有基线方法。

3. 两视图新颖视图合成

我们进一步将GEN3C应用于具有挑战性的稀疏视图新颖视图合成设置，其中仅提供两个视图，并从这些视图中生成新颖视图。我们与PixelSplat和MVSplat两个代表性工作进行了比较，结果显示我们的方法在插值和外推能力方面都优于基线方法，即使在两个视图的重叠较小时也能生成逼真的新颖视图。

4. 驾驶模拟的新颖视图合成

模拟现实世界驾驶场景沿着与捕获视频不同的新颖轨迹是训练自动驾驶汽车的基础。GEN3C可以应用于此任务，并通过FID分数定量评估显示，我们的方法显著优于基线方法，特别是在生成远离原始轨迹的新颖视图时。

5. 单目动态新颖视图合成

给定一个动态场景的单目视频，GEN3C能够沿着新的相机轨迹“重新渲染”该视频。我们在Kubric数据集上进行了评估，并与GCD方法进行了比较。结果显示，我们的方法在保留输入视频中物体细节和动态方面表现出色，并精确对齐用户提供的新的相机运动。

6. 消融研究

我们进行了两种消融研究：首先是比较不同的点云融合策略，其次是评估对噪声深度估计的鲁棒性。结果显示，我们的融合策略在具有不同光照和深度估计不对齐的输入视图中能够平滑过渡，而显式融合点云策略则会出现严重伪影。此外，我们的模型对噪声深度估计具有鲁棒性，即使在噪声比率为30%时仍表现良好。

7. 扩展到高级视频扩散模型

我们进一步将Stable Video Diffusion模型替换为更先进的Cosmos模型。结果显示，当利用更强大的视频扩散模型时，GEN3C能够生成质量更高的视频，即使在极端相机视角变化下也是如此。

五、结论

我们提出了GEN3C，一种具有精确相机控制的一致性视频生成模型。我们通过从种子图像或先前生成的视频中构建3D缓存来实现这一目标。然后，我们将缓存沿着用户提供的相机轨迹渲染成2D视频，以强烈条件化我们的视频生成，从而实现比以前的方法更精确的相机控制。我们的结果还在稀疏视图新颖视图合成方面取得了最先进的结果，即使在具有挑战性的设置如驾驶场景和单目动态新颖视图合成中也是如此。

尽管GEN3C在生成动态内容视频时依赖于预生成的视频来提供物体运动，但这是一个具有挑战性的任务。一个很有前景的扩展是结合文本条件来提示运动，当训练视频生成模型时。

查看全文

http://www.kler.cn/a/578654.html