当前位置：首页 > article >正文

GEN3C：具有精确相机控制的3D信息化世界一致视频生成

article 2025/3/17 3:34:08

Paper Title: GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

Project Website: https://github.com/nv-tlabs/GEN3C?tab=readme-ov-file

该论文发布于CVPR2025

访问该网址查看更多案例：GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

上图展示了GEN3C模型在多种应用场景中的视频生成能力。
图中包括了几种不同的生成任务，下面是详细的解释：

应用场景：
- 单视图和稀疏视图的新视点合成（Novel View Synthesis, NVS）：这种方法展示了从单一视角或少量视角生成新视角图像的能力。
- 单眼动态视频的新视点合成：GEN3C能够从单一视角的视频中生成新的视频视角，尤其适用于动态场景。
- 驾驶模拟：在此应用中，GEN3C被用来生成模拟驾驶环境下的长时间视频，用户提供相机的运动轨迹来控制视频生成。
视频生成和镜头控制：
- 精确的相机控制：GEN3C模型的一个关键特点是其能精确控制相机的运动，通过给定的相机轨迹来生成一致的、符合预期视角的视频。
- 3D缓存的渲染：为了确保视频的时空一致性，GEN3C模型使用3D缓存（一个点云表示），通过渲染这个缓存来生成视频帧，提供视觉一致性和精确的相机控制。
生成的视频质量：
- 动态效果的生成：图中的"Dolly Zoom"特效（通过改变相机的焦距来实现的视觉效果）展示了GEN3C生成具有电影感的镜头效果的能力，允许场景中的对象在视频中动态变化。
- 视频长度和一致性：图示例子展示了GEN3C如何生成长时间的视频序列，同时保持空间和时间的一致性，避免了传统视频生成模型中常见的“物体消失”或“出现不一致”的问题。
不同的视角和输入条件：
- 输入条件：图中也展示了GEN3C如何根据不同的输入条件（例如单一图像、稀疏视角、动态视频等）生成视频。无论输入条件如何，GEN3C都能够生成符合相机控制和场景一致性的视频。
- 长时间视频的生成：GEN3C通过在每一帧的基础上逐步生成下一帧视频，利用其3D缓存来处理长时间的视频生成，避免了视频生成过程中的不一致问题。

本文提出了GEN3C，一个具有精确相机控制和时间一致性的生成视频模型。
先前的视频生成模型通常利用较少的3D信息，这导致了许多不一致性问题，比如物体的出现和消失。相机控制，因为相机参数只是神经网络的输入，网络必须推断视频如何依赖于相机。
在对比之下，GEN3C是通过一个3D缓存来指导生成：该缓存是通过预测种子图像或先前生成帧的逐像素深度获得的点云。在生成下一帧时，GEN3C依赖于3D缓存的2D渲染结果，并使用用户提供的新相机轨迹作为条件。关键是，这意味着GEN3C无需记住之前生成的内容，也无需推断图像结构与相机姿态的关系。相反，模型可以将所有生成能力集中在未观察过的区域，以及将场景状态推进到下一帧。

向实际应用推广的关键挑战之一是可控性和一致性，即如何允许用户调整相机运动、场景构成和动态变化，同时保持生成视频的空间和时间一致性。