当前位置: 首页 > article >正文

GEN3C:具有精确相机控制的3D信息化世界一致视频生成

Paper Title: GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

Project Website: https://github.com/nv-tlabs/GEN3C?tab=readme-ov-file

该论文发布于CVPR2025

 访问该网址查看更多案例:GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

上图展示了GEN3C模型在多种应用场景中的视频生成能力。
图中包括了几种不同的生成任务,下面是详细的解释:

  1. 应用场景

    • 单视图和稀疏视图的新视点合成(Novel View Synthesis, NVS):这种方法展示了从单一视角或少量视角生成新视角图像的能力。
    • 单眼动态视频的新视点合成:GEN3C能够从单一视角的视频中生成新的视频视角,尤其适用于动态场景。
    • 驾驶模拟:在此应用中,GEN3C被用来生成模拟驾驶环境下的长时间视频,用户提供相机的运动轨迹来控制视频生成。
  2. 视频生成和镜头控制

    • 精确的相机控制:GEN3C模型的一个关键特点是其能精确控制相机的运动,通过给定的相机轨迹来生成一致的、符合预期视角的视频。
    • 3D缓存的渲染:为了确保视频的时空一致性,GEN3C模型使用3D缓存(一个点云表示),通过渲染这个缓存来生成视频帧,提供视觉一致性和精确的相机控制。
  3. 生成的视频质量

    • 动态效果的生成:图中的"Dolly Zoom"特效(通过改变相机的焦距来实现的视觉效果)展示了GEN3C生成具有电影感的镜头效果的能力,允许场景中的对象在视频中动态变化。
    • 视频长度和一致性:图示例子展示了GEN3C如何生成长时间的视频序列,同时保持空间和时间的一致性,避免了传统视频生成模型中常见的“物体消失”或“出现不一致”的问题。
  4. 不同的视角和输入条件

    • 输入条件:图中也展示了GEN3C如何根据不同的输入条件(例如单一图像、稀疏视角、动态视频等)生成视频。无论输入条件如何,GEN3C都能够生成符合相机控制和场景一致性的视频。
    • 长时间视频的生成:GEN3C通过在每一帧的基础上逐步生成下一帧视频,利用其3D缓存来处理长时间的视频生成,避免了视频生成过程中的不一致问题。

本文提出了GEN3C,一个具有精确相机控制时间一致性的生成视频模型。
先前的视频生成模型通常利用较少的3D信息,这导致了许多不一致性问题,比如物体的出现和消失。相机控制,因为相机参数只是神经网络的输入,网络必须推断视频如何依赖于相机。
在对比之下,GEN3C是通过一个3D缓存来指导生成:该缓存是通过预测种子图像或先前生成帧的逐像素深度获得的点云。在生成下一帧时,GEN3C依赖于3D缓存的2D渲染结果,并使用用户提供的新相机轨迹作为条件。关键是,这意味着GEN3C无需记住之前生成的内容,也无需推断图像结构与相机姿态的关系。相反,模型可以将所有生成能力集中在未观察过的区域,以及将场景状态推进到下一帧。

向实际应用推广的关键挑战之一是可控性一致性,即如何允许用户调整相机运动、场景构成和动态变化,同时保持生成视频的空间和时间一致性。

  • 可控性指的是用户可以控制视频生成过程中的一些参数,比如相机运动、场景的构成和动态变化,确保生成的视频符合用户的预期。
  • 一致性则意味着生成的视频在空间和时间上要保持一致,不会出现物体跳跃、位置错乱或其他不自然的效果。

现有视频生成模型在回顾已生成内容时,现有模型容易“忘记”之前生成的内容。

新视点合成(Novel View Synthesis, NVS)

1. 从一组已知姿态的图像生成新视点的图像,许多方法需要密集的输入图像,并且在从极端视角观察时可能会产生严重的伪影。
2. 一些工作提出通过使用几何先验来进行正则化,从而解决这些问题,但这些方法对估计的深度或法线的噪声非常敏感
3. 另一些方法尝试训练前


http://www.kler.cn/a/587821.html

相关文章:

  • Spring Boot使用线程池创建多线程
  • 3.3 Spring Boot多数据源动态切换:AbstractRoutingDataSource实战
  • 软件环境安装-通过Docker安装Elasticsearch和Kibana【保姆级教程、内含图解】
  • 关于深度学习参数寻优的一些介绍
  • Tcp网络通信的基本流程梳理
  • 当今前沿技术:人工智能与区块链的未来发展
  • 科大讯飞嵌入式软件开发面试总结
  • Vue与Django是如何传递参数的?
  • python-53-分别使用flask和streamlit进行向量存储和检索的服务开发实战
  • C语言中的指针与函数
  • 【PyMySQL】Python操作MySQL
  • 利用Python爬虫根据关键词获取商品列表
  • OpenHarmony 5.0 MP4封装的H265视频播放失败的解决方案
  • idea 2023社区版自动生成 serialVersionUID
  • 洛谷P11043
  • Redisson 分布式锁全面解析:锁类型(可重入锁、公平锁、联锁、红锁、读写锁)和锁常见方法解读
  • redis删除与先判断再删除的区别
  • deepseek+kimi做ppt教程记录
  • VSCode通过SSH远程登录Windows服务器
  • docker网络问题导致dify添加API不能成功,如添加SearXNG