当前位置：首页 > article >正文

【AI论文】ReCamMaster：基于单视频的相机控制式生成渲染

article 2025/3/20 23:59:31

摘要：相机控制在基于文本或图像条件的视频生成任务中已得到积极研究。然而，尽管改变给定视频的相机轨迹在视频创作领域具有重要意义，但这一领域的研究仍显不足。由于需要保持多帧外观和动态同步的额外约束，这一任务颇具挑战性。为解决这一问题，我们提出了ReCamMaster，这是一个相机控制的生成式视频重渲染框架，能够在新的相机轨迹下重现输入视频中的动态场景。其核心创新在于通过一种简单而强大的视频条件机制，利用预训练的文本到视频模型的生成能力——这一能力在当前研究中常被忽视。为克服合格训练数据的稀缺性，我们使用虚幻引擎5构建了一个全面的多相机同步视频数据集，该数据集经过精心策划，遵循真实世界的拍摄特性，涵盖多种场景和相机运动。这有助于模型泛化到野外视频。最后，我们通过精心设计的训练策略进一步提高了模型对多样输入的鲁棒性。大量实验表明，我们的方法显著优于现有的最先进方法和强基线。我们的方法还在视频稳定、超分辨率和外绘等应用中展现出良好前景。项目页面：ReCamMaster: Camera-Controlled Generative Rendering from A Single Video Hugging face链接：Paper page，论文链接：2503.11647

研究背景和目的

研究背景

随着视频内容的爆炸性增长，如何高效地生成和编辑高质量的视频成为了一个重要的研究课题。在视频创作领域，相机轨迹的改变对于塑造观众的视觉体验、传达情感深度和叙事意图起着至关重要的作用。然而，对于业余摄像师来说，由于硬件限制（如手持录制中的稳定性问题）和技术技能差距，实现专业级别的相机运动仍然是一个挑战。传统的视频编辑方法通常依赖于复杂的后期处理，这不仅耗时耗力，而且难以达到令人满意的效果。

近年来，基于文本或图像条件的视频生成任务取得了显著进展。然而，尽管这些研究已经能够生成符合特定文本或图像描述的视频，但对于给定视频的相机轨迹调整这一任务仍显不足。相机轨迹的调整在视频创作中具有重要意义，因为它能够重新诠释原始视频，以呈现更具吸引力和表现力的视角。然而，这一任务并非易事，因为它需要在保持多帧外观和动态同步的同时，对相机轨迹进行灵活调整。

研究目的

本研究旨在提出一种创新的相机控制式生成视频重渲染框架——ReCamMaster，以解决上述挑战。ReCamMaster旨在利用预训练的文本到视频模型的生成能力，通过一种简单而强大的视频条件机制，实现对给定视频相机轨迹的灵活调整。具体研究目的包括：

开发一个创新的相机控制式视频重渲染框架：该框架能够基于新的相机轨迹，重现输入视频中的动态场景，同时保持原始视频的视觉和动态特性。
构建一个高质量的多相机同步视频数据集：由于合格的训练数据稀缺，本研究使用虚幻引擎5构建了一个包含多样场景和相机运动的大规模多相机同步视频数据集，以支持模型的训练和泛化。
提高模型对多样输入的鲁棒性：通过精心设计的训练策略，增强模型对不同输入视频的适应性和稳定性。
探索ReCamMaster在多个实际应用场景中的潜力：包括视频稳定、超分辨率和外绘等，以验证其有效性和实用性。

研究方法

模型架构

ReCamMaster基于一个预训练的文本到视频扩散模型，通过引入一种创新的视频条件机制来实现相机轨迹的调整。模型架构主要包括以下几个部分：

文本到视频基础模型：本研究采用了一个基于Transformer的潜在视频扩散模型，该模型由一个3D变分自编码器（VAE）和一个Transformer-based扩散模型（DiT）组成。每个Transformer块包含空间注意力、3D（时空）注意力和交叉注意力模块。
视频条件机制：为了实现相机轨迹的调整，本研究提出了一种创新的帧维度条件机制。该机制将源视频和目标视频的标记沿帧维度进行拼接，作为扩散Transformer的输入。通过这种方式，模型能够更好地理解视频对之间的相关性，并生成与源视频保持同步和一致的目标视频。
相机姿态条件：为了实现相机控制的视频生成，模型还需要条件化于源视频和目标视频的相机轨迹。本研究选择仅对目标相机轨迹进行条件化，并依靠模型来解读输入视频的相机轨迹。相机轨迹以旋转和平移矩阵的形式表示，并通过一个可学习的相机编码器投影到与视频标记相同的通道中。

数据集构建

由于现实世界中获取多相机同步视频数据的成本高昂，且公开可用的数据集在场景多样性和相机运动方面存在限制，本研究选择使用虚幻引擎5构建了一个大规模的多相机同步视频数据集。数据集构建过程包括以下几个步骤：

收集3D环境和角色：从互联网上收集多种3D环境和动画角色，以构建多样化的视频场景。
设计相机运动规则：制定一套相机运动规则，以自动生成自然且多样的相机轨迹。这些规则涵盖了平移、旋转、缩放等基本运动类型，并考虑了运动速度的变化。
渲染视频数据：在虚幻引擎5中，将多个相机放置在场景中，沿着预定义的轨迹移动，以同时拍摄多视角视频。通过组合不同的角色、动作和相机轨迹，最终生成了一个包含136K个视频的数据集，这些视频涵盖了13.6K个不同的动态场景和122K个不同的相机轨迹。

训练策略

为了提高模型的泛化能力和生成能力，本研究采用了以下训练策略：

微调关键组件：在训练过程中，仅对相机编码器和3D注意力层进行微调，而保持其他参数冻结。这种方式有助于保留基础文本到视频模型的原生能力。
应用噪声：在训练过程中，对条件视频潜在表示应用适度噪声，以减少虚幻引擎合成特性与真实世界数据之间的域差距。
统一相机控制任务：以一定概率在训练过程中实施文本到视频、图像到视频和视频到视频的相机控制生成任务，以提高模型的内容生成能力。

研究结果

定量评估

本研究在多个自动评估指标上对ReCamMaster进行了定量评估，包括视觉质量、相机准确性和视图同步性。实验结果表明，ReCamMaster在各项指标上均显著优于现有的最先进方法和强基线。特别是在视觉质量方面，ReCamMaster生成的视频在FID、FVD和CLIP等指标上均取得了更低的分数，表明其生成的视频更加逼真和一致。

定性评估

除了定量评估外，本研究还通过可视化示例对ReCamMaster进行了定性评估。实验结果显示，ReCamMaster能够生成与源视频保持高度同步和一致的目标视频，同时呈现出令人信服的动态场景。此外，ReCamMaster还支持复杂相机轨迹的输入，如之字形路径等，进一步验证了其灵活性和实用性。

应用潜力

本研究还探索了ReCamMaster在多个实际应用场景中的潜力，包括视频稳定、超分辨率和外绘等。实验结果表明，ReCamMaster在这些任务中均展现出了良好的性能。例如，在视频稳定任务中，ReCamMaster能够通过调整相机轨迹来平滑视频中的抖动，同时保持原始视频的视觉和动态特性。

研究局限

尽管ReCamMaster在相机控制的视频生成任务中取得了显著进展，但仍存在一些局限性：

计算需求增加：帧维度条件机制通过将源视频和目标视频的标记沿帧维度进行拼接，提高了生成质量，但同时也增加了计算需求。这对于资源受限的设备来说可能是一个挑战。
继承基础模型的局限性：ReCamMaster是基于预训练的文本到视频模型构建的，因此也继承了基础模型的局限性。例如，在生成手部动作等精细结构时，ReCamMaster可能表现出较低的质量。
真实世界数据的域差距：尽管本研究通过应用噪声等方式减少了虚幻引擎合成特性与真实世界数据之间的域差距，但仍存在一定的差异。这可能会影响模型在真实世界视频上的性能。

未来研究方向

针对上述局限性，未来研究可以从以下几个方面展开：

优化计算效率：探索更高效的视频条件机制和模型架构，以降低计算需求并提高生成速度。例如，可以研究如何通过剪枝、量化等技术来压缩模型大小并加速推理过程。
改进生成质量：针对手部动作等精细结构的生成问题，可以研究如何引入更精细的条件机制或生成模型来提高生成质量。例如，可以探索如何结合手部关键点检测等技术来生成更逼真的手部动作。
缩小域差距：进一步研究如何减小虚幻引擎合成特性与真实世界数据之间的域差距。例如，可以收集更多真实世界的视频数据来进行微调或域适应训练，以提高模型在真实世界视频上的性能。
拓展应用场景：除了视频稳定、超分辨率和外绘等任务外，还可以探索ReCamMaster在其他视频处理任务中的应用潜力。例如，可以研究如何将ReCamMaster应用于视频风格迁移、视频修复等领域。

综上所述，本研究提出的ReCamMaster框架在相机控制的视频生成任务中展现出了良好的性能和应用潜力。然而，仍存在一些局限性需要未来研究进一步解决和完善。

查看全文

http://www.kler.cn/a/593221.html