当前位置：首页 > article >正文

【论文阅读笔记】LTX-Video: Realtime Video Latent Diffusion

article 2025/1/7 22:39:06

LTX-Video: Realtime Video Latent Diffusion

介绍
摘要
Introduction
方法
- Video VAE
- - Shared Diffusion Objective
  - Reconstruction GAN (rGAN)
  - Multi-layer Noise Injection
  - Uniform log-variance
  - Video DWT Loss
  - VAE 实现 detail
- Video Transformer
- - 旋转位置编码
  - QK Normalization
- 文本条件
- - 使用预训练文本编码器
  - 交叉注意力
- 图像条件
- Rectified-Flow Training
- - 背景
  - 时间调度
  - Multi-resolution Training
  - Training on Images
数据准备
- 我们训练并使用美学模型来评估视频和图像。
- 动态与宽高比过滤
- 通过美学内容进行微调
- 标题和元数据增强
实验
- 训练
- Evaluation
- 消融
- - RoPE 频率间距
- 降噪 VAE Decoder
限制
- - 模型对提示表述的敏感性
  - 对长视频的有限支持
  - 特定领域的泛化能力
社会限制
- - 可及性与民主化
  - 开源贡献
  - 环境考虑
  - 潜在风险与缓解
总结

介绍

近来看到两篇之一从VAE的角度来提升图与视频生成效果包括效率的文章。

另一篇「todo」

project：https://github.com/Lightricks/LTX-Video

摘要

LTX-Video，一种基于变换器的潜在扩散模型，它通过无缝整合视频变分自编码器（Video-VAE）和去噪变换器的功能，采用整体方法进行视频生成。
LTX-Video 旨在优化它们之间的交互，Video-VAE，能够实现 1:192 的高压缩比，每个标记的时空下采样为 32×32×8 像素，这得益于将分块操作从变换器的输入迁移到 VAE 的输入。
在这种高度压缩的潜在空间中，变换器能够高效地执行完整的时空自注意力，这对于生成具有时间一致性的高分辨率视频至关重要。
然而，高压缩本质上限制了对细节的表现。为了解决这个问题，
1. VAE 解码器负责潜在到像素的转换以及最终的去噪步骤，直接在像素空间中生成干净的结果。
2. 保留了生成细节的能力，而无需单独的上采样模块所带来的运行时成本。
模型支持多种使用案例，包括文本到视频和图像到视频的生成，这两种能力是同时训练的。它实现了超实时生成，在 Nvidia H100 GPU 上以 768×512 分辨率仅需 2 秒即可生成 5 秒的 24 fps 视频，超越了所有同类规模的现有模型。
源代码和预训练模型已公开，设立了可访问和可扩展视频生成的新基准。

Introduction

在这里插入图片描述

图 1：LTX-Video 生成的文本到视频（第一行）和图像到视频样本（最后 2 行，以左帧为条件），突出了我们模型的高水平提示依从性、视觉质量和运动保真度。每行显示从生成的 5 秒视频中均匀分布的帧。

现有视频模型包括 Sora、MovieGen、CogvideoX、Open-Sora、PyramidFlow等T2V 模型证明了自注意力和全局感受野的时空变换器的有效性，以及用于时空压缩的3DVAE。虽然验证了基本架构选择的有效性，但是依赖于常规 VAE 设计。
同期工作，DC-VAE [6] 表明，与采用更高空间压缩因子的 VAE 和最多 64 个通道的高维潜在空间配对时，基于文本的扩散模型更有效地执行。然而，将这种方法扩展到视频会带来重大挑战。

受生成高分辨率图像和视频方面方法的启发，本文提出了 LTX-Video，一种基于转换器的潜在扩散模型，它同样优先考虑空间和时间维度。
本方法的特点是精心设计的 VAE 架构，该架构实现了更高的空间压缩，同时通过增加 128 个通道的潜在深度来保持视频质量。这种设计选择不仅能够更有效地处理视频数据，而且还会导致高性能的 3D VAE 实现。

128个通道的潜在深度增加能够更有效地处理视频数据，使得高性能的 3D VAE 实现。潜在扩散模型牺牲了应用像素级训练损失来提高训练效率的能力，通常是以牺牲生成合理的高频细节为代价的。

Sora [1] 和 MovieGen [2] 通过应用第二阶段扩散模型来生成高分辨率输出来减轻这一限制。PixelLoss[7]试图通过在VAE解码的噪声潜伏期上合并像素级损失来解决这个问题，但在压缩潜空间的极限内保留了整个生成过程。
相较之下，我们建议让 VAE 解码器同时负责执行最后的去噪步骤以及将潜在向量转换为像素。

关键见解：这种修改在高潜在压缩率下特别有影响，其中并非所有高频细节都可以重建，并且必须生成。

我们采用了可扩展且灵活的Transformer架构，使我们的模型能够在多种大小和持续时间内生成图像和视频。基于 Pixart-α 的体系结构，它将 DiT 框架扩展到以开放文本输入为条件，而不是局限于 ImageNet 类标签，我们引入了几个关键的增强。

具体来说，我们用归一化分数坐标增强的旋转位置嵌入（RoPE）替换了传统的绝对位置嵌入，从而提高了视频生成中的空间和时间相干性。
我们对Key张量和Query张量进行了归一化，以稳定注意力计算，增强鲁棒性并增加注意力权重的熵。我们的方法解决了现有模型的局限性，为鲁棒视频生成提供了更集成和高效的解决方案

我们的模型是同类最快的视频生成模型，能够生成比观看视频所需的时间快（在 Nvidia H100 GPU 上以 768 × 512 像素生成 121 帧，在 Nvidia H100 GPU 上生成 20 个扩散步骤），同时优于所有可用的相似尺度模型（2B 参数，蒸馏前）。

除了文本到视频的生成之外，我们还扩展了我们的模型处理图像到图像的功能。
通过简单的基于时间步长的条件机制，该模型可以以输入视频的任何部分为条件，而不需要额外的参数或特殊标记。

LTX-Video 生成的文本到视频和图像到视频样本见Fig 1、18 、图 19 。

Controbutions：

潜在扩散的整体方法：LTX-Video 无缝集成了 Video-VAE 和去噪转换器，优化它们在压缩的潜在空间内的交互，并在 Transformer 和 VAE 的解码器之间共享去噪目标。
利用新的损失函数的高压缩视频 VAE：通过将补丁操作重新定位到 VAE 并引入新的损失函数，我们实现了 1:192 的压缩比，时空下采样为 32 × 32 × 8，从而能够以前所未有的速度生成高质量的视频。
LTX-Video一个快速、可访问和高质量的视频生成模型：我们训练和评估我们增强的扩散变压器架构并公开发布 LTX-Video，这是一个比实时的文本到视频和少于 2B 参数的图像到图像到视频模型

方法

为了便于LTX-Video的更快实时操作，同时保持较高的视觉质量、运动保真度和提示依从性，我们采用了一种整体的潜在扩散方法，优化了视频VAE与扩散变压器之间的相互作用。

我们利用高压缩率为 1:192 的高维潜在空间和 32 × 32 × 8 的时空下采样。为了支持高频细节的生成，我们将 VAE 解码器分配执行最后一个去噪步骤的任务，同时将潜在转换为像素，如图 2 所示。
在这里插入图片描述
我们的整体方法，以及视频 VAE 架构、损失函数和扩散转换器架构中的关键设计变化，尽管像素到令牌的比率很高，但能够生成高质量的视频。

Video VAE

在压缩的潜在空间中运行是文本到视频扩散转换器模型成功的关键：这些模型的训练和推理时间主要由令牌的数量决定（注意操作在令牌数量上是二次的），而扩散过程受益于压缩的潜在表示，因为它减少了原始信号的固有信息冗余（SimpleDiffusion [11]、SD3 [12]）。

最近的文本到视频模型（CogVideoX [3]、MovieGen [2]、PyramidFlow [5]、Open-Sora Plan [4]、HunyuanVideo [13]）使用 VAE，将时空维度缩小 8 × 8 × 4 或 8 × 8 × 8，同时将通道数从 3 增加到 16。这些配置导致总压缩因子为 1:48 或 1:96。随后，补丁器在转换器的输入处将大小为 2 × 2 × 1 的潜在补丁收集到令牌中，实现了 1:1024 或 1:2048 的有效像素到令牌比率。

相比之下，本文的Video-VAE 使用具有 128 个通道的 32 × 32 × 8 的时空压缩，导致总压缩为 1:192（典型压缩的两倍）和像素到令牌的比率为 1:8192（典型比率的四倍），而不需要补丁器。有关更多详细信息，请参见表 1。

在这里插入图片描述 SimpleDiffusion [11] 强调了高分辨率像素空间中信息冗余的挑战，他们通过增加每个扩散步骤添加的噪声量来缓解它。
这一挑战也适用于更高分辨率的潜伏期(SD3[12])，以及时间维度的冗余。

因此，空间和时间压缩至关重要。我们使用 PCA [14] 在 128 个视频样本的潜在像素上使用 PCA [14] 分析潜在空间中的冗余（见图 3）。随着训练的进行，我们的 VAE 学会利用可用的通道并减少它们的冗余。请注意，在将它们传递给转换器之前，对潜在进行幼稚的补丁化，正如最近的模型所做的那样，无助于减少冗余。

在这里插入图片描述

潜在空间冗余。(a) 不同训练步骤中潜在通道的累积解释方差（2% - 100% 的训练）。随着训练的进行，冗余减少和组件对方差的贡献更大。(b, c) 潜在通道自相关矩阵：早期高非对角线值（总训练步骤的 4%）和训练完成时的接近零。

为了实现高压缩比而不损失质量，我们对当前的变分自编码器（VAE）引入了几个关键的增强，具体内容将在以下章节中描述。我们训练并比较了几种旨在高效地将视频和图像映射到统一潜在空间的 VAE。这些 VAE 是我们模型的关键组成部分。有关我们的 VAE 架构，请参见图 4。值得注意的是，与标准的 DiT 扩散模型相比，我们将分块层从变换器的开始位置移动到 VAE 编码器的开始位置，并将 VAE 解码器的任务设定为在将潜在向量解码为像素的同时执行最后的去噪步骤。

在这里插入图片描述

Shared Diffusion Objective

Rectified-flow models 旨在映射噪声潜变量 $z_{t_i} =(1−t_i)z_0 + t_iε$ ，以期望干净的潜变量 $z_0$ ，使 $f^θ (z{t_i}, t_i) = z_0$ 。通过将z0初始化为纯噪声(ε)，并迭代更新z0，噪声水平降低 ${t_N,t_{N−1},t_{N−2}..., t_2, t_1}$ ，预测的 $z_0$ 变得更干净，直到它与训练集的分布紧密匹配。

然而，在实践中，迭代次数是有限的，很少实现真正的收敛。因此，残余不确定性仍然存在。

在潜在扩散中，其中 $z_0 = E(x_0)$ 是数据样本 x_0 的压缩表示，这种残余不确定性通常表现为解码器 $D$ 的分布外输入，导致重建像素空间 $x_0 = D(z_0)$ 中的伪影。我们的实验表明，当编码器 $E$ 以高压缩率运行时，这种影响会更加严重，尤其是在具有高频信号的区域，这些信号在压缩潜在空间中表现不佳。

分布外输入（Out-of-Distribution Inputs，OOD Inputs）是指数据样本在训练过程中未被很好代表或根本未被见到的输入。这会导致模型在处理这些输入时表现不佳，因为模型在训练时仅学习到了数据的特征分布，却无法应对输入数据的潜在变异性或未包含的特征。

在上文提到的潜在扩散模型中，当输入到解码器的潜在表示（如 $z_0$ ）包含分布外输入时，解码器可能产生不正确的或伪影的输出，导致重建结果的失真。这种现象在编码器在高压缩率下运行时尤为明显，因为在这种情况下，许多高频信号（即细节信息）在压缩过程中可能会被丢失或压制，导致模型无法正确重建这些细节。

压缩潜在空间的重要性：在视频扩散变压器中，压缩的潜在空间对于实际可用性至关重要。
MovieGen [2]：引入基于扩散的上采样器，运行在不太激进的压缩潜在空间中。
Sora [1]：提出一种直接在像素空间中工作的上采样器，以基本模型的潜在输出为条件。
效果与成本：尽管这些方法有效减轻了伪影的出现，但也带来了显著的计算和运行时成本

为了在保留更快的生成时间的同时生成精确的精细细节，本文提出了一种融合解码和去噪步骤的新方法。具体来说，我们将解码器训练为扩散模型，该模型将噪声潜伏期映射到不同噪声水平下的干净像素: $x_0 = D(z_{t_i}, t_i) = D ((1−t_i)z_0 + t_iε, t_i)$ 。由于 $D$ 在不同维度空间之间的映射，它不能像标准扩散模型那样迭代地应用。

然而，它可以以基本模型无法实现的方式执行最后的去噪步骤
$x_0 = D(z_{t_1}, t_1)$ 。与受限于潜在空间有限表现力的潜在到潜在去噪基本模型不同，我们的去噪解码器直接在像素空间中输出，并使用像素空间损失进行训练。

我们对 $D(z_{t_i} , t_i)$ 的实现遵循标准的从粗到细的潜在像素解码架构。为了以时间步 $t_i$ 为条件，我们采用了自适应归一化层，如基于 U-Net 的扩散模型（例如 DDPM [15]）中常用的。去噪解码器在 [0, 0.2] 范围内使用噪声水平进行训练，对应于常见噪声调度器的最终扩散时间步长。

Reconstruction GAN (rGAN)

VAE 训练的一种常见方法是平衡像素级 L2 损失、感知损失 (LPIPS [16]) 和 GAN 鉴别器。

在高压缩率下，L2 损失通常会产生模糊的输出。感知损失的添加减少了模糊，但可能会引入纹理伪影，特别是在高运动场景中。然而，对抗性训练方法通常依赖于为与重建无关的任务设计的鉴别器。这些鉴别器的任务是在没有额外上下文的情况下区分真假样本，这使得它们的工作对于特定于重建的任务变得不必要地具有挑战性。对于具有空间有限上下文的 Patch-GAN 鉴别器，这一挑战尤其明显。例如，鉴别器可能很难确定模糊补丁是由于景深效应还是源于假样本。

在这里插入图片描述 > 我们新颖的重建 GAN 损失。(a) 传统的 GAN——鉴别器看到真实图像或重建图像。(b) 重建 GAN - 鉴别器看到同一样本的两个版本（连接），并且需要决定哪个是原始版本，哪个是重建版本。

为了解决这个问题，我们提出了重建 GAN（见图 5），这是对为重建任务量身定制的传统 GAN 训练框架的改编。在我们的方法中，鉴别器提供每次迭代的输入和输出和重构样本。其目标是确定哪些样本是原始（真实）和重建（假）。这种相对比较大大简化了鉴别器的任务，提高了它指导生成器的能力。

我们的实验表明，我们提出的重建 GAN 极大地提高了 GAN 的稳定性和性能。此外，它允许鉴别器不仅可以作为匹配真实样本一般分布的损失，还可以作为稳健的重建损失，有效地平衡保真度和感知质量。

Multi-layer Noise Injection

在当前的 VAE (SD-XL [17], DC-VAE [6]) 中，随机性仅通过向潜在添加噪声来引入（根据预测的对数方差值）。

在StyleGAN[18]之后，我们还在VAE解码器的几层注入噪声，允许生成更多样化的高频细节。
噪声水平是每通道学习的。

Uniform log-variance

我们发现，在使用宽潜在空间（大量通道）时，标准的 KL 损失往往导致潜在空间不均匀，其中一些通道未被用于重建，而是“牺牲”了以满足 KL 损失（预测的均值缩小并接近于零，而预测的方差接近于一）。为了解决这个问题，我们为所有潜在通道使用了统一方差——一个在通道之间共享的单一预测的 logvar。这均匀地分配了 KL 损失在所有通道上的影响。

Video DWT Loss

为了缓解L1或L2像素损失在保证高频细节重建方面的已知不足，我们引入了一种时空离散小波变换(DWT)损失。具体来说，我们为输入和重构视频计算 8 个 3D DWT 变换，并使用它们的 L1 距离作为损失。

VAE 实现 detail

用于训练我们的 VAE 的最终损失集是：像素重建 (MSE)、视频-DWT (L1)、感知 (LPIPS) 和重建-GAN。
我们测试了因果 VAE 和非因果 VAE。虽然非因果 VAE 更容易训练以更好地重建，但因果 VAE 可以在图像和视频和第一帧条件视频生成上轻松同时训练。
我们还测试了使用可分离卷积的架构，利用 2D 空间内核和 1D 时间内核。我们发现 3D 卷积的工作略好。

Video Transformer

为了优化我们的变压器架构来建模多样化和复杂的数据，我们在Pixart-α[8]基线上加入了几个关键的修改，这与该领域的最新进展一致。有关我们的 3D 变压器块的架构，请参见图 6。

在这里插入图片描述

旋转位置编码

根据 FiT、LargeDiT 和 H-DiT，本文用旋转位置嵌入（RoPE）替代了传统的绝对位置嵌入。RoPE 允许对位置信息进行更动态和上下文敏感的解释，这对管理视频数据中序列的变长和维度变化至关重要。

在我们的嵌入实验中，我们测试了三种主要变体：(1) 绝对位置嵌入，(2) 使用分数坐标的 RoPE，以及 (3) 使用预定义最大值归一化的分数坐标的 RoPE。
在这里插入图片描述

我们的实证结果表明，相较于归一化分数坐标方法，性能更优。为确保在不同分辨率、帧数和帧速率下的一致性，我们分别计算了空间和时间 RoPE 坐标（以像素和秒为单位），相对于预定义的最大分辨率和持续时间。将原始帧速率融入时间嵌入允许模型生成更自然的运动。

在这里插入图片描述

尽管许多开源实现使用反向指数频率间隔，我们的实验表明，随着频率的指数增长，性能表现更好。这一发现与最近的理论研究表明，截断较低频率可能会改善模型性能。

QK Normalization

遵循 ScalingViT [23] 和 LargeDiT [20] 中提出的发现，我们在点积注意力计算之前对 Query和Key应用归一化层，以避免注意力 logits 中的值非常大，这导致注意力权重接近于零熵。我们比较了 RMSNorm 和 LayerNorm [24]，发现 RMSNorm 表现更好。这些增强旨在显著提高模型的性能和适应性，特别是在解决视频和图像生成任务所带来的独特挑战方面。

文本条件

文本条件方法的选择在确保模型准确解读和生成基于文本输入的内容方面发挥着关键作用。为了实现稳健的文本到图像和文本到视频合成，我们采用了几种灵感来自于近期领域进展的策略。

使用预训练文本编码器

GLIDE 首创了一种集成去噪 U-Net 的基于变换器的文本编码器，为后续模型奠定了基础。Imagen 和 ImagenVideo 推荐使用预训练文本编码器来条件化扩散模型，这一做法在后续工作中被广泛采用，包括在输入文本嵌入上使用可学习的投影层以改进特征映射。

与 Imagen、DALL-E 3 和 Pixart-α 的方法一致，我们利用 T5-XXL 文本编码器生成初始文本嵌入。这个选择的动机是借鉴这些模型在利用预训练文本编码器增强输入文本语义理解方面的成功。

交叉注意力

用于文本嵌入令牌条件化扩散变换器的两种常见架构是交叉注意力 (Pixart-α、MovieGen) 和 MM-DiT (由 SD3 引入并用于 FLUX.1、AuraFlow、CogVideoX)。在 MM-DiT 中，文本嵌入与图像补丁嵌入并行处理。统一注意力层促进了这两种嵌入之间信息的交换，表明对图像嵌入的部分转换应用可以与噪声和时间步参数解耦。我们使用交叉注意力，因为我们发现它的效果优于 MM-DiT。

图像条件

在许多内容创作工作流程中，视频生成通常从给定的第一帧开始，无论是真实的还是生成的，我们希望根据文本提示进行动画制作和扩展。存在多种方法将图像条件信号注入到模型中，例如 SVD、LFDM、I2VGen-XL 和 Open-Sora Plan，通常需要特殊的标记和专门为图像到视频任务训练的模型。我们基于并扩展了 Open-Sora 中提出的方法，该方法利用扩散时间步作为条件指示符，允许对视频的任何部分进行无缝条件化。

在 DiT 和 Pixart-α 中，相同的时间步嵌入始终通过 AdaLN 注入到所有标记中，并且所有标记都被噪声处理到对应的噪声级别。我们放宽了这一限制，允许为每个标记指定不同的时间步和相应的噪声级别。

为了训练模型以实现第一帧的条件化，我们偶尔将属于第一帧的标记的时间步设置为一个小的随机值，并将这些噪声标记设置为对应的噪声级别。模型迅速学习利用这一新的信息（在提供时）作为条件信号。

在推理过程中，使用我们的因果 VAE 编码器将条件图像编码为时间维度为 1 的潜在张量。这个张量与随机噪声潜伏期连接，并被展平以形成初始标记集。每个令牌去噪时间步设置为一个小值 $t_c$ 以调节令牌，所有其他令牌设置为 t = 1。图 9 说明了这个过程。
在这里插入图片描述

Rectified-Flow Training

在本节中，我们描述了训练过程和损失的具体设计选择。这些设计选择显着影响训练时间和由此产生的模型质量。

背景

在Rectified-Flow[36]中，SD3[12])中，根据 $z_t =(1−t)z_0 + tε$ ，将干净的输入z0在正向过程中线性噪声，其中噪声ε从标准正态分布N (0, I)中采样。在训练期间，t 是从某个分布中采样的（在原始扩散论文中是均匀的 - t ∼ U(0, 1))。在原始扩散设置中，模型的任务是预测噪声 ε。由于这个预测任务不是均匀分布的，SD3[12]建议用预测速度v = ε−z0对网络进行训练。
在推理过程中，初始纯噪声 $z_1$ 逐渐去噪到干净的图像 $z_0$ 。在每一步，去噪过程为 $v^θ_t$ ，其中 $v^θ_t$ 为模型在时间步t预测的速度。

时间调度

SD3[12]提出了从对数正态分布训练期间对扩散时间步长t进行采样，取代了早期模型中使用的均匀分布U(T)。
动机是为速度预测任务更难的时间步长分配更多的训练步骤。

SimpleDiffusion [11] 表明，在更高的图像分辨率下，需要更高级别的噪声来保持 SNR。我们采用这种推荐并将时间步长调度器转移到更高的噪声区域，具体取决于令牌的数量。为了防止分辨率尾部的饥饿，我们在百分位数 0.5 和 99.9 处钳位 pdf。对于两种不同的分辨率的两个时间步长分布移动，请参见图 10。
在这里插入图片描述

Multi-resolution Training

为了使模型生成不同分辨率的视频，我们在分辨率和持续时间的多个组合上同时训练。我们观察到，在暴露于不同的宽度、高度和持续时间组合后，该模型可以很好地推广到看不见的配置。在训练期间，我们通过将原始视频调整为可比较的令牌计数来确保所有输入样本包含大致相同数量的令牌。为了修复所有序列的标记计数，我们应用了从 0% 到 20% 的速率的随机标记droping。这种简单有效的方法消除了对复杂令牌打包或填充策略的需求，同时保留了训练数据中的多样性。

Training on Images

我们将图像训练与常规视频训练相结合，将其视为分辨率持续时间组合之一。图像数据集可以丰富训练期间遇到的概念集，结合视频数据集中不存在的概念集。

数据准备

我们的训练数据集包括一个强大的公开可用的数据集合，证书许可，确保多样化和全面的训练环境，并使我们的模型能够生成各种各样的视觉内容。本节描述了我们的数据处理管道——见图 11。质量控制和过滤质量控制是我们数据准备过程的一个关键方面。

我们训练并使用美学模型来评估视频和图像。

该模型是在数万个图像对上训练的，手动标记以根据审美质量识别优越的图像。
在这里插入图片描述

为了进行手动标记，我们使用多标签网络标记了数百万个样本，只抽取那些至少共享三个主要标签之一的配对。这种方法有助于在基于美学过滤数据时最小化分布偏移。

训练数据用于训练一个孪生网络（Siamese Network），该网络旨在预测每个样本的美学分数，并保持标签配对所建立的顺序关系。一旦训练完成，模型计算每个样本的美学分数，并过滤掉那些得分低于某一阈值的样本。

这个过程确保我们只选择视觉上最吸引人的内容，这对训练我们的模型以生成高质量的输出至关重要。

动态与宽高比过滤

除了美学过滤外，我们还积极移除运动微弱的视频，以确保数据集专注于更符合模型目标能力的动态内容。视频还经过处理，以裁剪掉黑边，从而标准化宽高比并增强可用视觉数据。

通过美学内容进行微调

在微调过程中，我们有选择性地使用过滤过程中识别出的最具美学价值的内容。这种方法有助于在生成的输出中实现更具视觉吸引力的结果，符合高标准的图像和视频质量。

有关我们过滤数据中剪辑持续时间分布的信息，请参见图 14b。

标题和元数据增强

为了增强训练数据的元数据，我们利用内部自动图像和视频标题生成器，对整个训练集进行重新标题。这一重新标题过程确保文本描述准确且相关，为上下文提供更多信息，从而改善训练数据和视觉内容与文本注释之间的对齐。输入视频和生成视频的示例如图 12 和图 13 所示。图 14a 显示了我们整个数据集中标题词云的分布以及每个标题的数量分布。
在这里插入图片描述

在这里插入图片描述

实验

训练

我们使用 ADAM-W 优化器训练我们的模型在预训练后，我们在包含高美学视频的数据子集上微调我们的模型。

Evaluation

继 MovieGen [2] 之后，我们进行了一项人类调查，以评估 LTX-Video 的质量，与当前最先进的类似大小的模型相比：Open-Sora Plan [4]、CogVideoX [3] (2B) 和 PyramidFlow [5]。我们为文本到视频任务使用了 1,000 个提示，为图像到视频任务使用了 1,000 对图像和提示（图像是使用 FLUX.1 [30] 生成的）。然后，我们使用所有评估模型及其默认配置，以 768 × 512 的分辨率生成 5 秒视频。所有视频都是使用 40 个扩散步骤生成的。该调查涉及 20 名参与者，每个参与者每次从随机选择的一对评估模型（不一定包括 LTX-Video）中随机排序的一对视频时都会显示。模型名称未向参与者透露。对于每一对视频使用相同的提示（以及图像到图像到视频任务的相同初始帧）生成。参与者根据视频的整体偏好对视频进行排名，考虑到视觉质量、运动保真度和提示依从性。如果参与者不确定，使用提供的“跳过”选项，他们可以跳过对一对的投票。为了确保我们的调查包含足够数量的评估者，我们将参与者分为两组各10人，发现组间胜率相差不到 2%。

每个类别的结果总结为每个模型获胜的测试百分比（计算为wins/(wins + loss))。调查结果如表 2 所示。如图所示，LTX-Video 显着优于其他类似大小的模型，即使它具有相当大的速度优势。图 15 说明了成对胜率。由于我们评估了所有模型对（而不仅仅是 LTX-Video 与其他模型），我们展示了完整的成对结果。
在这里插入图片描述

消融

在这里插入图片描述

RoPE 频率间距

如第2.2.1节所讨论的，我们比较了RoPE频率间距的两种变体——指数和指数逆。图17显示了两种频率间距设置的扩散训练实验的训练损失
在这里插入图片描述

降噪 VAE Decoder

我们的整体方法通过执行最后一个去噪步骤以及将潜在转换为像素来任务 VAE 解码器。为了验证这种设计选择，我们进行了一项内部用户研究，将根据我们的方法生成的视频与常用方法生成的视频进行比较，其中去噪仅由扩散转换器在潜在空间中执行。对于第一组结果，我们的 VAE 解码器以时间步 t = 0.05 为条件。对于第二组，VAE 解码器以时间步 t = 0.0 为条件，不进行任何去噪。调查结果表明，我们的方法生成的视频比标准结果更受欢迎。在高运动视频中，这种改进尤其明显，其中由强压缩引起的伪影被 VAE 解码器的最后一步去噪所缓解。

限制

模型对提示表述的敏感性

尽管 LTX-Video 展示了强大的提示遵循能力，但其性能在很大程度上依赖于文本提示的质量和清晰度。格式不良或含糊的提示可能导致输出不够连贯。

对长视频的有限支持

目前，该模型主要用于生成时长为 10 秒以内的短视频。扩展该架构以支持更长时间的视频，同时保持时间一致性和提示忠实性，仍然是未来研究的一个开放领域。

特定领域的泛化能力

模型适应特定领域任务（例如多视角合成或细粒度编辑）的能力尚未经过广泛测试，需要进一步实验以评估其在专业应用中的表现。

社会限制

可及性与民主化

我们的模型在设计时考虑了可及性。与许多需要高端硬件和大量计算资源的先进文本到视频模型不同，我们的模型经过优化，能够高效运行，并可以在消费级 GPU 上执行。这种设计选择使得先进的文本到视频生成对于那些可能无法访问昂贵硬件设置的研究人员、开发人员和爱好者更加可及。

开源贡献

通过将我们的模型开源，我们旨在促进创新和加强人工智能社区的合作。开放访问模型鼓励多样化的应用，包括教育工具、创意内容生成以及小型和中型企业的快速原型制作，这些企业可能缺乏训练大型模型所需的资源。

环境考虑

我们模型的相对小巧不仅降低了硬件要求，还减少了与训练和部署相关的能耗。这为部署人工智能技术提供了更可持续的方法。

潜在风险与缓解

虽然我们的模型降低了进入门槛，但我们认识到，使这种广泛可用的技术可能会带来风险，例如用于生成误导性内容的滥用。为此，我们在文档中包括了明确的指南和免责声明，以鼓励负责任的使用。

总结

LTX-Video，一种最先进的基于变换器的潜在扩散模型，专为文本到视频和图像到视频生成而设计。通过解决现有方法中的一些关键限制，如受限的时间建模和低效的空间压缩，LTX-Video 实现了比实时更快的生成，同时保持高运动保真度、时间一致性，并与输入提示或条件帧保持强一致性。

LTX-Video 的核心是对潜在扩散的整体方法，它无缝集成了 Video-VAE 和去噪变换器。这种集成通过将补丁操作从变换器输入移动到 VAE 编码器中实现，使其能够在压缩潜在空间内进行高效处理。此外，该模型引入了一种新颖的共享扩散目标，在 VAE 解码器和变换器之间进行有效融合，实质上将最终扩散步骤与潜到像素的解码阶段融合在一起。这一创新确保了细节生成的精细化，而无需额外的上采样模块。

LTX-Video 为文本到视频生成设定了新的基准，在速度和质量上超越了同类开源模型。它高效生成高分辨率视频的能力，同时保持一致性和对提示的遵循，突显了潜在扩散模型在视频生成任务中的潜力。

LTX-Video 的可及性进一步放大了其影响，因为其高效设计允许在消费级 GPU 上运行。通过降低硬件要求，LTX-Video 为未能获得高端计算资源的研究人员、开发人员和创意专业人士打开了大门。

未来的工作可以探索扩展 LTX-Video 的架构，以支持更长的视频，结合先进的时间一致性技术，以及研究其在领域特定任务中的适应性，例如多视角合成或细粒度运动编辑。通过实现更快速、更高质量的输出，LTX-Video 代表了创意内容创作、可及人工智能和可扩展视频建模方面的重要进展。

在这里插入图片描述