当前位置：首页 > article >正文

意图颠覆电影行业的视频生成模型：Runway的Gen系列

article 2025/4/2 13:34:10

大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Runway开发的视频生成模型Gen系列，包括Gen-1、Gen-2和Gen3 Alpha等，这些模型每次发布都震惊AI圈，荣获多个视频生成的“首个”称号。

🌺优质专栏回顾🌺：

机器学习笔记
深度学习笔记
多模态论文笔记
AIGC—图像

文章目录

Runway介绍
Gen-1
论文
摘要和介绍
摘要
介绍

训练与推理过程
训练过程
推理过程

实现原理
潜在扩散模型(LDM)
时空潜在扩散(Spatio-temporal Latent Diffusion)
结构与内容的表示(Representing Content and Structure)
条件扩散模型
内容表示
结构表示
调节机制
采样
DDIM采样
无分类器扩散引导
两个共享参数模型

优化过程

结果
结论

Gen-2
论文

Gen-3 Alpha
论文

Runway介绍

首先，我们先来了解下Runway这个企业。Runway是一家成立于2018年的美国人工智能公司，2022年年底，举办首届AI电影节（Runway成立的初衷就是颠覆电影行业）。2023年4月，入选《福布斯2023年AI 50榜单：最有前途的人工智能公司》，在人工智能多个领域有着重大的突破，例如：

2022年8月，与Stability AI等公司一起训练一个举世闻名的图像生成模型Stable Diffusion。
2023年2月发布Gen1，支持视频风格转绘。
2023年6月发布Gen2，开启了文生视频和图生视频的序章。
2024年6月，发布了当时AI视频的王——Gen3【截止发布日期，达到SOTA水平】。

Stable Diffusion模型在之前的“AIGC-图像”系列模型中已经详细介绍。感兴趣的朋友可以参考：SD

至于为什么Stable Diffusion后续的模型由Stability AI发布和主要推进的原因，可以自行查阅【有趣】。

目前，Runway的Gen系列模型主要有Gen-1、Gen-2和Gen3 Alpha等，下面将介绍Gen-1、Gen-2和Gen3 Alpha模型，由于只有Gen-1的论文对外公布了，所以，我们这里详细介绍Gen-1的实现细节。

Gen-1

在2023年2月，Runway提出了首个AI编辑模型Gen-1，Gen-1可以在原视频的基础上，编辑出想要的视频。无论是粗糙的3D动画，还是用手机拍出来的摇摇晃晃的视频，Gen-1都可以将先有的视频转换为一个不可思议新视频。

说到AI编辑模型，可能有人会想到ControlNet。就在 GEN-1 论文发表没几天，正要掀起热度时候，ControlNet横空出世并且开源，完全把Gen-1的风头盖过去了。

论文

论文链接：https://arxiv.org/pdf/2302.03011.pdf
项目主页：https://runwayml.com/research/gen-1

特点：通过应用文本 prompt 或参考图像指定的任何风格，可将现有视频转化为新视频。是一种结构可控和内容感知引导的视频扩散模型，能够对已有视频进行风格转换、内容编辑等操作，可将输入视频转换为与用户提供的图像或文本提示相匹配的效果，还可以灵活控制模型对视频结构的控制力度，并且能通过自定义的指导方法来调整推理过程，以控制生成视频与原视频的时间一致性。
应用案例：用几个包装盒，Gen-1就可以生成一个工厂的视频。

摘要和介绍

摘要

文本引导的生成式扩散模型已用于图像创建和编辑，现扩展到视频生成。由于视频数据的时间特性，这种格式的编辑仍然复杂且耗时。最先进的机器学习模型在改进编辑过程方面显示出了很大的潜力，但这些方法往往在时间一致性和空间细节之间进行权衡。
提出结构和内容引导的视频扩散模型，可依据视觉或文本描述编辑视频，因内容编辑与结构表示解耦不足会有冲突。
作为一个解决方案，Gen-1模型提出了一个可控的结构和内容感知的视频扩散模型，该模型在大规模的无字幕视频和配对的文本 - 图像数据上进行训练。作者选择用单目深度估计来表征结构，用预训练的神经网络预测的嵌入来表征内容。

单目深度估计是一种仅使用单个摄像头拍摄的图像来估算场景中物体深度信息的技术。

介绍

Gen-1 提出了一种基于潜在视频扩散模型的方法。如下图所示，该方法可根据通过文本（上方）或图像（下方） 描述的内容来合成视频，同时保持输入视频（中间） 的结构。

Gen-1的视频编辑有两种方式：

视频-文本对生成新视频：
- 输入：文本（蓝框）、视频（红框）
- 输出：新视频（黄框）
视频-图像对生成新视频：
- 输入：图像（绿框）、视频（红框）
- 输出：新视频（灰框）

在这里插入图片描述

作者在视频生成的过程中还提供了几种控制模式：

首先，类似于图像合成模型，训练模型，使得其可以推断视频的内容，例如他们的外观或风格，及匹配用户提供的图像或文本提示。
第二，受扩散过程的启发，我们对结构表示应用信息模糊过程，以能够选择模型对给定结构的遵循程度。
最后，还对推理过程进行了调整，通过自定义指导方法，以及受classifier-free guidance的启发，以控制生成的剪辑的时间一致性，相当于做到了时间、内容、结构三者在一致上的统一对齐。

视频编辑实现原理：

视频的文字引导生成得益于文本引导图像，如 DALL-E2 和 Stable Diffusion，生成的前期工作，毕竟，潜在扩散模型提供了一种 “在感知压缩空间中高效合成图像” 的方法。
通过将时间层引入预训练图像模型，并在图像和视频上进行联合训练，从而将潜在扩散模型拓展到了视频生成领域。
提出了一个结构和内容感知的模型，在样本图像或文本的指导下修改视频。编辑工作完全是在推理期间进行的，不需要额外对每个视频进行训练或预处理。

训练与推理过程

就研究目的而言，从内容和结构的角度来考虑一个视频将是有帮助的。Gen-1模型的目标是保留视频结构的同时，编辑视频内容。

结构：指视频的几何、动力学的特征，比如对象的形状、位置以及他们的时间变化
内容：指的是视频外观及其语义的特征，比如对象的颜色、样式以及场景的光亮度

为了实现这一目标，需要在结构表征（用 $s$ 表示）和内容表征（用 $c$ 表示）的基础上学习视频 $x$ 的生成模型 $p (x ∣ s, c)$ ，从而通过输入的视频 $x$ 推断出其结构表示 $s$ ，然后根据编辑视频的描述文本 $c$ 进行修改。

训练过程

在这里插入图片描述

在训练阶段：

一方面输入视频 $x$ 通过固定编码器 $\mathcal{E}$ 编码为 $z_0$ ，并扩散到 $z_t$ 。
另一方面通过对使用MiDaS获得的深度图进行编码来提取结构表示 $s$ ，并通过使用CLIP对其中一帧进行编码来提取内容表示 $c$ 。

然后，模型在 $s$ （与 $z_t$ 拼接）以及通过交叉注意力块提供的 $c$ 的帮助下，学习在潜在空间中逆转扩散过程。

推理过程

在这里插入图片描述

在推理阶段：

以相同方式提供输入视频的结构 $s$ 。
为了通过文本指定内容，我们通过先验将CLIP文本嵌入转换为图像嵌入。

实现原理

潜在扩散模型(LDM)

在论文中作者还简要概括了潜在扩散模型的扩散过程，如下所示，DDPM的详细介绍参考：Diffusion Model 原理

前向扩散——加噪：
扩散模型是学习逆转一个固定的前向扩散（加噪）过程，即学习如何去噪，前向扩散（加噪）的公式定义如下：
$q(x_t|x_{t-1}) := \mathcal{N}(x_t, \sqrt{1 - \beta_t}x_{t-1}, \beta_t\mathcal{I}) \quad (1)$
正态分布的噪声被缓慢添加到每个样本 $x_{t-1}$ 以获得 $x_t$ 。前向过程建模了一个固定的马尔可夫链，噪声取决于方差调度 $\beta_t$ ，其中 $\in \{1, \ldots, T\}$ ， $T$ 是我们扩散链中的总步数，且 $x_0 := x$ 。

反向扩散——去噪：
前向扩散的逆过程，即去噪（学习如何预测噪声，并且将预测出的噪声去除）根据以下带有参数 $\theta$ 的方程定义：
$p_{\theta}(x_0) := \int p_{\theta}(x_{0:T})dx_{1:T} \quad (2)$
$p_{\theta}(x_{0:T}) = p(x_T) \prod_{t=1}^{T} p_{\theta}(x_{t-1}|x_t) \quad (3)$
$p_{\theta}(x_{t-1}|x_t) := \mathcal{N}(x_{t-1}, \mu_{\theta}(x_t, t), \Sigma_{\theta}(x_t, t)) \quad (4)$
使用固定方差 $\Sigma_{\theta}(x_t, t)$ ，我们只需学习逆过程的均值 $\mu_{\theta}(x_t, t)$ 。训练通常通过对最大似然目标的重加权变分下界进行，从而产生损失函数：
$\mathbb{E}_{t,q}\lambda_t\|\mu_t(x_t, x_0) - \mu_{\theta}(x_t, t)\|^2 \quad (5)$
其中 $\mu_t(x_t, x_0)$ 是前向过程后验 $q(x_{t-1}|x_t, x_0)$ 的均值， $\mu_\theta(x_t, x_0)$ 是预测的噪声，其具有封闭形式。

均值 $\mu_{\theta}(x_t, t)$ 然后由一个UNet架构预测【SD3之前的系列模型的噪声预测也是UNet架构，直到SD3之后才采用了DiT架构】。
潜在扩散模型（LDMs）使用一个自动编码器将扩散过程带入潜在空间。这提供了模型的压缩和生成学习阶段之间的改进分离。

时空潜在扩散(Spatio-temporal Latent Diffusion)

为了正确地对视频帧的分布进行建模，架构必须考虑帧与帧之间的关系。所以作者采用了以下几点：

通过引入时间层来扩展图像架构，这些时间层仅对视频输入有效。图像和视频模型之间共享所有其他层。自编码器保持固定，并独立处理视频中的每一帧。
UNet由两个主要构建块组成：残差块和Transformer块。我们通过添加跨时间的1D卷积和跨时间的1D自注意力将它们扩展到视频。

图3. 时间扩展：我们通过在其构建块中添加时间层，将基于图像的UNet架构扩展到视频。我们在其残差块（左）中的每个2D空间卷积之后添加一个1D时间卷积，并且在其每个2D空间注意力块（右）之后添加一个1D时间注意力块。

在每个残差块中的每个 2D 空间卷积之后引入一个1D 时间卷积。
在每个空间 2D 空间注意力块后引入一个时间1D 时间注意力块。

将图像视为具有单帧的视频，以便统一处理这两种情况。

对于具有批大小 $b$ 、帧数 $n$ 、 $c$ 个通道和空间分辨率 $w \times h$ （即形状为 $b \times n \times c \times h \times w$ ）的批张量.

空间层重新排列为 $(b \cdot n) \times c \times h \times w$ ，
时间卷积重新排列为 $(b \cdot h \cdot w) \times c \times n$ ，
时间自注意力重新排列为 $(b \cdot h \cdot w) \times n \times c$ 。

结构与内容的表示(Representing Content and Structure)

条件扩散模型

扩散模型非常适合对条件分布（如 $p (x ∣ s, c)$ ）进行建模。在这种情况下，前向过程 $q$ 保持不变，而条件变量 $s$ 、 $c$ 成为模型的额外输入。

该论文的目标是基于文本提示来编辑输入视频，但是存在下面的问题：

缺乏高质量的大规模配对视频 - 文本数据集。
既没有<视频，编辑提示，结果输出>的三元组训练数据，也没有视频和文本字幕的成对数据。

问题1的解决方案是将训练限制在无字幕的视频数据上。

问题2的解决方案如下：

在训练期间，从训练视频 $x$ 本身推导出结构和内容表示，即 $s = s (x)$ 和 $c = c (x)$ ，每个示例的损失为：
$\lambda_t\|\mu_t(\mathcal{E}(x)_t,\mathcal{E}(x)_0) - \mu_{\theta}(\mathcal{E}(x)_t,t,s(x),c(x))\|^2 \quad (6)$
在推理期间，结构 $s$ 和内容 $c$ 分别从输入视频 $y$ 和文本提示 $t$ 中推导出来。通过对基于 $s (y)$ 和 $c (t)$ 的生成模型进行采样，可获得 $y$ 的编辑版本 $x$ ：
$\sim p_{\theta}(z|s(y),c(t)), \quad x = \mathcal{D}(z) \quad (7)$

这是一种弥补数据缺失的方式。这种推导出来的结构和内容表示可以在一定程度上代替三元组训练数据中的部分信息。

内容表示

为了从文本输入 $t$ 和视频输入 $x$ 推断内容表示，作者使用CLIP图像嵌入来表示represent content。对于视频输入，在训练期间随机选择输入帧之一。

而且他们还训练一个先验模型，该模型允许从文本嵌入中采样图像嵌入。这种方法能够通过图像输入而不仅仅是文本来指定编辑。

结构表示

内容和结构的完美分离是困难的，语义先验可能会影响视频中目标形状。所以可以选择合适的表征引导模型降低语义与结构之间相关性。
作者发现从输入视频帧中提取的深度估计提供了所需的属性，因为与更简单的结构表示相比，它们编码的内容信息显著更少。

但是，选择CLIP图像嵌入中的内容和结构信息之间仍然存在根本的重叠，这阻止了涉及对象形状大变化的内容编辑。
可以采用基于模糊算子的信息破坏过程，与添加噪声等其他方法相比，这提高了稳定性。

虽然深度图在我们的用例中效果很好，但我们的方法可推广到其他几何引导特征或特征组合，这些可能对其他特定应用更有帮助。例如，专注于人类视频合成的模型可能会从估计的姿势或面部地标中受益。

调节机制

整理提炼如下：

调节机制概述：为考虑内容和结构的不同特征，采用两种不同调节机制：
- 结构表示视频帧重要空间信息，所以用拼接方式调节以利用该信息；
- 内容表示的属性与位置无关，故利用交叉注意力将信息传输到任意位置。
交叉注意力调节：借助U-Net架构的空间Transformer块进行交叉注意力调节。每个块有两个注意力操作，先执行空间自注意力，再执行交叉注意力，且交叉注意力的键和值由CLIP图像嵌入计算得到。
基于结构的调节：
- 利用MiDaS DPT-Large模型为所有输入帧估计深度图。
- 对深度图进行 $t_s$ 次模糊和下采样迭代， $t_s$ 控制保留的结构量，训练时在0和 $T_s$ 间随机采样 $t_s$ ，推理时可控制该参数实现不同编辑效果。
- 将扰动后的深度图重采样到RGB帧分辨率，用 $\mathcal{E}$ 编码，其潜在表示与U-Net输入 $z_t$ 拼接，同时输入包含 $t_s$ 的正弦嵌入的四个通道。

采样

DDIM采样

作者使用了DDIM采样，这是一种确定性采样方法。

无分类器扩散引导

论文中还使用无分类器扩散引导提升采样质量，无分类器扩散引导（Classifier-Free Diffusion Guidance）公式如下：
$\tilde{\mu}_{\theta}(x_t,t,c)=\mu_{\theta}(x_t,t,\varnothing)+\omega(\mu_{\theta}(x_t,t,c)-\mu_{\theta}(x_t,t,\varnothing))$

符号含义：
- $\mu_{\theta}$ 是一个基于参数 $\theta$ 的函数，通常在扩散模型中表示在给定时间步 $t$ 、输入 $x_t$ 以及某些条件下的预测均值。
- $x_t$ 表示在时间步 $t$ 的输入数据，在扩散模型的情境下，它可能是经过噪声扰动后的样本。
- $t$ 是扩散过程中的时间步，用于控制噪声的添加和去除过程。
- $c$ 是条件变量，例如文本提示等，它为模型的预测提供额外的信息。当 $\varnothing$ 时，表示无条件预测，即模型不依赖于任何特定的条件信息进行预测。
- $\omega$ 是一个引导尺度参数，用于控制条件预测和无条件预测之间的权重。

它通过结合无条件预测 $\mu_{\theta}(x_t,t,\varnothing)$ 和条件预测 $\mu_{\theta}(x_t,t,c)$ 来调整最终的预测 $\tilde{\mu}_{\theta}(x_t,t,c)$ 。直观地说， $\omega$ 越大，条件预测对最终结果的影响就越大，模型会更倾向于根据给定的条件 $c$ 进行预测；当 $\omega = 0$ 时，最终预测就等于无条件预测。

两个共享参数模型

作者训练两个共享参数模型：视频模型以及图像模型，控制视频帧时间一致性，如下式：
$\begin{aligned} \tilde{\mu}_{\theta}(z_t,t,c,s) =&\mu_{\theta}^{\pi}(z_t,t,\varnothing,s)\\ &+\omega_t(\mu_{\theta}(x_t,t,\varnothing,s)-\mu_{\theta}^{\pi}(x_t,t,\varnothing,s))\\ &+\omega(\mu_{\theta}(x_t,t,c,s)-\mu_{\theta}(x_t,t,\varnothing,s)) \end{aligned} \quad (8)$

符号含义：
- $\tilde{\mu}_{\theta}(z_t,t,c,s)$ 是经过调整后的最终预测，这里的 $z_t$ 类似于 $x_t$ ，表示在时间步 $t$ 的输入数据， $c$ 是条件变量， $s$ 通常表示结构相关的信息，如深度图等。
- $\mu_{\theta}^{\pi}(z_t,t,\varnothing,s)$ 表示应用于每个帧的图像模型的无条件预测，它基于输入数据 $z_t$ 、时间步 $t$ 、无特定条件（ $\varnothing$ ）以及结构信息 $s$ 。
- $\mu_{\theta}(x_t,t,\varnothing,s)$ 是视频模型的无条件预测，基于输入数据 $x_t$ 、时间步 $t$ 、无特定条件以及结构信息 $s$ 。
- $\mu_{\theta}(x_t,t,c,s)$ 是视频模型的条件预测，基于输入数据 $x_t$ 、时间步 $t$ 、条件变量 $c$ 以及结构信息 $s$ 。
- $\mu_{\theta}^{\pi}(x_t,t,\varnothing,s)$ 是应用于每个帧的图像模型的无条件预测。它基于参数 $\theta$ ，以时间步 $t$ 的输入数据 $x_t$ 、无特定条件（ $\varnothing$ ）以及结构信息 $s$ 作为输入，计算得出预测结果。
  - 与视频模型的无条件预测 $\mu_{\theta}(x_t,t,\varnothing,s)$ 类似，区别在于前者是图像模型的预测，后者是视频模型的预测，二者可能在模型结构、对输入数据的处理方式等方面存在差异。
- $\mu_{\theta}^{\pi}(x_t,t,c,s)$ 可理解为应用于每个帧的图像模型的条件预测。它同样基于参数 $\theta$ ，将时间步 $t$ 的输入数据 $x_t$ 、条件变量 $c$ 以及结构信息 $s$ 作为输入来计算预测结果。
  - 与视频模型的条件预测 $\mu_{\theta}(x_t,t,c,s)$ 相对应，二者的不同在于所属模型不同，可能在对条件变量 $c$ 和结构信息 $s$ 的融合方式、对输入数据 $x_t$ 的处理策略等方面有所区别，进而导致预测结果的差异。
- $\omega_t$ 和 $\omega$ 都是引导尺度参数， $\omega_t$ 用于控制视频模型和图像模型的无条件预测之间的权重， $\omega$ 用于控制视频模型的条件预测和无条件预测之间的权重。

该公式在第一个公式的基础上，进一步考虑了视频模型和图像模型之间的关系，用于控制输出中的时间一致性。它通过结合图像模型的无条件预测、视频模型的无条件预测以及视频模型的条件预测来得到最终的预测。 $\omega_t$ 可以调节视频模型和图像模型的无条件预测对最终结果的影响，而 $\omega$ 则控制条件预测的影响程度，从而使得模型在生成过程中能够更好地平衡不同模型的预测结果，实现对时间一致性的控制。

优化过程

训练数据集：使用包含2.4亿张图像的内部数据集和640万个视频片段的自定义数据集。图像批次大小为9216，分辨率有320×320、384×320、448×256及翻转宽高比的相同分辨率，采样概率12.5%；视频批次含8帧，每隔4帧采样，分辨率448×256，总批次大小1152。
训练阶段：
- 基于预训练文本条件潜在扩散模型初始化权重，将条件从CLIP文本嵌入改为CLIP图像嵌入，仅在图像上微调15000步。
- 引入时间连接，在图像和视频上联合训练75000步。
- 添加对结构s的条件（固定ts≡0），训练25000步。
- 恢复训练，ts在0到7间均匀采样，再训练10000步。

结果

论文中对模型进行了多方面的试验和评估，详细请参考原论文，这里阐述一下评估方式：
作者使用来自DAVIS和各种素材视频的视频。为了自动创建编辑提示，我们首先运行BLIP（字幕模型）以获取原始视频内容的描述。然后，再使用GPT-3来生成编辑后的提示。

论文中提到使用了BLIP模型以获取原始视频内容的描述，但是实际上BLIP 主要是用于图片生成字幕，处理视频以生成字幕还需要一些改进，论文中并未详细提及。
BLIP详细介绍参考：多模态论文笔记——BLIP

结论

作者提出基于扩散模型的视频生成方法。基于深度估计确保结构一致性，同时利用文本或图片进行内容控制；通过在模型中引入时间连接以及联合图像视频训练确保时间稳定性，通过控制轮次 $t_s$ 控制结构保留度。

Gen-2

在2023年3月，距离Gen-1发布刚一个月，Runway提出了首个多模态视频工作流模型Gen-2，相比Gen-1，Gen-2可以从头开始生成视频，宣传词也是非常炸裂——「say it，see it」。如果说2022年发布的stable diffusion/midjourney是文生图的代表，那Gen2便是文生视频的第一个代表。

GEN-1与GEN-2有何区别，官方给出的答案是：

GEN-1使用扩散模型的结构和内容来 引导视频合成，也就是Vedio to Vedio，依赖原始视频素材
GEN-2使用文本驱动视频生成，即是Text to Vedio，摆脱原始视频素材依赖，直接由文字生成视频，工具性更强

论文

论文链接：Gen-2论文暂未发布
项目主页：https://runwayml.com/research/gen-2

特点：实现了从头开始直接生成视频的技术突破，在原有技术的基础上增加了文本生成视频、图片生成视频以及文字和图片共同生成视频的新功能；
应用案例：吸引了派拉蒙和迪士尼等顶级电影制片公司的关注，可用于改进特效制作和多语言配音等方面，如为静态图像添加动态元素，实现口型同步等，可以到项目主页找到更多的应用和实践案例。