当前位置：首页 > article >正文

Step-Video-T2V：阶跃星辰发布最强开源视频生成模型（论文详解）

article 2025/2/21 6:55:06

1.简介

在本技术报告中，作者介绍了Step-Video-T2 V，这是一种最先进的视频基础模型，具有30 B参数，能够理解中文和英文提示，生成高质量的视频（544 x992分辨率），最长可达204帧，具有强大的运动动态，高美学和一致的内容。

该模型的主要贡献如下：

Step-Video-T2 V是一种使用流匹配训练的基于扩散Transformer（DiT）的模型。专门设计的深度压缩变分自动编码器（VAE）可实现16 x16的空间压缩比和8x的时间压缩比，显著降低了大规模视频生成训练的计算复杂度。
两个双语文本编码器使Step-Video-T2 V能够直接理解中文或英文提示。
引入级联训练管道，包括文本到图像预训练，文本到视频预训练，监督微调（SFT）和直接偏好优化（DPO），以加速模型收敛并充分利用不同质量的视频数据集。
创建了一个名为Step-Video-T2 V-Eval的新基准数据集，用于生成文本到视频，其中包括11个类别的128个不同提示。

除此之外，作者还定义了视频基础模型的两个层次

第1级：翻译视频基础模型。这个级别的模型充当跨模态翻译系统，能够从文本、视觉或多模态上下文生成视频。
第2级：可预测视频基础模型。这个级别的模型充当预测系统，类似于大型语言模型（LLM），可以基于文本、视觉或多模态上下文预测未来事件，并处理更高级的任务，例如使用多模态数据进行推理或模拟真实世界场景。

目前基于扩散的文本到视频模型，如Sora，Veo，Kling，Hailuo和Step-Video，属于1级。这些模型可以从文本提示生成高质量的视频，降低了创作者制作视频内容的门槛。然而，它们通常无法生成需要复杂动作序列（如体操表演）或遵守物理定律（如篮球在地板上弹跳）的视频，更不用说执行LLM等因果或逻辑任务了。之所以会出现这样的限制，是因为这些模型只学习文本提示和相应视频之间的映射，而没有明确地对视频中的潜在因果关系进行建模。基于自回归的文本到视频模型通过预测下一个视频标记、帧或剪辑来引入因果建模机制。然而，这些模型仍然无法实现与基于扩散的文本到视频生成模型相当的性能。

github地址：GitHub - stepfun-ai/Step-Video-T2V

技术报告地址：[2502.10248] Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

在线体验：跃问

stepvideo-t2v权重：https://huggingface.co/stepfun-ai/stepvideo-t2v

stepvideo-t2v-turbo权重：https://huggingface.co/stepfun-ai/stepvideo-t2v-turbo

案例

提示词：视频中，乔布斯身穿黑色上衣，站在一个大型展览屏幕前，背后的展览上醒目地写着"stepvideo is coming"。他神情专注，正在向观众介绍新产品。整个场景在一个现代化的发布会现场进行，展览屏幕上展示着各种产品信息。视频采用固定镜头拍摄，画面清晰，具有纪实风格，展现了乔布斯在发布会上的风采。

提示词：视频中，玩家在第一人称射击游戏中，手持武器，瞄准目标，扣动扳机。画面采用第一人称视角，镜头跟随玩家的动作进行移动，营造出紧张刺激的氛围。玩家身穿迷彩服，头戴头盔，表情专注。背景是复杂的地形和掩体，敌人从四面八方涌来。视频采用动态拍摄，具有游戏画面风格，清晰地展示了射击的每一个动作细节，给人以身临其境的感觉。

提示词：This medium shot, with a shallow depth of field, portrays a cute cartoon girl with wavy brown hair, sitting upright in a 1980s kitchen. Her hair is medium length and wavy. She has a small, slightly upturned nose, and small, rounded

提示词：采用 3D 动画风格，视频中，慢慢显现出了2025的字样，天空中绽放出绚烂的烟花。2025字样晶莹剔透，背景是黑色的地板。画面采用固定机头，动画风格，展现了蛇年过年喜庆热闹的氛围。

2.模型

Step-Video-T2 V的整体架构如图1所示。视频由高压缩率的Video-VAE处理，实现16 x16空间和8x时间压缩比。使用两个双语预训练文本编码器对用户提示进行编码，以处理英语和中文。使用具有3D全注意力的DiT和Flow Matching来训练，文本嵌入和时间步长作为调节因素。为了进一步提高生成视频的视觉质量，还应用了基于视频的DPO方法，该方法有效地减少了伪影，并确保更平滑，更逼真的视频输出。

Video-VAE

最先进的视频模型，如Hunyuan-video，CogVideoX和Meta Movie Gen均使用具有4×8×8或8×8×8的时空降尺度因子的变分自动编码器（VAE）。这些VAE将3通道RGB输入映射到16通道潜在表示，实现高达1：96的压缩比。为了进一步减少令牌的数量，这些系统通常采用将每2×2×1的潜在patch合并成一个token，从而减少特征的数量，提高模型的效率。虽然这种压缩和标记化的两阶段过程是有效的，但它引入了架构复杂性，并且可能会降低后续扩散阶段的性能。

文本到视频扩散转换器模型的效率从根本上取决于它们在压缩的潜在空间内操作的能力。考虑到由于注意力操作，计算成本与令牌数量成二次方关系，通过有效压缩来减轻时空冗余至关重要。

双路径架构

作者的Video-VAE在编码器的后期和解码器的早期引入了一种新颖的双路径架构，其具有统一的时空压缩。该设计通过协同使用3D卷积和优化的像素解混洗操作(optimized pixel unshuffling operations)实现了8×16×16的降尺度。对于输入视频张量 $X\in \mathbb{R}^{B\times C\times T\times H\times W}$ ，编码器E通过以下方式产生潜在表示 $Z=E(X)\in \mathbb{R}^{B\times C_z\times \left \lceil T/8 \right \rceil\times \left \lceil H/16 \right \rceil\times \left \lceil W/16 \right \rceil}$ ：

因果3D卷积：编码器的早期阶段由三个阶段组成，每个阶段具有两个Causal Res3D Block和相应的下采样层。在此之后，MidBlock将卷积层与注意力机制相结合，以进一步细化压缩表示。为了实现联合图像和视频建模，作者采用时间因果3D卷积。作者的架构通过以下方式实现时间因果关系： $C_{3D}(x)_t=\begin{cases} Conv3D([0,...,X_t],\Theta ) & \text{ if } t=0 \\ Conv3D([X_{t-k},...,X_t],\Theta ) & \text{ if } t>0 \end{cases}$ ，其中k是时间核大小，确保帧t仅取决于先前帧。它的作用是确保在处理某一帧时，模型只能依赖于当前帧和之前的帧，而不能看到未来的帧。
双路径潜在融合（Dual-Path Latent Fusion）的主要动机是通过卷积处理并保持高频细节，同时通过通道平均保留低频结构。这种方法允许网络更有效地使用其参数，从而克服通常与传统VAE相关的模糊伪影。
- 卷积路径：将因果3D卷积与像素解混相结合， $H_{conv}=U_s^{(3)}(C_{3D}(X))$ ，其中 $C_{3D}(X)$ 代表3D卷积， $U_s^{(3)}$ 扩展维度大小： $X\in \mathbb{R}^{B\times C\times \frac{T}{s_t}\times \frac{H}{s_s}\times \frac{W}{s_s}}\rightarrow X\in \mathbb{R}^{B\times C\cdot s^3\times \frac{T}{s_t}\times \frac{H}{s_s}\times \frac{W}{s_s}}$
- ShortCut路径：通过分组通道平均保留结构语义， $H_{avg}=\frac{1}{s^3}\sum_{k=0}^{s^3-1}U_s^{(3)}(X)_{[...,kC_z:(k+1)C_z]}$ ，主要作用是通过分组通道平均来保留视频的低频结构信息。在 Video-VAE 的编码器中，这种设计有助于在压缩过程中保持视频的结构语义，从而在解码器中能够更好地重建视频。
- 融合的输出通过残差求和将两条路径组合在一起： $Z=H_{conv}\bigoplus H_{avg}$

训练策略

在第一阶段，作者不使用双路径结构，以4x8x8的压缩比训练一个VAE。这种初始训练是在不同帧数的图像和视频上联合进行的，遵守预设的比率。在这个阶段，作者为模型设置了一个较低的压缩目标，以充分学习低级表示。

在第二阶段，作者通过在编码器和解码器中加入两个双路径模块来增强模型。在此阶段，作者逐步解冻双路径模块、中间块和ResNet主干，从而实现更精细、更灵活的训练过程。

在整个训练过程中，作者利用L1重建损失、Video-LPIPS和KL发散约束(KL-divergence constrain)的组合来指导模型。一旦这些损失收敛，作者引入GAN损失以进一步改进模型的性能。这种分阶段的方法确保了能够有效处理复杂视频数据的强大且高质量的VAE。

双语文本编码器

在Step-Video-T2 V中，作者使用两个双语文本编码器来处理用户文本提示：浑源CLIP和Step-LLM。

浑源-CLIP是开源双语CLIP模型的双向文本编码器，浑源-CLIP可以产生与视觉空间一致的文本表示。然而，由于其最大输入长度被限制为77个令牌，因此浑源-CLIP在处理较长的用户提示时面临挑战。
另一方面，Step-LLM是一个内部的单向双语文本编码器，其使用next-token预测任务进行预训练。它结合了重新设计的Alibi-Positional Embedding，以提高序列处理的效率和准确性。与浑源CLIP不同，Step-LLM没有输入长度限制，这使得它在处理冗长和复杂的文本序列时特别有效。

通过结合这两个文本编码器，Step-Video-T2 V能够处理不同长度的用户提示，生成强大的文本表示，有效地引导潜在空间中的模型。

3D Full Attention

3D full-attention：在Step-Video-T2 V中，作者采用3D全注意力而不是时空注意力，这在计算上更有效。这种选择是由其在视频中建模空间和时间信息的理论上限，以及其在生成具有从大规模实验中观察到的平滑和一致运动的视频方面的优势所驱动的。
文本提示的交作者意：我们在每个Transformer块中的自注意和前馈网络（FFN）之间引入交叉注意层，以合并文本提示。这一层使模型能够在处理视觉特征的同时关注文本信息。该提示使用两种不同的双语文本编码器嵌入：浑源-CLIP和Step-LLM。这两个编码器的输出沿着序列维度连接，创建最终的文本嵌入序列。然后将这种组合嵌入注入到交叉注意力层中，允许模型生成以输入提示为条件的视频。
具有优化计算的自适应层归一化（AdaLN）：在标准DiT中，每个块都包括一个自适应层归一化（AdaLN）操作，以嵌入时间步长和类标签信息。由于文本到视频的任务不需要类标签，作者从AdaLN中删除类标签。
RoPE-3D：作者使用RoPE-3D，这是传统的基于旋转的位置编码（RoPE）的扩展，专门设计用于通过考虑时间（帧）和空间（高度和宽度）维度来处理视频数据。原始的RoPE-1D将旋转变换应用于位置编码，以实现不同长度序列中位置的灵活和连续表示。为了将其扩展到视频数据，作者引入了RoPE 3D。此方法沿通道维度沿着拆分查询和键张量，将RoPE-1D独立应用于时间（帧）和空间（高度和宽度）维度的每个张量。然后将得到的编码连接起来。这种方法使模型能够有效地处理不同长度和分辨率的视频输入。
QK-Norm：作者使用QK-Norm来稳定自我注意力机制。QK-Norm规范化了查询（Q）和关键（K）向量之间的点积，解决了大点积导致的数值不稳定性，这可能导致梯度消失或过度集中的注意力。这种归一化确保了训练过程中的稳定注意力，加速了收敛，提高了效率，使模型能够专注于学习有意义的模式。此外，QK-Norm有助于保持注意力权重的平衡分布，增强模型捕获输入序列中关系的能力。

训练目标

作者在Step-Video-T2 V的训练中使用了Flow Matching。作者将模型输入Xt构造为X 0和X1之间的线性插值，其中X1是对应于无噪声输入的目标样本，X0为纯噪声。具体来说，定义Xt为： $X_t=(1-t)\cdot X_0+t\cdot X_1$ 。真实速度Vt表示Xt相对于时间步长t的变化率，定义为： $V_t=\frac{dX_t}{dt}=X_1-X_0$

换句话说，Vt捕获从初始噪声X 0到目标数据X1的变化的方向和幅度。然后通过最小化预测速度u（Xt，y，t; θ）和真实速度Vt之间的均方误差（MSE）损失来训练模型。训练损失由下式给出： $loss=E_{t,X_0,X_{1,y}}[\left \| u(X_{t},y,t;\theta )-V_t \right \|^2]$

Video-DPO

人类反馈的偏好学习（或强化学习）在LLM领域得到了广泛的验证，特别是通过PPO/DPO等方法，其中模型根据人类反馈调整其生成的内容。最近，这种做法也被应用于图像和视频生成，产生了显着的进步。为了提高Step-Video-T2 V的视觉质量，作者设计了一个管道来引入人类反馈。整个流水线如图4所示。

在Step-Video-T2 V中，作者选择直接偏好优化（DPO）作为纳入人类反馈的方法。直观地说，在相同条件下，给定人类偏好数据和非偏好数据，目标是调整当前策略（即，模型）与优选数据的生成更加一致，同时避免非优选数据的生成。为了稳定培训，参考政策（即，参考模型）被引入以防止当前策略偏离参考策略太远。政策目标可表述为：

其中πθ和πref分别指当前策略和参考策略，xw和xl是优选样本和非优选样本，y表示条件。

为了收集这些样本（xw，xl，给定y）进行训练，作者构建了一个多样化的提示集。

首先，作者从训练数据中随机选择一个提示子集，以确保提示的多样性。
其次，作者邀请人类注释者根据精心设计的准则来合成提示，该准则反映了真实世界的用户交互模式。
然后，对于每个提示，Step-Video-T2 V使用不同的种子生成多个视频。
人类注释者对这些样本的偏好进行评级。注释过程由质量控制人员监控，以确保准确性和一致性。这个过程会产生一组偏好和非偏好数据，这些数据是模型训练的基础。

人的反馈有效地提高了视觉质量。然而，作者观察到，当模型可以很容易地区分正样本和负样本时，改进就饱和了。这种现象可能源于以下原因：Video-DPO中使用的训练数据是由模型的早期版本生成的。在DPO的多次迭代之后，当前策略发生了显著变化(例如，扭曲现在很少出现)，并且不再与以前迭代中的策略保持一致。因此，使用早期迭代中的过时数据更新当前策略会导致数据利用率低下。为了解决这个问题，作者建议使用人工标注的反馈数据来训练奖励模型。该奖励模型在训练过程中动态评估新生成样本的质量。奖励模型定期使用新注释的人类反馈进行微调，以保持与不断演变的政策保持一致。通过将其集成到管道中，可以动态(按策略)对训练数据进行评分和排名，从而提高数据效率。

3.Step-Video-T2V Turbo的蒸馏

Step-Video-T2V 是一种基于扩散模型的视频生成模型。扩散模型通常需要通过多次迭代（例如 50 步或更多）来逐步去噪并生成最终的视频。这种多步推理过程虽然能够生成高质量的视频，但计算成本较高。作者通过蒸馏技术，训练了一个学生模型（Step-Video-T2V Turbo），其目标是通过更少的迭代步骤（例如 8 步或 10 步）生成与教师模型相似质量的视频。

作者的基础模型使用整流流（rectified flow）进行训练，2-rectified-flow model的损失函数可以用公式表示如下：

这种目标函数鼓励学生模型在更少的迭代步骤中更直接地逼近教师模型的生成路径。具体来说，学生模型被训练为在较少的步骤中完成从噪声到目标视频的转换，同时尽量减少与教师模型生成结果的差异。

作者使用50个NFE的SFT数据提示的策划分布采样了大约95，000个数据样本，并仔细设计了积极和消极的提示来制定蒸馏数据集。在训练时使用 U 形时间步采样策略（U-shaped timestep sampling strategy），更多地关注那些对生成过程更关键的时间步。

在推理时，学生模型通过减少分类器自由引导（Classifier-Free Guidance, CFG）的规模，并结合线性递减的 CFG 调度策略，进一步优化生成质量。

关键结果：

推理效率提升：通过蒸馏，Step-Video-T2V Turbo 可以在 10 步甚至更少的步骤中生成高质量的视频，相比原始模型的 50 步，推理速度显著提升。
质量保持：尽管减少了迭代步骤，但生成的视频质量与原始模型相当，甚至在某些情况下更优。

4.系统

本节描述了模型的基础设施，可促进Step-VideoT 2 V的大规模高效和强大的培训。讨论从全面的系统概述开始，提供工作流程的整体视角，然后深入研究每个组成部分。

该系统通过一个高度优化的基础设施来支持大规模视频生成模型的训练，涵盖了从数据预处理到模型训练和推理的全流程。系统的核心是一个训练仿真器（Step Emulator），它通过模拟不同的模型架构和并行策略，提前估算资源需求和性能，从而为训练任务提供最优的资源分配方案。基于仿真器的建议，训练任务被部署到由数千个NVIDIA H800 GPU组成的计算集群中，这些GPU通过高性能的RoCEv2网络连接。训练集群专门负责训练视频扩散模型（Video DiT），而编码器（如VAE和文本编码器）则运行在推理集群上，为DiT提供所需的输入数据（包括视频的潜在表示和文本嵌入）。两个集群之间的数据传输通过StepRPC框架实现，它结合了TCP和RDMA协议，确保了高效且容错的跨集群通信。

为了全面监控训练过程，系统采用了双层监控机制（StepTelemetry），它不仅从推理集群收集数据统计信息，还从训练集群获取细粒度的性能指标。这些监控数据帮助研究人员和工程师深入了解训练系统的运行状态，及时发现潜在的性能瓶颈。此外，训练平台（StepMind）通过精细的资源管理和故障检测机制，确保了训练任务的高可用性和效率。在一个月以上的训练周期内，该系统实现了超过99%的有效GPU训练时间利用率，这得益于对硬件故障的快速响应和修复，以及对训练集群的动态资源分配。通过这些综合性的优化措施，Step-Video-T2V训练系统能够高效、稳定地支持大规模视频生成模型的训练任务。

训练框架优化

Step Emulator

Step Emulator 是一个高度准确且高效的模拟器，用于在训练开始前估算不同模型架构和并行策略下的资源消耗和端到端性能。它允许用户根据输入数据的帧数和分辨率进行定制化配置，从而为模型参数、架构设计以及最优并行策略提供指导。Step Emulator 还负责确定推理集群（如文本编码器和 VAE）与训练集群（如视频 DiT）之间的资源分配比例。通过这种方式，Step Emulator 在大规模 GPU 集群训练中发挥了关键作用，帮助提前规划资源分配，优化训练效率，并减少实际训练中的试错成本。

分布式训练

首先，作者指出，由于视频模型的规模庞大且需要处理长时间序列数据，因此需要在训练时对模型参数和激活/梯度进行分区，这涉及到多种并行策略，如张量并行（Tensor Parallelism, TP）、序列并行（Sequence Parallelism, SP）、上下文并行（Context Parallelism, CP）、流水线并行（Pipeline Parallelism, PP）和虚拟流水线并行（Virtual Pipeline Parallelism, VPP）。然而，大规模GPU集群的复杂性使得直接调优和验证这些架构设计变得极具挑战性。因此，Step Emulator被开发出来，用于在实际训练之前模拟不同配置下的资源消耗和性能表现，从而为选择最优的并行策略提供依据。

在具体的并行策略方面，作者通过Step Emulator分析了不同配置下的模型并行效率，发现单纯依赖PP并不能实现高模型Flops利用率（MFU）。这是因为PP主要减少模型参数和梯度的内存占用，但对于激活内存的减少效果有限。而CP虽然能直接减少激活内存，但其通信成本较高，尤其是通过网络接口控制器（NIC）的通信成本与通过NVLink的TP通信成本相当。为了降低CP的开销，作者采用了头部分CP和序列化CP的策略，但即便如此，仅依赖CP也无法实现高MFU。

因此，作者最终选择了结合TP、CP、PP和VPP的混合策略来实现最优的MFU。然而，为了简化后端框架并提高训练的鲁棒性，作者决定不采用PP，而是使用8路TP结合SP和Zero1优化器的策略。这种配置虽然比理论最优MFU略低（低0.88%），但在实际训练中，由于指标收集开销和一些拖后腿的节点，实际训练MFU达到了32%，略低于估算值。

定制的计算和通信模块

本节中，作者介绍了针对VAE和DiT模型的定制化计算和通信优化措施，以提高模型的训练效率和性能。

对于VAE，作者采用了通道后置（channel-last）原则来优化卷积操作，使其更符合GPU的计算特性。通过将通道维度置于最后，避免了PyTorch默认格式（NCHW）与GPU Tensor Cores所需的NHWC格式之间的额外转换开销，从而显著提升了VAE的编码吞吐量，最高可达7倍提升。此外，为了支持更长、更高分辨率的视频处理，作者实现了多GPU上的时间和空间并行策略。例如，在时间并行中，视频潜在表示沿着帧维度被分割，每个GPU处理部分帧，如果需要跨帧计算，则通过全连接通信传输重叠帧。这种优化不仅降低了单个设备的计算和内存负担，还使得VAE能够处理更长、更高分辨率的视频。

在DiT模型中，作者针对传统的RoPE（旋转位置编码）实现进行了优化。由于标准RoPE需要大量的切片和拼接操作来构建嵌入表和索引，这在处理视频数据时效率较低。因此，作者开发了一个自定义的RoPE-3D内核，用高效的嵌入计算替换了这些索引操作，从而显著提高了性能。此外，DiT模型中的时间步调制导致了较高的激活内存占用，因为时间步在序列长度内被重复使用。为了减少内存成本，作者实现了一种内存高效的调制操作，仅在前向过程中重复时间步，并在反向过程中保存非重复的时间步。作者还通过融合LayerNorm操作和下游时间步调制操作，消除了保存中间输出的需要，进一步降低了内存开销。

这些优化措施不仅提高了VAE和DiT模型的计算效率，还减少了内存占用，使得模型能够更高效地处理大规模视频数据，为大规模训练提供了支持。

DP负载平衡

在本节中，作者讨论了在大规模视频生成任务中，如何通过混合粒度负载平衡策略解决处理混合分辨率视频和图像时的计算负载不均衡问题。传统的做法是将不同分辨率的数据分配到不同的批次中，但这会导致模型实例之间的计算量（FLOPs）差异显著，从而导致GPU利用率不均衡。

为了解决这一问题，作者提出了一个两阶段的混合粒度负载平衡策略。首先，在粗粒度阶段，通过调整不同分辨率视频的批次大小来对齐计算负载。具体来说，根据每种分辨率的FLOPs计算最优的批次大小，以确保全局批次大小的一致性。其次，在细粒度阶段，通过向批次中补充图像来进一步平衡剩余的计算量差异。系统会缓存多个视频批次，并根据预设的视频与图像比例来分配图像，以填补计算负载的缺口。

这种混合粒度的负载平衡策略在保持实际可部署性的同时，有效地平衡了计算负载。它仅需要对数据分布进行浅层次的了解，通过调整批次大小和补充图像填充即可实现，而无需对架构进行深度修改。这种优化方式保留了原始训练管道的完整性，同时引入了较小的内存开销，显著提高了训练过程中的资源利用率和效率。

图8通过可视化的方式展示了混合粒度负载平衡策略的具体实现过程。它清晰地说明了如何通过粗粒度的批次大小调整和细粒度的图像填充，在保持训练效率的同时，平衡不同分辨率数据的计算负载。这种策略不仅提高了资源利用率，还减少了因负载不均衡导致的训练瓶颈，从而显著提升了大规模视频生成任务的训练效率。

StepRPC

在本节中，作者介绍了StepRPC（Step Remote Procedure Call）——一个高性能的通信框架，用于在大规模分布式训练环境中高效地传输数据。StepRPC通过分布式命名管道作为核心编程抽象，使得大量服务器能够通过声明相同名称的管道进行无缝通信。它支持数据的均匀喷射（spraying）模式，将数据均匀分配到各个训练服务器。

StepRPC的主要优化措施包括：张量原生通信，直接在内存中传输张量数据，避免了传统序列化和反序列化带来的开销。它支持RDMA（Remote Direct Memory Access）协议，能够直接在GPU和CPU之间传输张量，显著提高了通信效率。在RDMA不可用的环境中，StepRPC可以无缝切换到TCP协议，尽管TCP仅支持CPU张量，但StepRPC通过将CUDA内存拷贝与TCP发送和接收操作重叠，有效隐藏了内存拷贝的延迟，从而在非RDMA环境下也保持了较高的通信性能。

此外，StepRPC还具备高度的灵活性和容错能力。它通过广播和喷射通信模式优化了GPU利用率，允许同一推理服务器同时为大规模预训练实验和小规模消融实验生成数据。这种设计不仅提高了资源利用效率，还通过隔离不同训练任务的通信，防止了故障的级联效应，确保了系统的稳定性。

StepRPC还提供了全面的性能指标监控，包括数据计数、队列延迟和传输成本等。这些指标不仅帮助实时检测通信过程中的故障，还使研究人员能够评估推理和训练过程是否成为性能瓶颈，并据此优化GPU资源分配。通过这些优化措施，StepRPC显著提升了分布式训练环境中的数据传输效率和系统稳定性。

StepTelemetry

在本节中，作者介绍了StepTelemetry——一个为训练框架设计的观测工具套件，旨在增强训练过程的可观察性，以便更好地分析训练状态、检测异常并优化性能。StepTelemetry通过一个简单且异步的数据收集流程，提供了一个Python SDK，方便与训练框架集成，并支持将训练相关的数据以批处理或流式的方式写入本地磁盘文件。随后，一个独立的消费者进程负责收集、转换这些数据，并将其写入各种远程数据库。

StepTelemetry的核心功能包括异常检测，它采用基于CUDA事件的方法，无需额外同步操作，从而在训练过程中几乎无开销地持续收集所有训练节点的计时数据。这种低开销的数据收集方式使得StepTelemetry能够在不显著影响训练效率的情况下，提供详细的性能分析和可视化支持，帮助研究人员快速定位硬件或软件故障的根本原因。例如，在一次训练中，尽管没有触发硬件警报，但通过分析StepTelemetry收集的数据，研究人员发现某些节点的反向传播时间异常延长，推测这些节点可能性能不佳。在将这些节点从训练集群中移除后，训练效率恢复到了预期水平。

此外，StepTelemetry还提供数据统计功能，这对于视频训练尤为重要。它不仅记录消耗的视频数量，还记录视频的元数据。传统的数据记录方式是将元数据写入本地磁盘文件，然后通过脚本进行离线解析，这种方式效率低下且不便。而StepTelemetry通过将数据写入数据库，实现了在线分析处理（OLAP），为研究人员提供了更高效、更直观的数据统计和可视化支持，例如基于数据来源URL的数据重复过滤和分布监测，帮助研究人员更好地评估模型。

最后，StepTelemetry还助力性能优化。通过可视化每个迭代阶段的时间消耗，它为开发人员提供了一个全面的性能概览，帮助他们识别并优化关键路径上的性能瓶颈。此外，数据加载器的统计信息揭示了训练过程的实际吞吐量。尽管图像和视频数据以混合方式提供，但在解决了数据并行（DP）不平衡问题后，迭代时间保持不变，但数据吞吐量的增加显著提升了系统的整体效率。

StepMind

在本节中，作者详细介绍了StepMind——一个为大规模机器学习工作负载设计的分布式训练平台。StepMind通过一系列关键技术和优化措施，确保了大规模训练任务的高可用性和高效性，特别是在训练Step-Video-T2V模型时，实现了超过99%的有效GPU利用率。

首先，StepMind通过全链路细粒度监控，以秒级频率收集硬件（如CPU、GPU、内存、网络等）和软件（如操作系统栈）的指标，从而能够快速、全面地检测故障节点。根据故障的严重性，故障节点被分为两类：致命错误节点（如GPU故障、网络中断等）和非致命错误节点（如GPU过热、软件故障等）。对于致命错误节点，StepMind会立即替换故障节点并重启训练任务，同时采用多信号机制（如RoCEv2流量中断、GPU低功耗、训练日志停止更新等）来避免因误报而导致的不必要重启。对于非致命错误节点，StepMind会在计划维护期间（通常是保存检查点后）进行替换，以减少资源浪费。

其次，StepMind通过节点质量评估框架，综合考虑历史告警模式、维护记录、压力测试结果和负载测试时长等因素，为每个GPU节点生成质量评分。这一框架确保了在资源池中选择最可靠的服务器进行大规模训练任务，从而显著降低了因硬件故障导致的训练中断风险。通过这种方式，StepMind将关键资源池（如视频池）的故障率从每月平均7.0%降低到0.9%，并将因硬件问题导致的每日重启率降低到LLaMA3.1的约1/11。

最后，StepMind通过完全自动化的服务器上线流程，确保了故障机器能够快速修复并重新投入服务。这一流程包括：

自动重启修复：针对大多数短暂性故障（如GPU DBE错误、GPU卡断开等），StepMind通过自动重启服务器并结合后续健康检查和压力测试，确保服务器能够快速恢复并保持高质量运行。
全面健康检查：通过详细的诊断脚本，StepMind对GPU节点的硬件和软件配置进行全面检查，确保所有运行中的服务器具有统一且正确的硬件和软件设置，从而避免因配置异常导致的训练中断。
严格的压力测试和准入协议：StepMind通过单机性能测试（如GPU AI计算能力、HBM带宽、主机与设备之间的数据传输速度等）和RDMA网络验证（通过模拟分布式训练模式）来确保每个机器的性能。这种全面的测试流程不仅提高了节点的可靠性和性能，还有效防止了训练任务的失败，显著提升了整体集群的稳定性和可用性。

通过这些措施，StepMind在超过一个月的Step-Video-T2V训练期间，实现了99%的有效训练时间利用率，为大规模机器学习任务提供了强大的支持。

5.数据

预训练数据

作者构建了一个包含2B视频-文本对和3.8B图像-文本对的大规模视频数据集。利用全面的数据管道，作者将原始视频转换为适合模型预训练的高质量视频-文本对，流程包括几个关键阶段：视频分割、视频质量评估、视频运动评估、视频字幕、视频概念平衡和视频-文本对齐。每个阶段在构建数据集时都起着至关重要的作用。

视频分割：作者首先使用PySceneDetect工具包中的AdaptiveDetector函数处理原始视频，以识别场景变化，并使用FFmpeg将其拆分为单镜头剪辑。作者调整了未使用libx264编码的高分辨率视频的分割过程，以包括必要的参考帧——如通过在FFmpeg中正确设置裁剪开始时间;这可以防止输出视频中出现视觉伪影或毛刺。作者还删除了每个片段的前三帧和后三帧，排除这些帧可以消除不稳定的相机移动或过渡效果，这些效果通常出现在视频的开头和结尾。

视频质量评估：为了构建一个针对高质量模型训练而优化的精细数据集，作者通过基于特定标准分配多个质量评估标签来系统地评估和过滤视频片段。作者从每个片段中统一采样8帧来计算这些标签，从而为每个视频提供一致和全面的评估。

美学评分：使用基于公共LAION CLIP的美学预测器来预测每个剪辑中8帧的美学评分，并计算其平均值。
NSFW评分：采用了基于CLIP的公共LAION NSFW检测器LAION，这是一种使用CLIP ViT-L/14嵌入的轻量级两类分类器，用于识别不适合安全工作环境的内容。
水印检测：使用EfficientNet图像分类模型，检测视频中存在水印。
字幕检测：利用PaddleOCR Contributors，识别并定位了视频帧中的文本，识别了屏幕上有过多文本或字幕的片段。
饱和度分数：通过使用OpenCV Developers将视频帧从BGR转换为HSV颜色空间并提取饱和度通道来评估颜色饱和度。作者计算统计措施，包括平均值，最大值，最小饱和度值，跨帧。
模糊分数：通过应用拉普拉斯方法的方差来检测模糊，测量每帧的清晰度。低方差值表示相机抖动或缺乏清晰度导致的模糊。
黑边检测：使用FFmpeg来检测帧中的黑色边界，并记录它们的尺寸以便于裁剪，确保模型在没有分散注意力的边缘的内容上进行训练。

视频运动评估：运动内容对于表示动态场景和确保有效的模型训练至关重要，作者使用Farneback算法，通过对调整大小的灰度帧对之间的光流OpenCV Developers的平均幅度进行平均来计算运动分数。作者引入了三个以运动分数为中心的评估标签：

Motion_Mean：剪辑中所有帧的平均运动幅度，指示运动的一般级别。此分数有助于识别具有适当运动的剪辑;具有极低Motion_Mean值的剪辑表示静态或慢动作场景，这些场景可能无法有效地用于训练专注于动态内容的模型。
Motion_Max：在剪辑中观察到的最大运动幅度，突出显示极端运动或运动失真的实例。高Motion_Max值可指示存在具有过度或抖动运动的帧。
Motion_Min：剪辑中的最小运动幅度，标识具有最小运动的剪辑。Motion_Min非常低的剪辑可能包含空闲帧或突然暂停，这对于训练目的可能是不希望的。

视频字幕：最近的研究强调了字幕的精确性和丰富性对于增强生成模型的跟随能力和输出质量至关重要。出于这一动机，作者采用内部视觉语言模型（VLM），引入了三种类型的字幕标记，旨在为视频剪辑生成简短和密集的字幕。

短标题：短标题提供了一个简洁的描述，只集中在主要的主题和行动，密切反映真实的用户提示。
密集字幕：密集的标题整合了关键元素，强调主要主题、事件、环境和视觉方面、视频类型和风格以及镜头和动作。为了优化相机移动，作者手动收集了注释数据，并在我们的内部VLM上执行SFT，将常见的相机移动和拍摄角度结合起来。
原标题：还通过整合原始视频中的一部分原始标题来包含各种标题样式，从而为标题添加多样性。

视频概念平衡：为了解决数据集中的类别不平衡并促进重复数据删除，作者使用内部VideoCLIP模型计算了所有视频片段的嵌入，并应用K均值聚类将它们分为超过120，000个聚类，每个聚类代表一个特定的概念或类别。通过利用聚类大小和到质心标签的距离，作者通过过滤掉各自聚类中的离群值来平衡数据集。作为此过程的一部分，作者为每个剪辑添加了两个新标签：

Cluster_Cnt：片段所属的簇中片段的总数。
Center_Sim：剪辑的嵌入与聚类中心之间的余弦距离。

视频-文本对齐：认识到视频内容和文本描述之间的准确对齐对于生成高质量输出和有效的数据过滤至关重要，作者计算CLIP得分来衡量视频-文本对齐。该分数评估字幕与视频剪辑的视觉内容的对齐程度。

CLIP分数：从给定的视频剪辑中均匀采样八帧。使用CLIP模型提取这些帧的图像嵌入和视频标题的文本嵌入。CLIP得分是通过平均每个帧嵌入和字幕嵌入之间的余弦相似度来计算的。

后训练数据

对于后期训练中的SFT，作者策划了一个高质量的视频数据集，可以让模型捕捉良好的运动、真实感、美学、广泛的概念和准确的字幕。

作者利用自动和手动过滤技术：

通过视频评估分数过滤：使用视频评估分数和启发式规则，作者将整个数据集过滤为30M视频的子集，显着提高其整体质量。
按视频类别过滤：对于同一聚类内的视频，作者使用“到质心的距离”值来删除那些与质心的距离超过预定义阈值的视频。这确保了所得到的视频子集包含用于每个聚类的足够数量的视频，同时保持子集内的多样性。
人工标注：在最后阶段，人工评估人员评估每个视频的清晰度、美学、适当的运动、平滑的场景过渡以及没有水印或字幕。字幕也是手动优化的，以确保准确性，并包括基本细节，如相机运动，主题，动作，背景和照明。

6.训练策略

Step-Video-T2 V采用级联训练策略，主要包括四个步骤：文本到图像（T2 I）预训练、文本到视频/图像（T2 VI）预训练、文本到视频（T2 V）微调和直接偏好优化（DPO）训练。预训练配方总结见表6。

第1步：T2I预训练 在初始步骤中，作者使用T2I预训练方法从头开始训练Step-Video-T2V。作者有意避免直接从T2 V预训练开始，因为这样做会显着减慢模型收敛速度。这一结论源于作者在4B模型上从头开始进行T2V预训练的早期实验，作者观察到模型很难学习新概念，收敛速度要慢得多。通过首先关注T2I，该模型可以为理解视觉概念奠定坚实的基础，随后可以扩展到处理T2 V阶段的时间动态。

第2步：T2VI预训练 在步骤1中从T2I预训练获得空间知识之后，Step-Video-T2V前进到T2VI联合训练阶段，其中T2I和T2V都被合并。这一步骤又分为两个阶段。在第一阶段，作者使用低分辨率（192x320，192P）视频对Step-Video-T2V进行预训练，使模型主要专注于学习运动相关知识，而不是细节。在第二阶段，作者将视频分辨率提高到544 x992（540 P），并继续进行预训练，使模型能够学习更复杂的细节。作者观察到，在第一阶段，模型专注于学习运动，而在第二阶段，它将重点更多地转向学习细节。基于这些观察，我们在步骤2的第一阶段分配更多的计算资源，以更好地捕获运动知识。

第3步：T2V微调 由于不同领域和质量的预训练视频数据的多样性，使用预训练检查点通常会在生成的视频中引入伪影和不同的风格。为了缓解这些问题，作者继续使用T2V微调步骤进行训练。在这个阶段，作者使用少量的文本-视频对并删除T2I，使模型能够进行微调并专门适应文本到视频的生成。

第4步：DPO训练 采用基于视频的DPO训练来提高生成视频的视觉质量，并确保更好地与用户提示对齐。

在预训练期间，作者观察到损失显著减少，这与训练数据质量的提高相关，如图10所示。

此外，随着训练数据集质量的提高，损失会突然下降。这种改进不是直接由模型训练期间通过损失函数的监督驱动的，而是遵循人类直觉（例如，通过CLIP分数、美学分数等过滤）。虽然流匹配算法对模型输入数据的分布没有严格的要求，但调整训练数据以反映人类认为更高质量的数据会导致训练损失的显著逐步减少。这表明，在某种程度上，模型的学习过程可能会模仿人类的认知模式。

图11说明了在每个阶段应用的关键过滤器，灰色条表示每个过滤器删除的数据，彩色条表示每个阶段的剩余数据。

为了在训练过程中适应不同的视频长度和宽高比，作者采用了可变长度和可变分辨率策略，作者定义了四个长度桶（1、68、136和204帧），并根据视频长度动态调整潜在帧的数量。此外，作者根据最接近的高宽比将视频分为三种长宽比横向，纵向和正方形。

7.总结

本技术报告介绍并开源Step-Video-T2 V，这是一种最先进的预训练文本视频生成模型，具有30 B参数，深度压缩的Video-VAE，用于视频生成的DPO方法，以及生成长度高达204帧视频的能力。

作者全面概述了预训练和后训练策略，并介绍了Step-Video-T2 V-Eval作为评估文本到视频生成模型的新基准。

当前文本到视频模型仍然面临巨大的挑战。首先，高质量的标记数据仍然是一个重大障碍。现有的视频字幕模型经常与幻觉问题作斗争，并且人类注释昂贵且难以扩展。其次，注意力跟随需要更多的关注，因为它涵盖了广泛的场景，从基于详细描述生成视频到处理复杂的动作序列和多个概念的组合。第三，目前的模型在生成遵守物理定律的视频方面仍然面临困难，这是扩散模型固有局限性造成的问题。最后，基于RL的优化机制是视频生成模型中值得探索的训练后改进领域。

展望未来，作者计划推出一系列专注于视频基础模型开发的开源项目，从Step-Video-T2V开始。希望这些努力能够推动视频基础模型的创新并为视频内容创作者提供支持。

你的支持是我前行的动力！如果我的内容让你有所收获，希望你能点赞鼓励一下哦，也别忘了关注我，这样就能第一时间看到更多有趣的内容啦。如果觉得不错，还可以收藏起来，方便随时查看哦！

查看全文

http://www.kler.cn/a/551905.html