当前位置：首页 > article >正文

Magic 1-For-1: 在一分钟内生成一分钟视频片段（基于Python实现，视频生成模型）

article 2025/3/4 23:23:05

一、前言

文章所有代码都使用Python实现，并且可以分享开源，文章末尾联系博主或者往期文章末尾联系，欢迎探讨学习分享专业领域前言研究和技术分享。

二、摘要

在本技术报告中，我们介绍了 Magic 1-For-1 （Magic141），这是一种高效的视频生成模型，具有优化的内存消耗和推理延迟。关键思想很简单：将文本到视频生成任务分解为两个单独的更简单的扩散步骤蒸馏任务，即文本到图像生成和图像到视频生成。我们验证了使用相同的优化算法，image-to-video 任务确实比 text-to-video 任务更容易收敛。我们还从三个方面探索了一系列优化技巧，以降低训练图像到视频（I2V）模型的计算成本：1）通过使用多模态先验条件注入来加速模型收敛;2）通过应用对抗性步骤蒸馏来加快推理延迟，以及 3）使用参数稀疏化优化推理内存成本。借助这些技术，我们能够在 5 秒内生成 3 秒的视频剪辑。通过应用测试时间滑动窗口，我们能够在一分钟内生成一分钟长的视频，显著提高了视觉质量和运动动态，平均生成 1 秒的视频剪辑时间不到 1 秒。我们进行了一系列的初步探索，以找出扩散步骤蒸馏过程中计算成本和视频质量之间的最佳权衡，并希望这可以成为开源探索的良好基础模型。

图1: 在General VBench基准测试中，Magic 1-For-1展现出显著性能优势。我们的模型在生成效果与效率两大核心指标上，均超越包括CogVideoX-I2V-SAT、I2Vgen-XL、SEINE-512x320、VideoCrafter-I2V和SVD-XT-1.0在内的其他开源TI2V模型。

这一份技术报告，用于描述高效的图像到视频项目生成过程。

图2:Magic 1-For-1可以生成具有优化效率和质量权衡的视频剪辑。

1 引言

近年来，扩散模型在生成高质量图像与视频任务中展现出超越传统基于生成对抗网络（GAN）方法[4]的卓越性能，且在生成多样性上具有显著优势。然而，传统扩散模型需通过数百甚至上千步迭代将噪声逐步转化为结构化数据，导致计算开销巨大，严重制约实际应用。例如，近期开源的视频生成模型[18]在无额外优化情况下，需约8块GPU耗时15分钟才能生成一段5秒视频片段。

针对扩散步数蒸馏的研究[28,31,26,26]致力于在保持生成质量的同时减少推理步数以加速生成过程，但现有工作多聚焦于图像生成领域。尽管这些方法具有潜力，但在视频生成场景中往往面临质量损失问题，且需精心设计模型架构才能取得满意效果。如SeaweedAPT[20]所述，现有单步视频生成算法在迁移至视频生成任务时，仍普遍存在运动动态性与结构完整性等关键维度的显著质量退化。

本报告中，我们提出通过任务分解将视频生成简化为文本到图像生成与图像到视频生成两个独立子任务。与Emu Video[?]专注于提升视频生成质量的目标不同，我们的核心在于减少扩散推理步数。文本到图像任务因其任务简洁性及大量前期研究成果，天然具备更简单的优化路径与更少的扩散步数需求。

实验表明，扩散步数蒸馏算法在文本到图像生成任务中收敛速度显著加快，且能同步提升最终生成质量。为进一步强化生成先验，我们通过视觉输入增强文本编码器，实现多模态输入的融合。借助量化技术，模型内存消耗从40G降至28G，扩散步数从50步锐减至4步，在质量损失可控前提下实现性能优化。我们的核心贡献可归纳为：

生成先验注入：通过任务分解注入更强生成先验，提出视频生成加速新范式；
多模态引导：设计视觉-文本多模态引导机制，加速模型收敛；
系统级优化：整合模型加速技术组合，实现生成质量与推理效率的帕累托最优。

2 相关工作

视频生成作为快速演进的研究领域，持续受益于深度学习与生成模型的进展。早期方法依赖自回归模型[17]，通过逐帧预测生成视频，但存在误差累积问题。随后引入的变分自编码器（VAE）[2]与生成对抗网络（GAN）[34,7]提升了视觉保真度，但在长序列时序一致性上仍面临挑战。

近期突破主要源于Transformer架构与扩散模型的应用。视频生成模型VideoGPT[39]采用类GPT架构进行视频分词与合成，有效捕捉长程依赖。扩散模型也展现出显著潜力：如Video Diffusion Models（VDMs）[12]通过迭代去噪建模时空动态，将图像扩散模型成功扩展至视频生成；而Imagen Video[13]与Make-A-Video[30]等潜空间方法聚焦高效高分辨率合成，在压缩表征空间内实现性能优化。这些方法大幅推动了领域发展，使生成高保真且时序连贯的视频成为可能。

在扩散步数蒸馏领域，近期研究提出多种加速采样方法以平衡计算成本与生成质量。Salimans与Ho（2022）提出渐进式蒸馏[28]，通过学生模型逐步匹配教师模型输出，将采样步数减半且保持图像质量；Meng等（2023）针对无分类器引导扩散模型开发蒸馏方案[21]，显著加速高保真图像生成；Geng等（2024）利用深度均衡架构将扩散模型蒸馏为单步生成器[9]，实现高效低损采样；Watson等（2024）提出基于最大似然的EM蒸馏[36]，将扩散模型压缩为单步生成器并保持感知质量；Zhou等（2024）的快速蒸馏方法SFD[42]简化蒸馏流程，使微调时间降低千倍；Yin等（2024）的分布匹配蒸馏DMD[40]则实现单步图像生成的最小质量损失。这些进展大幅降低了扩散模型的计算需求，推动其走向实际应用。

3 方法
图像先验生成 我们融合扩散生成与检索增强两种方法获取图像，定义统一生成函数G：

3.1 扩散蒸馏

扩散模型推理的迭代特性（体现为多步采样过程）对推理速度造成显著瓶颈。这一问题在Magic 1-For-1（魔法级1:1实时生成系统）等参数量达13B的大规模模型中尤为突出，其单步采样的计算开销极为可观。如图4所示，我们通过双蒸馏策略（融合步骤蒸馏与CFG蒸馏）实现高效采样。在步骤蒸馏中，采用前沿的DMD²算法——专为高效分布对齐与加速采样设计。受分数蒸馏采样（SDS）[25]启发，DMD²通过协调训练三个子模型实现步骤蒸馏：

单/四步生成器Gϕ：参数持续迭代优化；
真实视频模型u_realθ：拟合真实数据分布p_real；
生成视频模型u_fakeθ：估计生成数据分布p_fake。

关键地，三模型均从同一预训练模型初始化，确保训练过程连贯高效。步骤蒸馏的分布匹配目标函数可表示为：

在实际训练中，DMD²算法需同时加载三个模型，即使在配备2个计算节点（每个节点含8块80G显存GPU）的ZeRO3分布式训练配置下，仍无法满足常规训练的内存需求。为此，我们提出采用低秩自适应（LoRA）技术处理生成视频模型（fake model）的参数更新。此外，实验发现直接使用标准DMD²流程易引发训练崩溃。该问题源于真实视频模型（real model）的输入来自四步生成器的输出，其数据分布与预训练阶段存在显著差异。

为解决这一问题，我们设计了一种简洁有效的参数偏移策略：通过调整低秩分支的权重因子，使真实模型的参数向生成模型方向轻微偏移。该操作促使两类模型的数据分布逐步对齐，从而确保训练稳定性。

在扩散模型的推理阶段，无分类器扩散引导（CFG）[14,6]常被用于提升生成结果的条件相关性，但其需在dropout条件下执行额外计算。为消除此计算开销并加速推理，我们引入CFG蒸馏技术[21]。通过定义蒸馏目标函数，指导学生模型u_sθ直接生成带引导信号的输出。具体而言，我们对时间步与引导强度进行联合优化，最小化如下期望：

（关键技术点解析：

内存优化创新：结合ZeRO3分布式训练与LoRA技术，突破大规模模型训练瓶颈
训练稳定性保障：参数偏移策略通过动态调整低秩分支权重，实现数据分布对齐
推理加速机制：CFG蒸馏将多步条件计算融合至单步推理，显著降低计算复杂度
数学严谨性：保留u_sθ等模型符号及期望表达式，确保技术描述精确性
工业级适配：显存配置（80G GPU）、节点数量等硬件参数如实呈现，增强方案落地参考价值）

其中，pw(w) = U [wmin, wmax]表示引导强度参数在训练时服从均匀分布采样，这使得蒸馏后的模型无需重新训练即可灵活适配不同强度的引导尺度。我们将引导权重w作为额外输入馈入学生模型，从而将传统CFG计算过程压缩至单次前向传播。最终蒸馏目标函数Ldistillation由两项加权损失构成：

CFG蒸馏损失：对齐学生模型输出与带教师模型引导的预测结果
L2正则项：约束学生模型参数与原始教师模型的偏离程度

表1：基于定制化VBench的Magic 1-For-1定量评测结果（每个样本遵循VBench[10]标准合成5段视频以避免随机误差）

基本预测损失确保学生保持教师的底层生成能力。因此，完全蒸馏损失为：

3.2 模型量化

我们采用Optimum-Quanto量化框架实施模型压缩，通过仅权重int8量化策略显著降低模型内存占用。该量化方案针对去噪网络核心组件实施，包括Transformer模块、文本编码器及VLM编码器。量化过程将原始bfloat16格式的权重映射至int8数值空间，典型实施流程如下：首先计算权重张量的最大绝对值，随后将所有权重线性缩放至int8可表示范围（-128至127），最后进行整型转换。该缩放过程的简化数学表示为：

其中，w_bf16表示原始bfloat16权重，w_int8为量化后的int8权重，max(|w_bf16|)为权重张量的最大绝对值。实际应用中可采用更精细的量化策略（如逐通道量化或量化感知训练）以提升性能。为规避CUDA计算错误并确保数值稳定性，模型内所有线性层在执行int8量化权重乘法前，会将输入张量统一转换为bfloat16格式。这种bfloat16-int8混合精度计算机制在保持精度的同时，充分释放int8权重的内存优化潜力。

量化前模型权重约占用32GB内存，实施int8量化后模型体积压缩至16GB，运行时峰值内存约30GB。经此优化，模型可高效部署于RTX 5090、A10、L20等消费级及推理专用GPU平台。

4 实验

4.1 实验配置

基模型选择 相较于图像到视频生成任务，文本到图像生成领域已有更充分探索。因此，我们采用预训练T2I模型池[19,23,37,1]或直接使用用户提供的图像。针对I2V任务，以预训练HunyuanVideo 13B模型[18]为基模型进行架构改造。

4.2 实现细节

实验采用128块GPU并行训练，批次大小设为64，持续训练两周。初始学习率设为5×10⁻⁵并逐步衰减至1×10⁻⁵，应用指数移动平均（EMA）[22]确保训练稳定性。训练数据选自WebVid-10M[3]、Panda-70M[5]、Koala-36M[35]及自建网络数据集的160万样本子集。

图5：训练期间的模型表现进展。有趣的是，与TI2V Magic 1-For-1相比，T2V Magic 1-For-1在步进蒸馏中表现出相当慢的收敛速度。

在步骤蒸馏环节，我们将CFG蒸馏整合至DMD²训练流程，实现单阶段训练产出四步生成器。DMD²训练设置批次大小16、固定学习率2×10⁻⁶，每完成五次生成模型（fake model）更新后，对四步生成器进行一次参数更新。此外，DMD²训练中真实模型（real model）的低秩分支权重因子设为0.25，生成模型则保持1.0不变。

（技术实现要点说明：

硬件资源配置：明确128 GPU规模与两周训练周期，体现大规模训练特性
学习率动态调度：采用阶梯式衰减策略（5×10⁻⁵→1×10⁻⁵）平衡收敛速度与稳定性
数据构建策略：融合三大公开数据集与自建网络数据，确保数据多样性
联合训练机制：CFG蒸馏与DMD²的协同训练设计实现端到端优化
参数更新规则：生成器/判别器5:1的更新频率比有效维持对抗训练平衡）

4.3 基准测试

我们采用定制化VBench、通用VBench及传统指标（FID、FVD、LPIPS）评估模型性能。受限于算力资源，未采用如MovieGen[24]等前沿模型使用的多步推理配置，而是聚焦模型的效率优化。实验分别在基础模型上测试4/8/16/28/56步推理性能，并对四步生成器进行4/8步推理验证。

定制化VBench：基于肖像视频合成基准I2V VBench[16]，采集58张高质量宽屏图像，通过InternVL-26B生成对应文本描述。每个样本合成5段视频（共290段）以降低测试误差，评估指标包括：i2v主体一致性、运动平滑性、动态幅度、美学质量、成像质量及时域闪烁。

通用VBench：在包含1,118条图文对的标准数据集[15]上进行评测。该基准包含1,118条提示词（每条均匹配参考图像），以提供多样化的全面评估，指标体系与I2V VBench一致。

FID/FVD/LPIPS指标：参考EMO[32]与Hallo[8]方案，从VFHQ数据集[38]随机选取100段视频（每段129帧，分辨率540×960，帧率24FPS），通过计算合成视频与原始视频的FID[11]/FVD[33]/LPIPS[41]得分量化生成质量。

4.4 实验结果

实验分为三部分：首先，消融实验表明4步DMD²训练达到最优性能，且TI2V步骤蒸馏相比T2V步骤蒸馏更易收敛；其次，对比四步生成器与基础模型在肖像/通用视频生成任务的性能差异；最后，将Magic 1-For-1与当前最优TI2V模型进行横向对比。

收敛速度对比：如图5所示，基于Magic 1-For-1强大的生成先验，DMD²在TI2V任务中展现出极快收敛速度——4步生成器在200次迭代后达最优，8步生成器仅需100次迭代。而在T2V任务中，即使经过1,000次迭代，DMD²仍未收敛且性能显著低于TI2V场景。

（关键技术点呈现：

评测体系多维性：构建"定制化VBench+通用VBench+传统指标"三维评估框架
数据构造严谨性：通过5次重复合成（290段视频）降低随机误差
指标可解释性：将"动态幅度"、"时域闪烁"等抽象指标与计算方法显式关联
跨任务对比：通过TI2V与T2V任务的收敛性差异，凸显任务分解策略优势
可视化支持：图5的收敛曲线为结论提供直观证据支撑）

图6：将Magic 1-For-1与最近最先进的开源图像到视频生成模型的定性比较。

四步生成器性能对比 我们在定制化VBench（肖像视频合成）与通用VBench（通用视频生成）上对比四步生成器与基础模型的性能。如表1所示，基础模型性能随采样步数增加逐步提升，但50步基础模型在运动动态性、视觉质量及语义保真度等指标上均落后于4步生成器，表明改进版DMD²有效消除了基础模型的固有偏差。图1进一步显示，Magic 1-For-1（DMD²）在通用VBench评测中全面超越SVD-XT-1.0、VideoCrafter-I2V、SEINE-512x320、I2Vgen-XL及CogVideoX-I2V等竞品，尤其在运动动态性与视觉保真度维度表现突出。

SOTA模型横向对比 如图6所示，Magic 1-For-1与近期开源图像到视频生成模型（如LTX、CogVideoX、OpenSora）相比，在视觉清晰度与运动平滑性等核心维度展现出显著优势。

5 结论

本文提出一套系统性视频生成效率优化方案：通过任务分解将文本到视频生成拆分为图像生成与图像到视频生成两阶段子任务。实验表明，传统扩散步数蒸馏算法在图像到视频场景下的收敛速度较全流程文本到视频任务提升显著。结合量化技术，我们在可控质量损失范围内构建出高效视频生成系统。本研究验证了生成先验信息对加速扩散过程的关键作用，为实时视频生成技术的实用化提供新范式。(QQ and weichat)