当前位置：首页 > article >正文

每日AIGC最新进展(80)：重庆大学提出多角色视频生成方法、Adobe提出大视角变化下的人类视频生成、字节跳动提出快速虚拟头像生成方法

article 2025/4/2 11:56:38

Diffusion Models专栏文章汇总：入门与实战

Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance

在多角色视频生成的研究中，如何实现文本可编辑和姿态可控的角色生成一直是一个具有挑战性的课题。现有的方法往往只关注单一对象的视频生成，而忽视了在实际场景中多个角色同时出现的复杂性。为了解决这个问题，本文提出了一种名为Follow-Your-MultiPose（FYM）的新框架，旨在通过姿态引导实现多角色视频生成。该方法不需要额外的调优，利用分离的文本和姿态信息，能够精确地控制每个角色的生成。通过提取角色的掩码并结合大型语言模型（LLMs）生成的文本提示，FYM能够有效地生成具有高时间一致性和精细可控性的多角色视频。实验结果表明，该方法在生成质量和可控性方面显著优于现有技术。

FYM方法的核心由四个主要部分组成：掩码增强流程、提示过滤模块、空间对齐交叉注意力机制和多分支控制模块。具体步骤如下：

掩码增强流程：从姿态序列中提取角色掩码，以确定每个角色在视频中的空间位置。通过设计掩码提取器，识别出有效的像素区域并将其转化为掩码，便于后续处理。
提示过滤模块：设计用于区分不同角色描述的提示。通过在文本提示中使用标识符（如<1>、<2>等），将提示分割并映射到各自的角色上，确保每个角色的生成与其描述相符。
空间对齐交叉注意力机制：该机制允许在生成过程中对每个角色的提示进行独立处理。通过扩展传统的交叉注意力结构，FYM能够并行处理多个角色的隐藏状态，从而实现更高的生成精度。
多分支控制模块：将分割的提示与相应的姿态序列在独立的控制网络中处理，以避免信息污染。每个角色在生成时都能获得清晰的控制，确保最终生成的多角色视频的空间一致性。

在实验部分，本文使用了Stable Diffusion V1.5作为基础模型，并利用DWPose提取姿态序列。通过引入个性化的文本到图像（T2I）检查点，FYM能够生成多种风格的视频。实验结果包括定量和定性评估，使用了四项指标来比较生成质量：CLIP得分、帧一致性、姿态精度和用户研究。结果表明，FYM在生成的真实性、一致性和艺术性方面均优于其他现有方法。此外，进行了一系列一致性实验，以验证每个角色和背景的生成效果，确保生成视频的时间一致性。通过消融实验，进一步证明了空间对齐交叉注意力和多分支控制模块在多角色生成中的重要性。

Free-viewpoint Human Animation with Pose-correlated Reference Selection

本研究旨在解决在较大视角和相机距离变化下的人类动画合成问题，提出了一种基于姿态相关参考选择的扩散网络方法。该方法能够生成具有一致角色外观的新视角视频，克服了传统方法在显著视角变化下的局限性。通过利用多个参考图像，模型能够提取丰富的视觉信息，从而在生成过程中保持高保真度。实验结果表明，该方法在相同数量的参考图像下，性能优于当前最先进的技术，尤其在处理大视角变化时表现突出。此外，适应性参考选择机制能够选择最相关的参考区域，以提高动画生成的质量和一致性。

本研究的方法分为几个关键步骤：

参考图像输入：利用多个参考图像作为输入，提取丰富的视觉信息。
姿态相关性模块：计算目标姿态与参考姿态之间的相关性，生成相关性图，以识别出对生成过程最重要的区域。
自适应参考选择策略：根据相关性图，筛选出最具信息量的参考特征，减少冗余信息，降低计算成本。
双UNet架构：采用双UNet结构，其中一个用于提取参考特征，另一个用于生成去噪输出，增强生成质量。
训练过程：在训练阶段，随机选择参考图像进行训练，以模拟测试时的随机性，并通过多次迭代优化生成结果。

在实验部分，我们使用了新构建的多镜头TED视频数据集（MSTed）和公开的DyMVHumans数据集进行评估。实验设置包括对单人场景的过滤，以确保数据的一致性。结果表明，即使在仅使用单个参考图像的情况下，模型也能产生高质量的输出，且在多个评估指标上超越其他方法。具体来说，在DyMVHumans数据集中，我们的模型在生成质量和表现一致性方面均表现优异，证明了多参考图像训练的有效性，并展示了在不同视角下的强大适应能力。

FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation

在本研究中，我们提出了一种名为FADA（快速扩散头像合成与混合监督多CFG蒸馏）的新框架，旨在解决音频驱动的虚拟头像合成中的速度和质量问题。虽然现有的扩散模型在生成高保真度和生动表现方面表现出色，但其推理速度缓慢限制了实际应用。通过引入混合监督损失和多CFG（无分类器引导）蒸馏技术，FADA能够有效利用不同质量的数据，从而提升模型的鲁棒性和生成效率。我们的实验表明，FADA在多个数据集上生成的视频既生动又具有竞争力的质量，同时实现了4.17到12.5倍的推理速度提升。

FADA的核心方法包括三个主要部分：

混合监督蒸馏：我们设计了一种混合监督损失函数，结合了来自高质量和中等质量数据的学习。通过适应性调整教师模型和学生模型之间的学习权重，学生模型可以在保留教师模型高质量生成能力的同时，利用更多的中等质量数据来增强其泛化能力。
多CFG蒸馏：引入了可学习的令牌，以模仿多CFG推理过程，帮助学生模型更好地学习音频和参考图像之间的关系。这种方法显著减少了推理过程中所需的多次模型推理，从而加快了生成速度。
整体框架：FADA采用了双UNet架构，教师模型在高质量数据集上进行训练，而学生模型则在包含中等质量数据的情况下进行蒸馏训练。通过这种设计，FADA能够在生成过程中保持高质量的音频视觉同步。

我们的实验分为几个部分：首先，我们详细介绍了FADA的实现细节和训练数据集的构建。我们使用了来自互联网的演讲者视频，经过切割和调整以适应模型的输入要求。接下来，我们将FADA与其他最新的扩散模型进行定量和定性比较，评估其在图像质量、音频视觉同步和生成速度等方面的表现。实验结果显示，FADA在多个指标上超越了现有的基线方法，尤其是在生成速度上表现出色。此外，我们还进行了消融实验，以验证混合监督损失和多CFG蒸馏的有效性。

查看全文

http://www.kler.cn/a/469831.html