当前位置: 首页 > article >正文

OmniHuman:一张图+音频生成逼真视频

 人工智能咨询培训老师叶梓 转载标明出处

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

更多分享,关注视频号:sphuYAMr0pGTk27  抖音号:44185842659

现有的端到端人类动画模型在扩展到大规模视频生成任务时面临挑战,主要是因为这些模型依赖于经过严格筛选的数据集,导致大量数据被丢弃,限制了模型的泛化能力和生成效果。此外,现有方法在处理复杂场景(如全身动画、人与物体交互等)时表现不佳。

为了解决这一问题,字节跳动的研究团队提出了一种名为OmniHuman的新框架。OmniHuman基于扩散变换器(Diffusion Transformer),通过在训练阶段混合多种运动相关条件,实现了数据的扩展,并显著提升了生成视频的真实性和多样性。

OmniHuman 的核心方法

OmniHuman 的核心方法是通过一种创新的多模态混合训练策略,结合扩散变换器(Diffusion Transformer)架构,实现高质量的人类动画视频生成。

Figure 2 展示了 OmniHuman 的整体框架。OmniHuman 的框架由两部分组成:OmniHuman 模型和全条件训练策略(Omni-Conditions Training Strategy)。OmniHuman 模型基于预训练的 DiT(Diffusion Transformer)架构,能够同时接收多种模态输入(如文本、图像、音频和姿势)进行控制,从而生成逼真的人像视频。

1. 全条件训练策略

OmniHuman 提出了一个渐进式、多阶段的训练方法,根据不同条件对运动的影响程度进行分阶段训练。这一策略遵循两个关键原则:

  • 更强条件的任务可以利用较弱条件的任务及其数据,从而实现数据扩展。例如,音频驱动的任务通常因唇部同步等要求而丢弃大量数据,而这些数据可以用于文本驱动的任务。

  • 条件越强,训练比例应越低,以避免模型过度依赖强条件,从而影响弱条件的学习效果。

2. 多模态条件注入

OmniHuman 将条件分为两类:驱动条件和外观条件。

  • 驱动条件:音频特征通过 cross-attention 实现条件注入,姿势特征通过 Heatmap 特征编码后与 Noise 特征拼接实现条件注入,文本特征则保持了 MMDiT 的条件注入方式。

  • 外观条件:OmniHuman 没有采用单独的参考图网络(Reference Net),而是直接利用去噪声网络(Denoising Net)对输入图像进行特征编码,复用了 backbone 的特征提取方式。

3. 多阶段训练

OmniHuman 采用多阶段训练方法,逐步引入文本、音频和姿势条件。具体来说:

  • 第一阶段仅使用文本和图像条件,不涉及音频和姿势条件。

  • 第二阶段引入音频条件,但不使用姿势条件。

  • 第三阶段同时使用所有条件,并逐步降低各条件的训练比例。

4. 扩散变换器架构

OmniHuman 基于扩散变换器(Diffusion Transformer)架构,使用 3DVAE 将视频编码到潜在空间,并通过流匹配进行去噪训练。这种架构能够处理大规模数据,并学习自然的运动模式。

5. 推理阶段

在推理阶段,OmniHuman 采用无分类器指导(CFG)和 CFG 退火策略,以平衡生成视频的表现力和计算效率。这种策略能够有效减少生成视频中的瑕疵(如皱纹),同时保持良好的唇部同步和动作表现力。

实验结果与性能评估

OmniHuman 在多个指标上显著优于现有方法。例如,在表1中,OmniHuman 在音频驱动的肖像动画任务中,无论是在 CelebV-HQ 还是 RAVDESS 数据集上,均在视觉质量(IQA)、唇部同步(Sync-C)和动作多样性(HKV)等指标上取得了最佳性能。在表2中,OmniHuman 在音频驱动的半身动画任务中也表现出色,尤其是在手势关键点置信度(HKC)和视觉质量(IQA)方面。

此外,表3展示了不同音频训练比例的主观比较结果。实验表明,当音频训练比例为50%时,模型在身份一致性、唇部同步精度和视觉质量方面表现最佳。

定性分析与生成效果

OmniHuman 生成的视频在视觉上更加逼真,支持多种肖像内容(如面部特写、半身、全身),并能处理复杂的人体姿态和人与物体的交互。例如,图1展示了 OmniHuman 根据输入音频和图像生成的视频帧,生成结果不仅匹配音频的节奏,还能自然地展示头部和手势动作。此外,OmniHuman 还支持多种输入形式和驱动模态(如音频驱动、视频驱动和组合驱动信号),进一步提升了模型的灵活性。

OmniHuman 通过混合多种条件信号进行训练,有效解决了人类动画数据扩展的难题,并在生成质量和多样性上取得了显著提升。该框架不仅能够生成高质量的人类视频,还支持多种输入形式和驱动模态,为未来的人类动画研究提供了新的方向。

论文链接:https://arxiv.org/pdf/2502.01061

项目链接:OmniHuman-1 Project 


http://www.kler.cn/a/555162.html

相关文章:

  • 基于eBPF的全栈可观测性系统:重新定义云原生环境诊断范式
  • 大模型开发实战篇7:语音识别-语音转文字
  • [数据结构]顺序表详解
  • uni-app小程序开发 基础知识2
  • 从面试中的“漏掉步骤”谈自我表达与思维方式的转变
  • MapReduce 第二部:深入分析与实践
  • 鸿蒙状态管理概述
  • 一周学会Flask3 Python Web开发-redirect重定向
  • rust 实例化动态对象
  • 机器学习,我们主要学习什么?
  • Golang深度学习
  • Log4j在Spring项目中的应用与实践
  • 从语言模型到文明演算:AGI技术奇点的多模态冲击
  • MySQL修改JSON格式数据示例
  • Hackthebox- Season7- Titanic 简记 [Easy]
  • 【Golang】golang中 regexp.MustCompile与regexp.MatchString的区别
  • 使用 Python Pillow 库处理图片并通过 ESP8266 驱动墨水屏的入门探索
  • IDEA中aiXcoder、Bito和通义灵码三个插件的对比
  • 【含文档+PPT+源码】基于大数据的交通流量预测系统
  • 用C++ Qt实现安卓电池充电动效 | 打造工业级电量控件