文本驱动的3D人体动作生成
文本驱动的3D人体动作生成技术,旨在根据给定的文本描述自动生成3D人体的动作序列。这种技术主要应用于动画制作和人形机器人的设计,能够根据文本指令创建动作,从而使动画制作过程更为高效且具有创新性。
技术包括:
- 变分自动编码器(VAE):用于将关键帧映射到一个潜在空间,通过Kullback-Leibler正则化来降低维度,这有助于加速后续的扩散过程。
- 并行跳跃Transformer:这是一个新颖的架构,用于处理关键帧的潜在表示和文本条件之间的跨模态注意力,以生成关键帧。
- 文本引导的Transformer:设计用于在关键帧之间填充动作,确保生成的动作既忠实于文本描述也符合人体动作的物理约束。
这种技术的意义在于:
- 提高效率:通过先生成关键帧再填充其余动作的方法,减少了计算成本并提高了生成过程的效率。
- 降低错误率:传统方法直接生成完整动作序列容易出错,采用关键帧方法可以更准确地控制动作的关键转折点。
- 推动创新:此技术为动画制作和机器人设计提供了新的可能性,使得动作生成不仅忠实于文本描述,还能符合现实世界的物理和生物动力学限制。
- 应用广泛:在动画和人形机器人设计之外,这项技术还可扩展到视频游戏、虚拟现实和其他需要精准动作模拟的领域。
文本驱动的3D人体动作生成技术不仅提高了动作制作的精确性和效率,也为相关行业带来了创新的工作流程和产品。
论文作者:Zichen Geng,Caren Han,Zeeshan Hayder,Jian Liu,Mubarak Shah,Ajmal Mian
作者单位:University of Western Australia;University of Melbourne;Commonwealth Scientific and Industrial Research Organisation (CSIRO);Hunan University;University of Central Florida
论文链接:http://arxiv.org/abs/2405.15439v1
内容简介:
1)方向:文本驱动的3D人体动作生成
2)应用:用于动画和人形机器人设计
3)背景:现有算法直接生成完整序列,计算成本高且容易出错,因为没有特别关注关键姿势,而这在动画领域几十年来一直是基石。
4)方法:本文提出了KeyMotion方法,通过首先生成关键帧,然后进行填充,生成与输入文本相对应的合理人体动作序列。使用具有Kullback-Leibler正则化的变分自动编码器(VAE)将关键帧投影到潜在空间,以降低维度并加速后续扩散过程。对于逆扩散,提出一种新的并行跳跃Transformer,执行关键帧潜在和文本条件之间的跨模态注意力。为了完成动作序列,提出了一个文本引导的Transformer,设计用于执行动作填充,确保保持忠实度并遵守人体动作的物理约束。
5)结果:实验证明,所提出方法在HumanML3D数据集上实现了最先进的结果,在所有R-precision指标和MultiModal Distance上优于其他方法。KeyMotion在KIT数据集上也取得了竞争性表现,在Top3 R-precision、FID和多样性指标上取得了最佳结果。