当前位置: 首页 > article >正文

文本驱动的3D人体动作生成

文本驱动的3D人体动作生成技术,旨在根据给定的文本描述自动生成3D人体的动作序列。这种技术主要应用于动画制作和人形机器人的设计,能够根据文本指令创建动作,从而使动画制作过程更为高效且具有创新性。

技术包括:

  • 变分自动编码器(VAE):用于将关键帧映射到一个潜在空间,通过Kullback-Leibler正则化来降低维度,这有助于加速后续的扩散过程。
  • 并行跳跃Transformer:这是一个新颖的架构,用于处理关键帧的潜在表示和文本条件之间的跨模态注意力,以生成关键帧。
  • 文本引导的Transformer:设计用于在关键帧之间填充动作,确保生成的动作既忠实于文本描述也符合人体动作的物理约束。

这种技术的意义在于:

  1. 提高效率:通过先生成关键帧再填充其余动作的方法,减少了计算成本并提高了生成过程的效率。
  2. 降低错误率:传统方法直接生成完整动作序列容易出错,采用关键帧方法可以更准确地控制动作的关键转折点。
  3. 推动创新:此技术为动画制作和机器人设计提供了新的可能性,使得动作生成不仅忠实于文本描述,还能符合现实世界的物理和生物动力学限制。
  4. 应用广泛:在动画和人形机器人设计之外,这项技术还可扩展到视频游戏、虚拟现实和其他需要精准动作模拟的领域。

文本驱动的3D人体动作生成技术不仅提高了动作制作的精确性和效率,也为相关行业带来了创新的工作流程和产品。

论文作者:Zichen Geng,Caren Han,Zeeshan Hayder,Jian Liu,Mubarak Shah,Ajmal Mian

作者单位:University of Western Australia;University of Melbourne;Commonwealth Scientific and Industrial Research Organisation (CSIRO);Hunan University;University of Central Florida

论文链接:http://arxiv.org/abs/2405.15439v1

内容简介:

1)方向:文本驱动的3D人体动作生成

2)应用:用于动画和人形机器人设计

3)背景:现有算法直接生成完整序列,计算成本高且容易出错,因为没有特别关注关键姿势,而这在动画领域几十年来一直是基石。

4)方法:本文提出了KeyMotion方法,通过首先生成关键帧,然后进行填充,生成与输入文本相对应的合理人体动作序列。使用具有Kullback-Leibler正则化的变分自动编码器(VAE)将关键帧投影到潜在空间,以降低维度并加速后续扩散过程。对于逆扩散,提出一种新的并行跳跃Transformer,执行关键帧潜在和文本条件之间的跨模态注意力。为了完成动作序列,提出了一个文本引导的Transformer,设计用于执行动作填充,确保保持忠实度并遵守人体动作的物理约束。

5)结果:实验证明,所提出方法在HumanML3D数据集上实现了最先进的结果,在所有R-precision指标和MultiModal Distance上优于其他方法。KeyMotion在KIT数据集上也取得了竞争性表现,在Top3 R-precision、FID和多样性指标上取得了最佳结果。


http://www.kler.cn/a/317763.html

相关文章:

  • 阅读2020-2023年《国外军用无人机装备技术发展综述》笔记_技术趋势
  • 2024 年 Apifox 和 Postman 对比介绍详细版
  • 1.7 JS性能优化
  • @ComponentScan:Spring Boot中的自动装配大师
  • C#文字识别API场景解析、表格识别提取
  • 【C#设计模式(8)——过滤器模式(Adapter Pattern)】
  • Postman导出报告
  • Linux复习--网络基础(OSI七层、TCP三次握手与四次挥手、子网掩码计算)
  • Docker学习笔记(四)单主机网络
  • 【Elasticsearch】-实现向量相似检索
  • Spring MVC 基本配置步骤 总结
  • Kafka 3.0.0集群部署教程
  • 【Proteus单片机仿真】基于51单片机的循迹小车避障+气体传感器和温度传感器系统
  • conda环境下module ‘numba.types‘ has no attribute ‘Macro‘问题解决
  • 【Qt】控件样式案例
  • 后端开发刷题 | 最小的K个数(优先队列)
  • Github上开源了一款AI虚拟试衣,看看效果
  • 20240924软考架构-------软考191-195答案解析
  • iOS 18 正式上線,但 Apple Intelligence 還要再等一下
  • 完结马哥教育SRE课程--服务篇
  • 02【Matlab系统辨识】白噪声
  • 【论文阅读】Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation
  • CSS 复合选择器简单学习
  • 128页4W字精品文档 | 某智慧能源集团数字化管理平台项目建议书
  • python:django项目知识点02——搭建简易授权码核销系统
  • Llama 3.1 技术研究报告-3