当前位置：首页 > article >正文

文本驱动的3D人体动作生成

article 2025/4/2 11:08:19

文本驱动的3D人体动作生成技术，旨在根据给定的文本描述自动生成3D人体的动作序列。这种技术主要应用于动画制作和人形机器人的设计，能够根据文本指令创建动作，从而使动画制作过程更为高效且具有创新性。

技术包括：

变分自动编码器（VAE）：用于将关键帧映射到一个潜在空间，通过Kullback-Leibler正则化来降低维度，这有助于加速后续的扩散过程。
并行跳跃Transformer：这是一个新颖的架构，用于处理关键帧的潜在表示和文本条件之间的跨模态注意力，以生成关键帧。
文本引导的Transformer：设计用于在关键帧之间填充动作，确保生成的动作既忠实于文本描述也符合人体动作的物理约束。

这种技术的意义在于：

提高效率：通过先生成关键帧再填充其余动作的方法，减少了计算成本并提高了生成过程的效率。
降低错误率：传统方法直接生成完整动作序列容易出错，采用关键帧方法可以更准确地控制动作的关键转折点。
推动创新：此技术为动画制作和机器人设计提供了新的可能性，使得动作生成不仅忠实于文本描述，还能符合现实世界的物理和生物动力学限制。
应用广泛：在动画和人形机器人设计之外，这项技术还可扩展到视频游戏、虚拟现实和其他需要精准动作模拟的领域。

文本驱动的3D人体动作生成技术不仅提高了动作制作的精确性和效率，也为相关行业带来了创新的工作流程和产品。

论文作者：Zichen Geng,Caren Han,Zeeshan Hayder,Jian Liu,Mubarak Shah,Ajmal Mian

作者单位：University of Western Australia;University of Melbourne;Commonwealth Scientific and Industrial Research Organisation (CSIRO);Hunan University;University of Central Florida

论文链接：http://arxiv.org/abs/2405.15439v1

内容简介：

1）方向：文本驱动的3D人体动作生成

2）应用：用于动画和人形机器人设计

3）背景：现有算法直接生成完整序列，计算成本高且容易出错，因为没有特别关注关键姿势，而这在动画领域几十年来一直是基石。

4）方法：本文提出了KeyMotion方法，通过首先生成关键帧，然后进行填充，生成与输入文本相对应的合理人体动作序列。使用具有Kullback-Leibler正则化的变分自动编码器（VAE）将关键帧投影到潜在空间，以降低维度并加速后续扩散过程。对于逆扩散，提出一种新的并行跳跃Transformer，执行关键帧潜在和文本条件之间的跨模态注意力。为了完成动作序列，提出了一个文本引导的Transformer，设计用于执行动作填充，确保保持忠实度并遵守人体动作的物理约束。

5）结果：实验证明，所提出方法在HumanML3D数据集上实现了最先进的结果，在所有R-precision指标和MultiModal Distance上优于其他方法。KeyMotion在KIT数据集上也取得了竞争性表现，在Top3 R-precision、FID和多样性指标上取得了最佳结果。

http://www.kler.cn/a/317763.html

相关文章：

Postman导出报告

Linux复习--网络基础（OSI七层、TCP三次握手与四次挥手、子网掩码计算）

Docker学习笔记（四）单主机网络

【Elasticsearch】-实现向量相似检索

Spring MVC 基本配置步骤总结

Kafka 3.0.0集群部署教程

【Proteus单片机仿真】基于51单片机的循迹小车避障＋气体传感器和温度传感器系统

conda环境下module ‘numba.types‘ has no attribute ‘Macro‘问题解决

【Qt】控件样式案例

后端开发刷题 | 最小的K个数（优先队列）

Github上开源了一款AI虚拟试衣，看看效果

20240924软考架构-------软考191-195答案解析

iOS 18 正式上線，但 Apple Intelligence 還要再等一下

完结马哥教育SRE课程--服务篇

02【Matlab系统辨识】白噪声

【论文阅读】Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation

CSS 复合选择器简单学习

128页4W字精品文档 | 某智慧能源集团数字化管理平台项目建议书

python：django项目知识点02——搭建简易授权码核销系统

Llama 3.1 技术研究报告-3