大模型时代的具身智能系列专题(十八)
Jim Fan 团队
Jim Fan 是英伟达高级科学家,他和朱玉可一起,在英伟达内部领导一个新研究小组 ——GEAR,通用具身智能体研究。Jim Fan在斯坦福大学视觉实验室获得了博士学位,师从李飞飞教授。他的研究领域十分广泛,包括了多模态基础模型、强化学习以及计算机视觉,曾实习于谷歌云AI、OpenAI、百度硅谷人工智能实验室等知名组织。
主题相关作品
- HOVER
HOVER
HOVER是一个多模式策略蒸馏框架,出自英伟达的 GEAR 团队的最新研究,由李飞飞教授的学生 Jim Fan 和朱玉可共同领导。
在此之前,机器人要完成不同的任务必须依赖特定的控制策略。举个例子,如果我们希望人形机器人进行导航,那就要依赖于根速度或位置跟踪进行专门优化;要是想让机器人去完成端茶、擦桌子这样的桌面任务,就需要优先考虑上半身关节角度跟踪。每换一个方向就要更改策略重新训练一次。这样的训练方式导致人形机器人只能进行技能专精,很难往我们想要的全能方向发展。
Jim Fan 团队找到的通用办法,是把全身运动模仿作为所有这些任务的共同抽象,并为机器人学习多种全身控制模式提供通用的运动技能。
通俗点说,他们把导航、桌面操作等任务的共通点提炼成全身运动模仿,让机器人通过学习通用的运动技能来训练全身控制模式。一通百通,全身运动会了,端个茶带个路也是轻而易举。
这一办法的灵感源自于人类潜意识的处理方式。人类在日常活动中,比如步行、维持平衡或是调整肢体动作时,大脑会不自觉地进行一系列计算,帮助我们迅速作出反应。Jim Fan 团队通过模仿这种潜意识的运作机制,将类似的“内在”计算能力引入机器人技术,推出了 HOVER(仿人通用控制器)。
HOVER 能够使机器人学习如何精确控制电机,从而协调人形机器人的运动和操作,将多种控制模式整合成统一的策略。更重要的是,HOVER 还能在保留各模式独特功能的同时,实现模式间的自然衔接,从而打造了一支步调一致的机器人军团。
具体来说,我们能用 HOVER 通过“提示”输入头部姿势、手部姿势、全身运动、关节角度等各种类型的高级运动指令,也可以训练任何可以在 Isaac(英伟达 AI 机器人开发平台) 中模拟的人形机器人。
因此,HOVER 的通用不止是单个机器人动作模块的通用,更是支持多种机器人共同训练的通用。
以前的机器人训练都是各家训各自的,不互通也很难移植已有的成果。现在在英伟达的 Isaac 模拟平台上,HOVER 让各家“杂牌军”都能协同进化,一跃成为“正规军”,伟大无需多言。
HOVER支持如图1所示的多种控制模式,包括超过15种适用于19自由度类人机器人的实际应用模式。这个多功能命令空间涵盖了大多数模式。
为了确保运动技能的强大基础,我们训练了一个oracle运动模仿者来模仿来自MoCap的大规模人体运动数据,涵盖了各种各样的运动和控制目标。这种设计选择利用了人类运动固有的适应性和自然效率,为策略提供了丰富的运动先验,可以在多种控制模式中重复使用。通过将训练过程建立在类人运动的基础上,该策略对平衡、协调和运动控制有了更深的理解,这些对于有效的全身类人行为至关重要。通过策略提炼过程,我们将这些运动技能从oracle策略转移到一个能够处理多种控制模式的“通才策略”中。得到的多模式策略不仅支持多种控制模式,而且优于针对每种模式单独训练的策略,如图3所示。
我们假设这是由于策略利用共享的物理知识的模式,如保持平衡,类似人类的运动,和精确的肢体控制。这些共享的技能增强了通用性,从而在所有模式中获得更好的性能。相比之下,单一模式的政策往往过度适应特定的奖励结构和训练环境,限制了它们的适应性。我们的多模式通才策略还可以实现模式之间的无缝转换,使其既健壮又通用。总之,HOVER的贡献有三个方面:
1)提出了HOVER,一个支持多种控制模式的人形全身控制的统一神经控制器;
2)通过政策蒸馏,HOVER有效地跨模式共享运动技能,并且优于单独训练的政策;
3)仿真和真实人形机器人的实验表明,与其他基线相比,hover实现了模式之间的无缝转换,并提供了优越的多模式控制。
在腿式运动中,根速度或位置跟踪是常用的指令空间。然而,仅仅关注根部跟踪会限制类人机器人的全部能力,特别是对于整个身体的局部操作任务。我们观察到,虽然先前的工作已经引入了具有不同优点和缺点的控制模式,但每种模式通常都是针对特定任务子集量身定制的,因此缺乏通用类人控制所需的灵活性。相比之下,我们的目标是设计一个全面的控制框架,以适应广泛的场景,并适应各种类人任务。要实现这一点,必须构造命令空间以满足以下关键标准:
- 通用性:命令空间应该包含大多数现有配置,允许通用控制器在不牺牲性能或通用性的情况下取代特定于任务的控制器。该空间应该具有足够的表现力,以便与现实世界的控制设备进行交互,包括操纵杆、键盘、动作捕捉系统、外骨骼和虚拟现实(VR)耳机,如图1所示。
- 原子性:命令空间应该由独立的维度组成,使控制选项的任意组合能够支持各种模式。
在此基础上,定义了统一的仿人全身控制命令空间。该空间包括两个主要控制区域-上体和下体控制-并结合三种不同的控制模式:
- 运动学位置跟踪:机器人上关键刚体点的目标3D位置。
- 局部关节角度跟踪:每个机器人电机的目标关节角度。
- 根跟踪:目标根速度、高度和方向,由滚转、俯仰和偏航角度指定。
在我们的框架中,如图1所示,引入了一个one-hot masking向量来指定激活命令空间的哪些组件以进行跟踪。最近在基于学习的仿人全身控制方面的研究,如表1所示,可以被视为我们统一命令空间的子集,每个子集代表特定的配置。
最近的研究表明,从大型运动数据集中学习类人机器人的鲁棒全身控制具有优势。从人体运动数据集到仿人运动数据集的重定向过程有三个步骤:
步骤1:我们首先使用正运动学计算仿人的关键点位置,将其关节构型映射到工作空间坐标。
步骤2:下一步,通过优化SMPL参数,使其与正运动学计算的关键点对齐,对SMPL模型进行拟合,以匹配人形机器人的运动学。
步骤3:最后,利用梯度下降法将拟合的SMPL模型与拟合的人形模型匹配对应的关键点,重新定位amass数据集。
我们使用运动重定向和“模拟到数据”过程,将大规模人体运动数据集转换为仅包含人形可行运动的数据集 Q ^ \hat{Q} Q^。
实验
在本节中,我们在IsaacGym和现实世界的Unitree H1机器人中展示了广泛的实验结果,以解决以下问题:
- Q1: HOVER作为通才策略是否优于针对特定命令配置训练的策略?
- Q2: HOVER能胜过其他训练多模式人形控制器的方法吗?
- Q3: HOVER能否转移到现实世界的硬件上,并执行多模式控制?
reference
- https://arxiv.org/pdf/2410.21229
- https://mp.weixin.qq.com/s/MQHtC-CoISxJGE5njLwL0w