当前位置: 首页 > article >正文

【论文阅读】HumanPlus: Humanoid Shadowing and Imitation from Humans

作者:Zipeng Fu、Qingqing Zhao、Qi Wu、Gordon Wetstein、Chelsea Finn
项目共同负责人,斯坦福大学 项目网址:https://humanoid-ai.github.io

摘要

制造外形与人类相似的机器人的一个关键理由是,我们可以利用大量的人类数据进行训练。然而,由于人形机器人在感知和控制方面的复杂性,人形机器人与人类在形态和驱动方式上存在的物理差距,以及缺乏让人形机器人从第一人称视角视觉学习自主技能的数据处理流程,在实际操作中利用这些数据仍然具有挑战性。在本文中,我们介绍了一种完整的系统,使人形机器人能够从人类数据中学习动作和自主技能。我们首先在模拟环境中通过强化学习,利用现有的 40 小时人类动作数据集训练一个底层策略。这个策略可以迁移到现实世界,让人形机器人仅使用一个 RGB 摄像头就能实时跟随人类的身体和手部动作,即动作跟随(shadowing)。通过动作跟随,人类操作员可以远程操作人形机器人,收集现实世界中用于学习不同任务的全身数据。利用收集到的数据,我们随后进行有监督的行为克隆,使用第一人称视角视觉训练技能策略,从而使人形机器人能够通过模仿人类技能自主完成不同任务。我们在定制的 33 自由度、180 厘米高的人形机器人上展示了该系统,通过最多 40 次演示,该机器人能自主完成诸如穿鞋后站立行走、从仓库货架上取物、折叠运动衫、重新摆放物品、打字以及与另一个机器人打招呼等任务,成功率达到 60 - 100%。

1. 引言

人形机器人因其类似人类的外形,长期以来一直受到机器人学界的关注。由于我们周围的环境、任务和工具都是基于人类形态构建和设计的,与人等高的人形机器人自然成为通用机器人的硬件平台,有望解决人类能完成的所有任务。人形机器人类似人类的形态也提供了一个独特的机会,即可以利用大量可用的人类动作和技能数据进行训练,从而避开机器人数据稀缺的问题。通过模仿人类,人形机器人有可能挖掘人类展现出的丰富技能和动作,为实现通用机器人智能提供一条有前景的途径。

然而,在实践中,人形机器人从人类数据中学习仍然面临挑战。人形机器人复杂的动力学特性以及高维的状态和动作空间,给感知和控制带来了困难。传统方法,如将问题分解为感知、规划和跟踪,以及对手臂和腿部控制进行单独模块化 [10, 10, 23, 40],设计起来耗时,应用范围也有限,难以扩展到人形机器人预期操作的各种任务和环境中。此外,尽管与人形机器人相比,人形机器人与人类的相似度较高,但在形态和驱动方式上仍存在物理差异,包括自由度数量、连杆长度、高度、重量、视觉参数和机制,以及驱动强度和响应性等,这些都阻碍了人形机器人有效利用和学习人类数据。现成的集成硬件平台的缺乏进一步加剧了这个问题。另外,我们缺少一个用于人形机器人全身远程操作的便捷数据处理流程,这使得研究人员无法利用模仿学习来教授人形机器人任意技能。多家公司开发的人形机器人展示了这种数据处理流程以及后续从收集的数据中进行模仿学习的潜力,但相关细节并未公开,且其系统的自主演示也仅限于少数任务。先前的工作使用动作捕捉系统、第一人称视角(first-person-view,FPV)虚拟现实(virtual reality,VR)头戴设备和外骨骼来远程操作人形机器人 [17, 20, 38, 59],这些设备昂贵且操作地点受限。

在本文中,我们提出了一个完整的系统,使人形机器人能够从人类数据中学习动作和自主技能。为了解决人形机器人的控制复杂性问题,我们借鉴了近年来腿部机器人通过在模拟环境中进行大规模强化学习和仿真到现实迁移(sim-to-real transfer)取得的成功经验 [41, 51],训练一个用于全身控制的底层策略。通常,基于学习的底层策略由于耗时的奖励工程设计 [19, 68],被设计为特定任务策略,这使得人形机器人硬件一次只能展示一种技能,比如行走。这种限制制约了人形机器人平台能够执行的任务多样性。同时,我们拥有一个 40 小时的人类动作数据集 AMASS [49],涵盖了广泛的技能。我们利用这个数据集,首先将人类姿态重新映射到人形机器人姿态,然后基于重新映射后的形机器人姿态训练一个与任务无关的底层策略称为人形机器人动作跟随变换器(Humanoid Shadowing Transformer)。我们基于姿态的底层策略可以零样本迁移到现实世界。

在部署了根据目标姿态控制人形机器人的底层策略后,我们可以使用单个 RGB 摄像头,实时让人形机器人对定制的 33 自由度、180 厘米高的人形机器人进行动作跟随。使用最先进的人体和手部姿态估计算法 [58, 81],我们可以估计实时人类动作,并将其重新映射为人形机器人动作,作为底层策略的输入。传统上,这个过程是通过使用动作捕捉系统完成的,动作捕捉系统昂贵且操作地点受限。站在附近的人类操作员可以通过视线远程操作人形机器人,收集现实世界中各种任务的全身数据,如拳击、弹钢琴、打乒乓球以及打开橱柜存放重物。在被远程操作时,人形机器人通过双目 RGB 摄像头收集第一人称视角视觉数据。动作跟随为各种现实世界任务提供了一个高效的数据收集流程,避开了在模拟环境中进行逼真的 RGB 渲染、精确的软物体模拟和多样化任务规范的挑战。

利用通过动作跟随收集的数据,我们进行有监督的行为克隆,以训练基于视觉的技能策略。技能策略将人形机器人双目第一人称视角 RGB 视觉作为输入,并预测所需的人形机器人身体和手部姿态。我们借鉴了近期从人类提供的演示中进行模仿学习的成功经验 [11, 104],并引入了一种基于变换器的架构,融合了动作预测和前向动力学预测。通过对图像特征进行前向动力学预测,我们的方法通过对图像特征空间进行正则化,提高了性能,防止基于视觉的技能策略忽略图像特征并过度拟合本体感觉。通过最多 40 次演示,我们的人形机器人可以自主完成诸如穿鞋后站立行走、从仓库货架上取物、折叠运动衫、重新摆放物品、打字以及与另一个机器人打招呼等任务,成功率达到 60 - 100%。

本文的主要贡献是一个名为 HumanPlus 的完整人形机器人系统,用于从人类数据中学习复杂的自主技能。该系统的核心是:

(1)一个实时动作跟随系统,允许人类操作员使用单个 RGB 摄像头进行全身控制人形机器人,以及人形机器人动作跟随变换器,这是一个在模拟环境中基于大量人类动作数据训练的底层策略;

(2)人形机器人模仿变换器(Humanoid Imitation Transformer),这是一种模仿学习算法,能够通过 40 次演示实现高效学习,用于双目感知和高自由度控制。我们的动作跟随系统和模仿学习算法之间的协同作用,使得可以在现实世界中直接学习全身操作和移动技能,例如仅通过最多 40 次演示,就能以 60 - 100% 的成功率完成穿鞋后站立行走的任务。

2. 相关工作

人形机器人的强化学习

人形机器人的强化学习主要集中在移动方面。虽然基于模型的控制 [16, 36, 40, 55, 69, 92, 98] 在各种人形机器人 [13, 32, 37, 54, 65, 89] 上取得了巨大进展,但基于学习的方法可以为人形机器人 [39, 67, 68, 85, 91, 94, 103] 和双足机器人 [4, 42, 44, 45, 83, 84, 93, 100] 实现强大的移动性能,这得益于它们在高度随机化的模拟环境中的训练以及适应能力。尽管使用人形机器人进行定位操作(locomanipulation)和移动操作(mobile manipulation)大多通过模型预测控制 [1, 24, 29, 30, 73, 77] 来实现,但最近在将强化学习和仿真到现实迁移应用于人形机器人方面也取得了一些成功,例如通过在模拟中对场景和任务进行显式建模来实现箱子重定位 [19],以及生成多样化的上身动作 [9]。相比之下,我们使用强化学习来训练一个与任务无关的全身控制底层策略,无需在模拟中对现实世界的场景和任务进行显式建模。

人形机器人的远程操作

先前的工作通过使用人体动作捕捉套装 [14, 17, 20, 21]、外骨骼 [35, 35, 63, 70, 75]、触觉反馈设备 [6, 61, 71] 以及用于视觉反馈的 VR 设备 [7, 38, 59, 90] 和用于末端执行器控制的设备 [2, 46, 62, 86] 来开发人形机器人和灵巧远程操作。例如,Purushottam 等人使用连接到力板的外骨骼套装来记录人类动作,从而实现轮式人形机器人的全身远程操作。在控制空间方面,先前的工作已经在操作空间 [17, 76]、上身远程操作 [7, 22] 和全身远程操作 [31, 33, 34, 52, 56, 60, 90] 方面开展了研究。例如,He 等人使用 RGB 摄像头捕捉人类动作,对人形机器人进行全身远程操作。Seo 等人使用 VR 控制器远程操作双手末端执行器,并对收集的数据进行模仿学习,以学习静态操作技能。相比之下,我们的工作提供了一个完整的系统,包括一个低成本的全身远程操作系统,使用单个 RGB 摄像头控制人形机器人的每个关节,实现操作、蹲下和行走,以及一个高效的模仿流程,用于学习自主操作和移动技能,实现诸如穿鞋后站立行走等复杂技能。

机器人从人类数据中学习

人类数据已被广泛用于机器人学习,包括利用互联网规模的数据 [18, 26, 27] 对视觉或中间表示进行预训练 [8, 28, 50, 53, 66, 79, 86, 99],以及在领域内人类数据上进行模仿学习 [3, 12, 43, 47, 64, 78, 80, 82, 87, 88, 95 - 97, 101, 102]。例如,Qin 等人使用领域内的人类手部数据,让灵巧机器人手进行模仿。最近,人类数据也被用于训练人形机器人 [9, 31]。Cheng 等人使用离线人类数据训练人形机器人,以生成多样化的上身动作,He 等人使用离线人类数据训练全身远程操作界面。相比之下,我们既使用离线人类数据学习用于实时动作跟随的底层全身策略,又通过动作跟随收集在线人类数据,使人形机器人能够模仿人类技能,实现自主人形机器人技能。

3. HumanPlus 硬件

Figure 2: Hardware Details. Our HumanPlus robot has two egocentric RGB cameras mounted on the head, two 6-DoF dexterous hands, and 33 degrees of freedom in total.

我们的人形机器人具有 33 个自由度,包括两个 6 自由度的手、两个 1 自由度的手腕和一个 19 自由度的身体(两个 4 自由度的手臂、两个 5 自由度的腿和一个 1 自由度的腰部),如图 2 左侧所示。该系统基于 Unitree H1 机器人构建。每个手臂集成了一个 Inspire - Robots RH56DFX 手,通过定制手腕连接。每个手腕有一个 Dynamixel 伺服电机和两个止推轴承。手和手腕都通过串行通信进行控制。我们的机器人头部安装了两个 RGB 网络摄像头(Razer Kiyo Pro),向下倾斜 50 度,瞳孔间距为 160mm。手指能施加高达 10N 的力,而手臂可以拿起重达 7.5kg 的物品。腿部的电机在运行过程中可以产生高达 360Nm 的瞬时扭矩。图 2 右侧提供了我们机器人的其他技术规格。

4. 人体和手部数据

离线人类数据

我们使用一个基于公共光学标记的人类动作数据集 AMASS [49] 来训练我们的底层人形机器人动作跟随变换器。AMASS 数据集整合了多个人类动作数据集的数据,包含 40 小时的人类动作数据,涵盖各种不同的任务,由超过 11,000 个独特的动作序列组成。为了确保动作数据的质量,我们根据 [48] 中概述的方法进行了滤波处理。人体和手部动作使用 SMPL - X [57] 模型进行参数化,该模型包括 22 个身体和 30 个手部 3 自由度球形关节、3 维全局平移变换和 3 维全局旋转变换。

重映射

我们的人形机器人身体的自由度是 SMPL - X 身体自由度的一个子集,仅由 19 个旋转关节组成。为了重映射身体姿态,我们将 SMPL - X 中对应的欧拉角复制到我们的人形机器人模型中,即臀部、膝盖、脚踝、躯干、肩膀和肘部的角度。人形机器人的每个臀部和肩膀关节由 3 个正交旋转关节组成,因此可以视为一个球形关节。我们的人形机器人手有 6 个自由度:食指、中指、无名指和小指各有 1 个自由度,拇指有 2 个自由度。为了重映射手部姿态,我们使用中间关节的旋转来映射每个手指的相应欧拉角。为了计算 1 自由度的手腕角度,我们使用前臂和手的全局方向之间的相对旋转。

实时人体姿态估计和重映射

为了在现实世界中进行动作跟随,我们使用 World - Grounded Humans with Accurate Motion(WHAM)[81],通过单个 RGB 摄像头实时联合估计人体姿态和全局变换。WHAM 使用 SMPL - X 进行人体姿态参数化。如图 3 所示,我们使用上述方法进行实时的人到人形机器人的身体姿态重映射。在 NVIDIA RTX4090 GPU 上,人体姿态估计和重映射的运行速度为 25 帧 / 秒

实时手部姿态估计和重映射

我们使用 HaMeR [58],这是一种基于变换器的单 RGB 摄像头手部姿态估计器,用于实时手部姿态估计。HaMeR 使用 MANO [72] 手部模型预测手部姿态、相机参数和形状参数。我们使用上述方法进行实时的人到人形机器人的手部姿态重映射。在 NVIDIA RTX4090 GPU 上,我们的手部姿态估计和重映射的运行速度为 10 帧 / 秒。

5. 人类动作跟随

图4:模型架构。我们的系统由一个用于底层控制的仅解码器变换器(人形机器人动作跟随变换器)和一个用于模仿学习的仅解码器变换器(人形机器人模仿变换器)组成。

我们将底层策略人形机器人动作跟随变换器设计为一个仅解码器的变换器,如图 4 左侧所示。在每个时间步,该策略的输入是人形机器人的本体感觉(proprioception)和人形机器人目标姿态。人形机器人本体感觉包含根部状态(滚动、俯仰和基部角速度)、关节位置、关节速度和上一个动作。人形机器人目标姿态由目标前进和横向速度、目标滚动和俯仰、目标偏航速度和目标关节角度组成,这些姿态是从第 4 节中提到的经过处理的 AMASS 数据集中采样的人类姿态重映射得到的。该策略的输出是 19 维的人形机器人身体关节位置设定点,随后使用 1000Hz 的 PD 控制器转换为扭矩。目标手部关节角度直接传递给 PD 控制器。我们的底层策略以 50Hz 的频率运行,上下文长度为 8,因此它可以根据观察历史适应不同的环境 [67]。

Table 2: Randomization in Simulation. We uniformly sample from these randomization ranges during training in simulation.

我们在模拟环境中使用近端策略优化算法(Proximal Policy Optimization,PPO)[74] 训练人形机器人动作跟随变换器,通过最大化折扣预期回报,其中是时间步t的奖励,T是最大情节长度,\gamma是折扣因子。奖励是多个项的总和,这些项鼓励匹配目标姿态,同时节省能量并避免脚部滑动。我们在表 1 中列出了所有奖励项。我们在模拟环境中对模拟环境和人形机器人的物理参数进行随机化处理,详细信息见表 2。

Figure 3: Shadowing and Retargeting. Our system uses one RGB camera for body and hand pose estimation.

Figure 1: Stanford HumanPlus Robot. We present a full-tack system for humanoid robots to learn motion and autonomous skills from human data. Our system enables robots to shadow fast, diverse motions from a human operato, including boxing and playing table tennis, and to learn autonomous skills like wearing a shoe, folding clothes, and jumping high.

在模拟环境中训练好人形机器人动作跟随变换器后,我们将其零样本部署到现实世界中的人形机器人上,进行实时动作跟随。本体感觉观测仅使用包括 IMU 和关节编码器在内的板载传感器进行测量。根据第 4 节所述并如图 3 所示,我们使用单个 RGB 摄像头实时估计人体和手部姿态,并将人类姿态重映射为人形机器人目标姿态。如图 1 所示,人类操作员站在人形机器人附近,将他们的实时全身动作跟随到我们的人形机器人上,并通过视线观察人形机器人的环境和行为,确保远程操作系统具有响应性。当人形机器人坐下时,我们直接将目标姿态发送到 PD 控制器,因为我们不需要策略来补偿重力,并且模拟具有丰富接触的坐姿具有挑战性。在被远程操作时,人形机器人通过双目 RGB 摄像头收集第一人称视角视觉数据。通过动作跟随,我们为各种现实世界任务提供了一个高效的数据收集流程,避免了在模拟中进行逼真的 RGB 渲染、精确的软物体模拟和多样化任务规范的挑战。

6. 人类技能模仿

模仿学习在从演示中学习各种任务的自主机器人技能方面取得了巨大成功 [5, 11, 15, 25, 104]。鉴于通过动作跟随收集到的现实世界数据,我们将相同的方法应用于人形机器人,以训练技能策略。我们进行了一些修改,以利用有限的板载计算实现更快的推理,并在双目感知和高自由度控制的情况下实现高效的模仿学习。

在这项工作中,我们修改了动作分块变换器(Action Chunking Transformer)[104],去除其编码器 - 解码器架构,开发了一个仅解码器的人形机器人模仿变换器(Humanoid Imitation Transformer,HIT)用于技能策略,如图 4 右侧所示。HIT 将来自两个第一人称视角 RGB 摄像头的当前图像特征、本体感觉和固定位置嵌入作为输入。这些图像特征使用预训练的 ResNet 编码器进行编码。由于其仅解码器的设计,HIT 基于输入时的固定位置嵌入预测 50 个目标姿态块,并且它可以预测与各自输入位置的图像特征相对应的标记。我们对这些预测的图像特征应用 L2 特征损失,迫使变换器在执行真实目标姿态序列后,为未来状态预测相应的图像特征标记。这种方法使 HIT 能够有效地将目标姿态预测与前向动力学 forward dynamic 预测相融合。通过对图像特征进行前向动力学预测,我们的方法通过对图像特征空间进行正则化来提高性能,防止基于视觉的技能策略忽略图像特征并过度拟合本体感觉。在部署过程中,HIT 在板载设备上以 25Hz 的频率运行,将预测的目标位置异步发送到底层的人形机器人动作跟随变换器,同时丢弃预测的未来图像特征标记

7. 任务

我们选择了六个模仿任务和五个动作跟随任务,这些任务需要双手灵巧操作和全身控制。如图 5 所示,这些任务涵盖了与实际应用相关的各种能力和对象。

在 “穿鞋并行走” 任务中,机器人需要:(1)翻转鞋子;(2)捡起鞋子;(3)穿上鞋子;(4)向下按压以确保鞋子在左脚上合适;(5)用双手系鞋带;(6)抓住右边的鞋带;(7)抓住左边的鞋带;(8)系好鞋带;(9)站起来;(10)向前行走。这个任务展示了机器人用灵巧的双手进行复杂双手操作的能力,以及在穿鞋时站立和行走等敏捷移动的能力。鞋子被随机放置在机器人前方 2 厘米直线上的桌子上。每次演示有 1250 步或 50 秒。

在 “仓库任务” 中,机器人需要:(1)用右手接近仓库货架上的喷漆罐;(2)抓住喷漆罐;(3)收回右手;(4)蹲下;(5)接近四足机器人后面的推车;(6)松开喷漆罐;(7)站起来。这个任务测试了机器人的全身操作和协调能力。机器人的站立位置在 10 厘米直线上随机确定。每次演示有 500 步或 20 秒。

在 “折叠衣服” 任务中,机器人在保持平衡的同时,需要:(1)折叠左袖子;(2)折叠右袖子;(3)折叠运动衫底部,这既需要灵巧地操作具有复杂动力学特性的织物,又要保持直立姿势。机器人从站立位置开始,根偏航角在 + 10 度到 - 10 度之间随机采样。运动衫随机放置在桌子上,位置偏差为 10cm x 10cm,旋转角度在 - 30 度到 30 度之间。每次演示有 500 步或 20 秒。

在 “重新摆放物品” 任务中,机器人在保持平衡的同时,需要:(1)接近物品;(2)拿起物品;(3)将物品放入篮子中。任务的复杂性在于物品的形状、颜色和方向各不相同,这要求机器人根据物品的位置选择合适的手,并相应地规划动作。总体而言,我们从 4 个软物体中随机采样,包括毛绒玩具和冰袋,物品随机放置在篮子左侧或右侧 10 厘米直线上。每次演示有 250 步或 10 秒。

在 “输入‘AI’” 任务中,机器人需要:(1)输入字母 “A”;(2)松开按键;(3)输入字母 “I”;(4)松开按键。尽管机器人是坐着的,但仍需要高精度的操作。每次演示有 200 步或 8 秒。

在 “双机器人打招呼” 任务中,机器人需要:(1)在观察到另一个双手机器人开始伸出一只手 / 手臂后,用正确的手接近对方;(2)与另一个机器人的手接触;(3)松开手。另一个机器人随机选择伸出哪只手,并停在 5cm x 5cm x 5cm 的末端执行器区域内。该机器人需要快速准确地识别使用哪只手,并在保持平衡的同时用正确的手接近对方。每次演示有 125 步或 5 秒。

对于动作跟随任务,我们展示了五个任务:拳击、打开双门橱柜存放锅、投掷、弹钢琴、打乒乓球以及输入 “Hello World”,展示了在跟随快速多样动作和操作重物时的移动性和稳定性。动作跟随定性结果的视频可在项目网站https://humanoid-ai.github.io上查看。

8. 动作跟随实验

8.1 与其他远程操作方法的比较

我们将我们的远程操作系统与三个基线方法进行比较:示教再现(Kinesthetic Teaching)、ALOHA [104] 和 Meta Quest,如图 6 所示。对于示教再现,双臂处于被动模式,由人工定位。对于 ALOHA,我们构建了一对双手机械臂,由两个与我们人形机器人手臂运动学结构相似的 WidowX 250 机器人进行操纵。对于 Meta Quest,我们通过逆运动学使用控制器的位置进行操作空间控制,并进行重力补偿。如表 3 所示,所有基线方法都不支持全身控制,并且至少需要两名人类操作员进行手部姿态估计。相比之下,我们的动作跟随系统可以同时控制人形机器人的身体和手部,仅需要一名人类操作员。此外,ALOHA 和 Meta Quest 的成本更高。相比之下,我们的系统和示教再现只需要一个 RGB 摄像头。

我们对 6 名参与者进行了用户研究,以比较我们的动作跟随系统与三个基线方法在远程操作效率方面的差异,结果如表 3 所示。两名参与者之前没有远程操作经验,其余四名参与者有不同程度的专业知识。所有参与者之前都没有使用过我们的动作跟随系统。参与者被要求执行 “重新摆放物品” 任务及其变体 “重新摆放较低位置物品”,在这个变体任务中,物品被放置在高度为 0.55 米的较低桌子上,这要求机器人蹲下,因此需要全身控制

我们记录了六名参与者完成任务的平均时间,每人进行三次试验,并进行三次未记录的练习轮次。我们还记录了使用我们的底层策略在远程操作期间稳定站立的平均成功率。虽然 ALOHA 能够精确控制机器人关节角度,但其固定的硬件设置使其难以适应不同身高和体型的人,并且默认情况下不支持人形机器人的全身控制。Meta Quest 由于人形机器人每个手臂加手腕只有 5 个自由度的限制,经常在笛卡尔空间中导致目标姿态和实际姿态之间的奇异性和不匹配,导致完成时间最长,并且在手臂奇异点处站立不稳定。虽然示教再现直观且完成时间短,但它需要多个操作员,并且在示教过程中有时手臂上的外力会导致人形机器人摔倒。相比之下,我们的系统完成时间最短,稳定站立的成功率最高,并且是唯一可以用于全身远程操作的方法,能够解决 “重新摆放较低位置物品” 任务。

8.2 鲁棒性评估

Figure 7: Maximum Force Thresholds. Our low-level policy can withstand larger forces compared to H1 Default controller.

如表 4 所示,我们通过将我们的底层策略与制造商默认控制器(H1 Default)进行比较来评估其性能。机器人在操作物体时必须保持平衡,因此我们通过向骨盆施加力并记录导致不稳定的最小力来评估其鲁棒性。如图 7 所示,我们的策略能够承受明显更大的力,并且恢复时间更短。当机器人失去平衡时,制造商默认控制器需要几步甚至长达 20 秒才能使机器人稳定下来,而我们的策略通常在一两步内就能恢复,且恢复时间在 3 秒以内。更多的恢复步骤会导致抖动行为,并影响操作性能。我们还展示了我们的策略能够实现一些默认控制器无法实现的全身技能,比如蹲下、跳高、从椅子上坐起后站立。

9. 模仿实验

Table 5: Comparisons on Imitation. We show sucess atso f Humanoid mitation Transformer (Ours), HIT with monocular input, ACT and open-loop trajectory replay across all tasks. Overall HIT (Ours) outperforms others.

如表 5 所示,我们将我们的模仿学习方法人形机器人模仿变换器(Humanoid Imitation Transformer)与三个基线方法进行比较:使用单目输入的 HIT 策略(Monocular)、ACT [104] 和开环轨迹回放(Open-loop trajectory replay),在所有任务上进行比较:折叠衣服、重新摆放物品、输入 “AI”、双机器人打招呼、仓库任务和穿鞋并行走,这些任务的详细信息在第 7 节和图 5 中。尽管每个技能策略都能连续自主地完成任务而不停顿,但为了更好地分析,我们记录了每个任务中连续子任务的成功率。我们每个任务进行 10 次试验。我们通过成功尝试次数除以总尝试次数来计算子任务的成功率。例如,在 “穿上鞋子” 子任务中,总尝试次数等于上一个子任务 “捡起鞋子” 的成功次数,因为机器人可能在任何子任务中失败并停止。

我们的 HIT 在所有任务上都取得了比其他基线方法更高的成功率。具体来说,我们的方法是唯一能够解决 “穿鞋并行走” 任务的方法,在进行 40 次演示后,成功率达到 60%,而其他所有方法都失败了。这是因为我们的方法使用双目感知,避免了过度拟合本体感觉。ACT 在 “穿鞋并行走” 和 “输入‘AI’” 任务中失败,因为它过度拟合本体感觉,机器人在成功完成 “捡起鞋子” 和 “松开‘A’键” 后,会反复尝试并卡在这些步骤,避免使用视觉反馈。单目输入的方法由于缺乏来自单个 RGB 摄像头的深度信息,在 “折叠衣服” 任务中与桌子的交互较粗糙,成功率较低。它在 “穿鞋并行走” 任务中完全失败,因为在这个任务中深度感知至关重要。然而,由于其较窄的视野,它在 “输入‘AI’” 任务的某些子任务上比其他方法完成得更成功。开环方法仅在没有随机化的 “输入‘AI’” 任务中有效,在所有其他需要反应控制的任务中均失败。

10. 结论、局限性和未来方向

在这项工作中,我们提出了 HumanPlus,这是一个完整的人形机器人系统,用于从人类数据中学习动作和自主技能。在系统开发过程中,我们遇到了一些局限性。首先,与人类解剖结构相比,我们的硬件平台自由度较少。例如,它使用的脚部脚踝只有 1 个自由度,这限制了人形机器人执行敏捷动作的能力,比如在一条腿保持静止的同时抬起和晃动另一条腿。每个手臂包括手腕只有 5 个自由度,这限制了 6 自由度操作空间控制的应用,并且在动作跟随过程中可能导致一些无法到达的区域。此外,第一人称视角摄像头固定在人形机器人的头部,不能活动,这导致手部和交互动作随时可能脱离视野。另外,我们目前使用从人类姿态到人形机器人姿态的固定重映射,忽略了许多在我们人形机器人硬件上不存在的人类关节。这可能会限制人形机器人从各种人类动作的一小部分中学习。目前,在存在大面积遮挡的情况下,姿态估计方法效果不佳,这限制了人类操作员的操作区域。最后,在这项工作中,我们主要关注一些包含移动的操作任务,如蹲下、站立和行走,因为处理长距离导航需要大量的人类演示数据,并且在现实世界中需要精确的速度跟踪。我们希望在未来解决这些局限性,实现更自主、更强大的人形机器人技能,使其能够应用于各种现实世界任务。


http://www.kler.cn/a/519604.html

相关文章:

  • Rust:高性能与安全并行的编程语言
  • 代码工艺:实践 Spring Boot TDD 测试驱动开发
  • ZooKeeper 数据模型
  • Golang Gin系列-9:Gin 集成Swagger生成文档
  • 写一个存储“网站”的网站前的分析
  • 数据库视图
  • 蓝桥杯之c++入门(一)【第一个c++程序】
  • 27. 【.NET 8 实战--孢子记账--从单体到微服务】--简易报表--报表服务
  • Docker 系列之 docker-compose 容器编排详解
  • 【信息系统项目管理师-选择真题】2017上半年综合知识答案和详解
  • Transfoemr的解码器(Decoder)与分词技术
  • QT:控件属性及常用控件(4)-----多元素控件、容器类控件、布局管理器
  • 3.numpy练习(2)
  • RabbitMQ 分布式高可用
  • 【Linux】Linux编译器-g++、gcc、动静态库
  • 7、知识库内容更新与自动化
  • 系统编程(线程互斥)
  • 牛角棋项目实践1:牛角棋的定义和用python实现简单功能
  • 大模型开发 | RAG在实际开发中可能遇到的坑
  • rewrite规则
  • STL中的list容器
  • 汇编的使用总结
  • CSS:跑马灯
  • 使用MQTT.fx向阿里云物理网平台上报物理模型数据
  • mysql安装记录
  • 十、VUE中的CSS