【AI论文】Being-0:一款配备视觉-语言模型与模块化技能的人形机器人智能体
摘要:构建能够在现实世界具身任务中实现人类水平表现的自主机器人智能体,是人形机器人研究领域的终极目标。近期的研究进展在利用基础模型(Foundation Models, FMs)实现高级认知以及为人形机器人开发低级技能方面取得了显著成果。然而,由于长时程任务中的复合误差以及不同模块之间的延迟差异,直接将这些组件组合在一起往往会导致系统鲁棒性和效率低下。我们推出了Being-0,这是一种将基础模型与模块化技能库相结合的分层智能体框架。基础模型负责处理高级认知任务,如指令理解、任务规划和推理,而技能库则为低级控制提供稳定的移动和灵巧操作能力。为了弥合这两个层级之间的差距,我们提出了一种由轻量级视觉-语言模型(Vision-Language Model, VLM)驱动的新型连接器模块。该连接器通过将基于语言的计划转化为可执行的技能指令,并动态协调移动和操作,增强了基础模型的具身能力,从而提高了任务成功率。除基础模型外,Being-0的所有组件均可部署在低成本的车载计算设备上,这使得它能够在配备灵巧双手和主动视觉的全尺寸人形机器人上实现高效、实时的性能。在大型室内环境中进行的广泛实验表明,Being-0在解决需要复杂导航和操作子任务的长时间复杂任务方面表现出色。如需更多详情和视频,请访问https://beingbeyond.github.io/being-0。Huggingface链接:Paper page,论文链接:2503.12533
研究背景和目的
研究背景
在人形机器人研究领域,构建能够在现实世界具身任务中实现人类水平表现的自主机器人智能体一直是终极目标。近年来,随着人工智能技术的飞速发展,尤其是基础模型(Foundation Models, FMs)的兴起,人形机器人在高级认知方面取得了显著进展。同时,通过模仿学习、强化学习等方法,人形机器人在低级技能开发方面也取得了长足的进步。然而,尽管在高级认知和低级技能方面取得了单独的成功,但将这两者直接结合起来以构建完整的自主机器人智能体仍面临诸多挑战。
现有的研究往往侧重于人形机器人的单一技能开发,如行走、操作或全身控制等。然而,在实际应用中,自主机器人智能体需要能够理解和执行复杂的、长时间跨度的任务,这些任务通常包含多个子任务,涉及导航、操作以及它们之间的无缝切换。因此,如何将高级认知与低级技能有效地结合起来,以实现自主机器人智能体在现实世界中的高效、鲁棒表现,成为了一个亟待解决的问题。
研究目的
本研究旨在提出一种创新的分层智能体框架(Being-0),以解决现有自主机器人智能体在结合高级认知与低级技能时面临的鲁棒性和效率问题。具体而言,研究目的包括:
- 开发一种能够将基础模型与模块化技能库相结合的分层智能体框架,以实现高效的任务执行。
- 提出一种新型的连接器模块,以弥合高级认知与低级技能之间的差距,增强智能体的具身能力。
- 通过大量实验验证Being-0框架在解决复杂、长时间跨度的具身任务方面的有效性。
研究方法
框架设计
Being-0框架由三个关键组件组成:基础模型(FM)、连接器和模块化技能库。
- 基础模型(FM):负责处理高级认知任务,如指令理解、任务规划和推理。在本研究中,我们采用了GPT-4o作为基础模型,利用其强大的自然语言理解和推理能力来解析任务指令并生成高层次的执行计划。
- 连接器:作为一种中间层,负责将基础模型生成的语言计划转化为可执行的技能指令,并动态协调移动和操作以提高任务成功率。连接器基于一个轻量级的视觉-语言模型(VLM)实现,该模型通过训练能够理解和预测环境中的物体位置和动态变化。
- 模块化技能库:包含一系列稳定的移动和灵巧操作技能,供低级控制使用。这些技能通过强化学习、模仿学习等方法获得,并可以根据任务需求进行组合和调用。
技能训练与数据收集
为了构建模块化技能库,我们采用了多种方法收集训练数据。对于移动技能,我们采用强化学习方法在模拟环境中训练了一个基于杆柄命令的目标条件本体感受策略,并通过仿真到现实(sim-to-real)的方法将其部署到真实机器人上。对于操作技能,我们使用了Apple VisionPro进行远程操作,以收集高质量、类似人类的操作数据。然后,我们使用ACT(Actor-Critic Transformer)方法,一种基于Transformer架构的行为克隆方法,来训练每个操作技能的政策。
连接器训练
连接器的训练基于一个包含第一人称导航图像的数据集,这些图像被标注了语言描述、技能和物体标签等信息。我们采用了VideoLLaMA2作为骨干架构,通过多任务学习(包括图像描述、技能预测和物体检测)来优化模型。训练后的连接器能够在实时环境中理解图像并生成合适的技能指令。
实验设置
我们在一个配备了灵巧双手和主动视觉的全尺寸人形机器人上进行了大量实验。实验环境是一个大型办公室场景,包含了多个办公室隔间、一张木桌、一台咖啡机和连接接待室和会议室的走廊。我们设计了一系列复杂的长时间跨度任务来评估Being-0框架的性能,包括取瓶子、送篮子、准备咖啡、制作咖啡和送咖啡等。
研究结果
任务完成率
实验结果表明,Being-0框架在解决复杂、长时间跨度的具身任务方面表现出色。与没有连接器的基线系统相比,Being-0在各项任务上的完成率均有显著提高。例如,在取瓶子任务中,基线系统的完成率为0%,而Being-0的完成率达到了90%。在送篮子和准备咖啡任务中,Being-0的完成率也分别从0%提高到了80%和75%。
连接器的作用
连接器模块在Being-0框架中发挥了关键作用。通过将基础模型生成的语言计划转化为可执行的技能指令,并动态协调移动和操作,连接器显著提高了任务的成功率。特别是在需要多个步骤和集成不同技能的任务中,连接器的优势更加明显。
调整方法的有效性
我们还评估了连接器中提出的调整方法在导航和操作之间的无缝切换中的作用。实验结果表明,使用调整方法的Being-0系统在抓取和放置任务中的成功率显著高于没有使用调整方法的系统。这表明调整方法能够有效地改善机器人在导航结束后的初始状态,从而提高后续操作任务的成功率。
主动视觉的优势
与固定相机相比,主动视觉在Being-0框架中表现出了显著的优势。实验结果表明,使用主动相机的Being-0系统在导航和操作任务中的成功率均达到了100%,而固定相机在不同俯仰角下的成功率则存在显著差异。这表明主动视觉能够使机器人动态地调整其视野以满足不同任务的需求。
效率分析
由于除基础模型外,Being-0的所有组件均可部署在低成本的车载计算设备上,因此它能够在全尺寸人形机器人上实现高效、实时的性能。实验结果表明,与完全基于基础模型的智能体相比,Being-0在导航任务中的移动速度提高了4.2倍,并且保持了100%的成功率。
研究局限
尽管Being-0框架在解决复杂、长时间跨度的具身任务方面表现出色,但它仍存在一些局限性。
- 复杂移动技能的缺失:目前的Being-0框架尚未包含如蹲下、坐下或跳跃等复杂移动技能。这些技能的加入将进一步扩展人形机器人的功能,使其能够在不平坦的地面上执行任务,如爬楼梯、从坐姿工作或在不同高度上操作物体。
- 基础模型的效率问题:尽管连接器模块显著提高了Being-0框架的效率,但基础模型(如GPT-4o)的推理速度仍然较慢。这限制了智能体在需要快速响应的动态环境中的表现。
- 实验环境的局限性:目前的实验主要在大型室内环境中进行,未来的研究需要探索Being-0框架在不同环境(如户外环境或复杂工业环境)中的表现。
未来研究方向
针对上述研究局限,未来的研究可以从以下几个方面展开:
- 复杂移动技能的开发:未来的研究可以探索如何为人形机器人开发复杂移动技能,并通过强化学习、模仿学习等方法进行训练。这将使机器人能够在更广泛的环境中执行任务,提高其适应性和实用性。
- 轻量级基础模型的探索:针对基础模型效率较低的问题,未来的研究可以探索如何开发针对机器人应用的轻量级基础模型。这些模型将具有更快的推理速度,同时保持足够的性能来满足机器人任务的需求。
- 多环境测试与验证:未来的研究可以在不同类型的环境中对Being-0框架进行测试和验证,以评估其在不同条件下的性能和鲁棒性。这将有助于发现框架中的潜在问题,并为进一步的改进提供方向。
此外,未来的研究还可以探索如何将Being-0框架与其他先进技术相结合,如深度学习、强化学习、计算机视觉和自然语言处理等。这将有助于进一步提升智能体的性能和应用范围,推动人形机器人领域的发展。同时,随着技术的不断进步和应用场景的不断拓展,自主机器人智能体将在更多领域发挥重要作用,为人类带来更多的便利和价值。