当前位置: 首页 > article >正文

ICML-2024 | 具身智能如何数据自由?RoboGen:基于生成式模拟实现全自动无限数据机器人学习

图片

  • 作者:Yufei Wang, Zhou Xian, Feng Chen, Tsun-Hsuan Wang, Yian Wang, Katerina Fragkiadaki, Zackory Erickson, David Held, Chuang Gan

  • 单位:卡内基梅隆大学,清华大学智能产业研究院,麻省理工学院计算机科学与人工智能实验室,马萨诸塞大学阿默斯特分校,麻省理工学院 - IBM人工智能实验室

  • 标题:RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation

  • 原文链接:https://arxiv.org/abs/2311.01455

  • 项目主页:https://robogen-ai.github.io/

  • 代码链接:https://github.com/Genesis-Embodied-AI/RoboGen

主要贡献

  • 论文介绍了生成式机器人智能体RoboGen,能够通过生成模拟环境自动学习多样化的机器人技能,利用最新的基础模型和生成模型的进展,通过生成多样化的任务、场景和训练监督来扩展机器人技能的学习规模。

  • RoboGen采用了一个自我引导的提议-生成-学习循环。首先提出任务和技能进行开发,然后生成模拟环境。接着,将任务分解为子任务,选择最佳的学习方法,最终学习策略以获得所提出的技能。

  • 该系统能够在模拟中自动生成大量技能演示,显著减少了在构建模拟环境和设计训练监督方面所需的人工努力,通过生成式模拟实现了对机器人技能学习的自动化和规模化。

  • RoboGen生成的任务涵盖了刚性物体操作、柔性物体操作以及移动导航等多种任务类型。与现有的手工制作的数据集相比,在语义和视觉上具有更高的多样性,展示了其在生成多样化机器人任务方面的潜力。

研究背景

研究问题

图片

论文提出RoboGen,主要解决的问题是如何通过生成模拟来实现机器人技能的自动学习。

旨在通过生成模拟环境、任务和训练监督,使机器人在最小的人类监督下自动学习多样化的技能。

研究难点

该问题的研究难点包括:

  • 构建复杂的模拟环境需要大量的人力投入;

  • 现有的生成模型缺乏对动态、运动和物理交互的理解;

  • 如何有效地从基础模型中提取适合机器人学习的知识。

相关工作

  • 机器人技能学习在模拟中的进展

    • 论文回顾了各种基于物理的模拟平台的发展,这些平台被用于加速机器人研究。

    • 这些平台包括刚体模拟器(如Mujoco)、变形物体模拟器(如SoftBodySim)等,它们被广泛应用于机器人社区,用于学习各种技能.

    • 如变形物体操作、对象切割、流体操作以及高度动态和复杂的技能(如手持物体的重新定向、物体投掷、杂技飞行和腿部运动)。

  • 扩展模拟环境的规模

    • 除了构建物理引擎和模拟器外,许多工作还致力于构建大规模的模拟基准,提供可扩展的技能学习和标准化基准测试的平台。

    • 这些工作通常依赖于手工构建的模拟数据集,但也有一些尝试使用程序生成来扩展任务和环境,生成演示数据。

  • 基础模型和生成模型在机器人中的应用

    • 随着图像、语言和其他模态的基础模型和生成模型的进步,研究人员开始探索将这些模型应用于机器人研究。

    • 这些应用包括代码生成、数据增强、视觉想象、子任务规划、技能泛化、输出低级控制动作和目标指定等。

    • 论文还提到了一些与RoboGen相关的方法,如使用大型语言模型(LLMs)生成任务、奖励和子任务轨迹。

RoboGen

图片

RoboGen 是一个自动化系统,利用基础模型的生成能力来实现机器人技能的自动学习和多样化。

任务提出

  • 目标:RoboGen 从机器人需要学习的多样化任务开始。系统通过初始化特定的机器人类型和从预定义的对象池中随机采样对象来生成任务提议。

  • 方法:使用大型语言模型(LLM),如 GPT-4,输入机器人和对象信息来生成任务提议。系统可以通过对象初始化或基于示例的初始化来生成任务。

  • 输出:生成一系列有意义且多样化的任务,考虑机器人的能力和对象的可用性。

场景生成

  • 目标:生成一个适合解决任务的模拟场景。

  • 方法:根据任务,系统需要填充环境中的相关对象。这包括获取对象的列表、调整对象大小、设置初始配置和场景布局。

  • 实现:使用 GPT-4 来生成这些信息,并从现有的对象网格数据库(如 Objaverse)中检索或生成所需的对象。系统还使用视觉语言模型(VLM)来验证和过滤检索到的对象。

训练监督生成

  • 目标:为了解决任务,需要生成训练监督,如子任务分解和奖励函数。

  • 方法:系统首先使用 GPT-4 对任务进行规划和分解,将其分解为较短时间范围的子任务。然后,选择适当的算法(如强化学习、梯度优化或动作规划)来解决每个子任务,并设计相应的训练监督。

  • 实现:对于使用强化学习的子任务,系统提示 GPT-4 编写奖励函数,并提供三个上下文示例。对于软体操作任务,使用推土机距离作为成本函数。

技能学习

  • 目标:在获得所有必要的信息后,系统在模拟环境中构建场景,以便机器人学习所需的技能来完成任务。

  • 方法:系统采用多种技能学习技术,包括强化学习、梯度优化和动作规划。对于长时间范围的任务,系统采用顺序学习方案,逐个子任务进行学习。

  • 实现:使用 SAC(Soft Actor-Critic)算法进行强化学习,使用 BIT* 算法进行动作规划,使用 Adam 优化器进行梯度优化。

实验

图片

实验设置

  • 系统通用性:RoboGen 是一个通用的系统,不依赖于特定的模拟平台,但考虑到任务类别的广泛性和技能学习方法的需求,选择了 Genesis 模拟平台。

  • 模拟平台:Genesis 是一个支持多种材料和全可微分的机器人学习模拟平台。

  • 技能学习算法:使用 SAC(Soft Actor-Critic)作为强化学习算法,BIT* 作为动作规划算法,Adam 用于软体操作任务的梯度优化。

评估指标与基线

  • 任务多样性

    • 通过计算生成任务描述的自相似度(Self-BLEU)和嵌入相似度来评估任务的语义多样性。

    • 与现有的基准数据集(如 RLBench、Meta-World、Maniskill2 等)进行比较。

  • 场景有效性

    • 通过计算渲染图像和文本描述之间的 BLIP-2 分数来验证检索到的对象是否满足任务要求。

    • 与两个系统变体进行比较,以评估对象验证和大小验证的重要性。

  • 训练监督有效性:通过人类专家手动检查生成的分解和奖励函数是否合理来验证训练监督的有效性。

  • 技能学习性能:通过成功学习技能的比例来评估技能学习的效果。与仅使用强化学习的变体进行比较。

  • 系统整体表现:通过提供超过 100 个学习技能的定性评估来展示系统的整体表现。

结果与分析

图片

  • 任务多样性:RoboGen 生成的任务在语义和视觉多样性方面优于现有的手工制作的数据集。生成的场景和任务的语义多样性显著高于 GenSim。

图片

  • 场景有效性:BLIP-2 分数显示,去除大小验证会导致分数大幅下降,表明大小验证在生成有效场景中的重要性。

图片

  • 训练监督有效性:通过示例展示了使用生成训练监督学习的技能,表明这些监督能够有效地引导机器人完成相应任务。

  • 技能学习性能:在 69 个基准任务上,RoboGen 的平均成功率约为 0.774,表明大多数任务能够成功学习。

  • 系统整体表现:通过提供多样化的任务和技能演示,展示了 RoboGen 能够生成各种机器人技能的能力。

总结

  • 论文介绍了RoboGen,一种通过生成模拟实现机器人技能自动学习的生成智能体。

  • RoboGen利用最新基础模型的嵌入常识和生成能力,自动生成多样化的任务、场景和训练监督,从而实现大规模机器人技能学习。

  • 实验结果表明,RoboGen能够生成多样化的任务,并在模拟环境中有效地学习技能。

  • 尽管当前系统仍存在一些局限性,如大规模验证的挑战和模拟到现实的差距,但RoboGen展示了在自动化大规模机器人技能训练和演示收集方面的潜力。


http://www.kler.cn/a/552453.html

相关文章:

  • Vue的简单入门 二
  • DeepSeek 接入PyCharm实现AI编程!(支持本地部署DeepSeek及官方DeepSeek接入)
  • MySQL数据库入门到大蛇尚硅谷宋红康老师笔记 基础篇 part 18
  • Spring容器扩展点
  • 新手小白学习docker第十弹-------Docker微服务实战
  • LLM 概述
  • 轨迹流动,实现语音转文字
  • tailwindcss学习01
  • 【图像加密解密】空间混沌序列的图像加密解密算法复现(含相关性检验)【Matlab完整源码 2期】
  • 夜莺监控发布 v8.beta5 版本,优化 UI,新增接口认证方式便于鉴权
  • 公牛充电桩协议对接单车汽车平台交互协议外发版
  • FFmpeg + Nginx + HLS流媒体播放方案
  • 深入理解TT无人机曲线飞行和挑战卡飞行+EP机甲全面运动
  • 【Windows软件 - HeidiSQL】导出数据库
  • Linux系统资源监控:全面掌握目录、文件、内存和硬盘使用情况
  • C++基础知识学习记录—string类
  • lwip和tcp/ip区别
  • 鸿蒙NEXT开发-沉浸式导航和键盘避让模式
  • Ubuntu 20 掉显卡驱动的解决办法
  • 利用 UniApp 实现带有渐变背景的盒子