当前位置：首页 > article >正文

具有快慢思考的语言调节机器人操作

article 2025/2/25 14:31:16

24年1月来自华东师范大学、美的集团和上海大学的论文“Language-Conditioned Robotic Manipulation with Fast and Slow Thinking”。

语言调节机器人操作，旨在将自然语言指令转化为可执行动作，从简单的“拾取和放置”到需要意图识别和视觉推理的任务。受认知科学中的 Dual Process 理论的启发——该理论表明人类决策中存在两个平行的快速和慢速思考系统——引入快速和慢速思考机器人 (RFST)，这是一个模仿人类认知架构的框架，用于对任务进行分类并根据指令类型对两个系统做出决策。RFST 由两个关键组件组成：1）指令鉴别器，用于根据当前用户的指令确定应激活哪个系统；2）慢速思考系统，由与策略网络对齐的微调视觉-语言模型组成，使机器人能够识别用户的意图或执行推理任务。为了评估方法，构建一个具有真实世界轨迹的数据集，捕捉从自发冲动到需要深思熟虑的任务等各种动作。

RFST 如图所示，虽然现有方法只是通过策略网络输出机器人的动作，但本文的方法维护一个思维库，其中每个想法被分为快速思考系统或慢速思考系统，作为解决问题的中间步骤。这种高级语义单元允许机器人通过深思熟虑的推理过程或直觉动作自我评估不同想法在解决问题方面取得的进展。最后，结合这种语言条件能力来执行操作任务。利用两种类型的系统的不同模型。由于系统 1 只涉及快速和直接的思考，允许简单、浅显的策略网络来完成这项工作。对于需要推理或规划的困难任务，选择视觉语言模型 (VLM)。该模型旨在将任务分解为可管理的子任务或阐明用户的意图。随后，策略网络根据这些增强指令输出操作。

请添加图片描述

快速思考和慢速思考的正式定义

给定一个语言指令 x，策略网络是一个映射函数，用于获得输出 y。映射函数 p/θ 的复杂度由 x 决定。对于一个简单的指令，例如拿起一个苹果，映射函数可以是简单的 y ∼ p/θ(x)。将这些任务视为快速思考任务。当输入 x 到输出 y 的映射不简单时（即，当 x 是数学问题而 y 是数字答案时），需要引入一个中间步骤到 z 来连接 x 和 y。然后，映射函数是 y ∼ p/θ(x|z)。任务是将给定的指令分类为快速思考系统或慢速思考系统。请注意，快速思考系统可以是任意的语言条件机器人操作算法，这些算法在过去一年中得到很好的发展，即 GATO [31]、VIMA [32]、RT-1 [1]。

RFST 的总体框架

为了确定传入的语言指令对应于系统 1 还是系统 2，建立一个包含许多语言指令的指令库。用 GPT-4 [30] 来模拟机器人。在特定场景下，提示 GPT-4 生成语言指令列表并指定它们与系统 1 或系统 2 的关联。使用这组精选的分类指令作为基础种子，使 GPT-4 能够增强这些指令，将它们重塑为多种格式，同时保持一致的含义。经过十次迭代后，此过程产生数千条预分类的语言指令。此外，还对生成的指令进行手动审查以确保准确性。

由于该指令完全由大语言模型 (LLM) 生成，因此很明显可以使用 LLM 来决定用户话语的类别。然而，由于 LLM 对计算的需求很大，一直致力于寻求一种更轻量级的方法。为了实现这一目标，对语言进行编码并进行指令检索。使用 Distil-RoBERTa [33]、[34] 语言模型的冻结版本嵌入话语，该模型由 Sentence-BERT [35] 项目提供。在“非自然语言处理”最近邻索引的支持下，推理时间话语与最接近的训练样本相匹配。然后由模型检索和处理这些样本。给定指令的分类是根据检索的指令类别确定的。根据经验，用 GPT-4 中的 500 条指令来形成“思维库”，并在测试时进行指令分类。在实验中，这种方法可以完美地对语言指令进行分类。

慢思考的细节

系统 2 中有两个关键因素：1）一个视觉-语言模型，根据语言指令和当前观察，可以执行推理和意图识别；2）一个策略网络，可以理解视觉-语言模型的规划，从而采取精确行动。

为视觉-语言模型提供推理和意图识别能力。本研究使用的视觉-语言模型接受文本-图像对作为输入，并产生一系列标记，通常表示自然语言文本。这些模型用途广泛，能够执行广泛的视觉解释任务——从解读图像的组成到响应有关单个对象及其关系的查询。然而，标准的预训练视觉语言模型缺乏对物理世界的理解。目标是建立一个视觉语言模型，它不仅可以掌握观察的场景和自然语言之间的关系，还可以识别用户的意图并提供合乎逻辑的分步说明来指导机器人的动作。为了实现这一点，需要一个包含指令-观察对的数据集，并对 VLM 进行微调。

多模态规划数据收集。首先，需要逐步描述任务，并与用户的意图保持一致。为了实现这一点，寻求大语言模型 (LLM) 的帮助。首先将场景转换为自然语言，以确保 LLM 能够有效地理解它。用预先训练的视觉-语言模型，即 BLIP-2 [16]，来制作图像字幕。然后，对于每组任务，例如数学推理、语法检查和用户意图理解，起草一个提示脚本。该脚本结合上下文学习和思维链（CoT）方法，使 LLM 能够产生预期的规划或阐明用户意图。给出一个单词重新排序指令生成提示的示例，如图所示。收集所有数据后，进行手动验证。还包括一些文本，可以识别用户的意图并将其转换为机器人可操作的指令。所有这些文本脚本仅用于训练，它们由 GPT-4 生成。从经验上讲，GPT-4 的大多数响应都是准确的。

请添加图片描述

将子目标与观察结果映射。对于需要逐步规划的任务，传统方法是使用这些步骤作为指令，然后将它们应用到机器人动作中。然而，为了确保机器人智体彻底理解指令，将指令与该特定步骤的观察结果同步至关重要。提倡使用 CLIP [18] 将视觉输入与文本描述联系起来。通过计算文本和图像嵌入向量之间的点积，如果结果超过阈值（表示为 α），将文本和图像配对。在实现中，α 设置为 0.75。此外，用来自场景的有限数据集对 CLIP 进行微调，这些数据集是手动标记的。如图所示一个简要说明。为了确保准确性，在后处理过程中手动检查数据。与上一步中从 GPT-4 得出的规划和用户意图理解不同，手动验证至关重要，因为如果两个连续步骤之间的观察结果不够明显，CLIP 的准确性可能会动摇。

请添加图片描述

视觉-语言模型架构。用 CLIP 中预训练的 ViT-L/14 作为视觉编码器，并与 LLaMA-2-7B 配对作为 LLM [18]、[21]、[36]。为了保持模态对齐并促进 LLM 的兼容输入维度，集成一个全连接层。该层将 ViT 的输出嵌入，16×16 输出嵌入 V 转换为 V ′。利用文本-图像对齐固有的强大视觉语言功能 [37]。此外，对相关网络进行微调，保持语言和视觉嵌入不变。只有对齐层需要调整。

具有语言指令的策略网络。为了制定高效的多任务机器人策略，利用具有多任务解码器架构的策略网络。具体来说，目标是推导一个由 π（a_t | P，H）表示的机器人策略，其中H：= {o_1，a_1，o_2，a_2，···，o_t} 封装了历史交互的轨迹。o_t 和 a_t 分别表示每个交互步骤中的观察和操作。这些策略网络旨在处理多模态 tokens，对于它们的编码，结合多模态提示。图像通过视觉主干（ResNet-50 [38]，[39]）处理，而文本被token化。图像嵌入和文本嵌入与FiLM [40]相连。接下来是策略网络，它由三个带有 ReLU 激活的 MLP 层组成。

为了研究预训练方法，收集大量现实世界机器人轨迹的数据集。收集属于不同系统的不同任务。

硬件。用 7 自由度臂的 Franka 机器人，该机器人配备平行钳口夹持器（如图顶部所示）。在整个实验过程中，记录本体感受数据，包括关节位置和速度。关节空间中的动作由连续状态之间的差异决定。工作空间拥有两个高质量的 D435i RealSense RGBD 摄像头。在实验中只使用 RGB 信息。一个以自我为中心的摄像头安装在机器人的手上，另一个以外部为中心的摄像头安装在机器人的前面。

请添加图片描述

数学推理 [慢思考]。目标是让机器人参与数学推理任务，包括方程求解。提出两组任务。第一组任务要求机器人直接计算表格上显示的数学方程。第二个任务涉及求解未知变量 x。例如，当呈现显示 11×13 = 或 1+x = 6 的图像时，机器人的任务是完成等式或用正确的数字替换 x。这些任务通常是单步挑战。它们的成功取决于视觉语言模型理解场景中数学推理的能力。

单词纠正 [慢思考]。机器人负责纠正单词拼写，无论是由于错误的序列还是特定的单词名称。这些任务可以从简单的单步操作到更复杂的多步骤过程。例如，将单词“ICAR”重新排列为“ICRA”。这项任务需要三个不同的步骤：1）拿起单词“A”并将其放在空白处，2）拿起单词“R”并将其放在单词“C”旁边，3）拿起单词“A”并将其放在单词“R”旁边。这种任务不仅测试机器人的语言能力，还测试其灵活性和准确执行顺序操作的能力。语言和运动技能的结合对于有效执行此类任务至关重要。

按颜色对立方体进行分类[慢思考]。在桌子上摆放几个立方体，每个立方体都有四种不同的颜色之一。机器人的任务是识别单个立方体，抓住它们，然后将它们与相同颜色的其他立方体分组。任务的复杂性不仅源于机器人识别颜色的能力，还源于其空间推理能力，以确定将每个立方体放在何处以创建有组织的颜色簇。这对机器人的视觉处理能力及其处理目标的精确度提出挑战。

意图识别 [慢思考]。设计几个需要视觉推理的任务。考虑这样一个场景：一张图片描绘桌子上的各种食物。如果用户发出指令“我对辛辣食物过敏”，机器人就会识别出辛辣食物，如辣椒或其他辛辣配料，并将它们重定位到桌子的另一侧。这体现了一种典型情况，即机器人必须根据口头指令辨别用户的意图。根据颜色选择立方体 [快思考]。机器人的任务是根据语言指令中的颜色信息来抓取立方体。

选择立方体并放入左/右盒子 [快思考]。根据指令，要求机器人按颜色选择立方体并将其放入盒子的左侧或右侧。选择玩具并放入盒子 [快思考]。要求机器人拿起放进盒子里的玩具。

数据收集统计。收集大约 2,000 条真实世界轨迹，其中轨迹的平均长度约为 100。数据集包含目标姿势、形状和外观的变化。目标随机放置在桌子上。如上图中下部分所示为上述任务提供多个示例。

查看全文

http://www.kler.cn/a/560442.html