当前位置：首页 > article >正文

ChatVLA：基于视觉-语言-动作模型的统一多模态理解和机器人控制

article 2025/2/27 6:38:35

25年2月来自美的集团、华东师范大学、上海大学、北京人形机器人创新中心和清华大学的论文“ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model”。

人类拥有统一的认知能力，可以感知、理解和与物理世界互动。为什么大语言模型无法复制这种整体理解？通过对视觉-语言-动作模型 (VLA) 中现有的训练范式进行系统分析，凸显两个关键挑战：虚假遗忘（机器人训练会覆盖关键的视觉-文本对齐）和任务干扰（控制和理解任务之间的竞争会降低联合训练时的性能）。为了克服这些限制，ChatVLA 框架，具有分阶段对齐训练功能，可在初始控制掌握后逐步整合多模态数据，以及混合专家架构以最大限度地减少任务干扰。

ChatVLA 在视觉问答数据集上表现出色，并在多模态理解基准上显著超越最先进的视觉-语言-动作 (VLA) 方法。在 MMMU 上的性能提高六倍，在 MM-Star 上的得分为 47.2%，并且具有比 ECoT 更高效的参数设计。此外，与 OpenVLA 等现有 VLA 方法相比，ChatVLA 在 25 个现实世界的机器人操作任务上表现出色。研究结果凸显统一框架在实现强大的多模态理解和有效的机器人控制方面的潜力。

chatVLA 如图所示：

请添加图片描述

视觉-语言-动作 (VLA) [6, 24, 59, 60] 模型的最新进展，在很大程度上优先考虑机器人动作的掌握。虽然在机器人控制任务上训练的模型擅长低级操作和物理交互，但它们往往难以解释和推理图像和文本等多模态数据。这是自相矛盾的，因为现代 VLA 架构建立在预训练的视觉语言模型 (VLM) 之上。相反，在视觉文本对上训练的 VLM 表现出吸引人的多模态场景理解能力，但缺乏与环境进行物理交互的能力。这种二元性凸显一个关键的挑战：通过协调这些不同的数据源（机器人动作和视觉文本语义）来统一具身控制和多模态理解，而不会牺牲任何一个领域的性能。

多模态理解。多模态大语言模型 (MLLM) [3、10、11、11、14、22、25、27、32、33、36、37、39、55、67、68、70] 通过整合视觉和语言信息来实现整体场景理解，显著推动多模态理解领域的发展。MLLM 在需要跨模态对齐的任务上表现出色，例如视觉问答 (VQA)、图像字幕和空间推理。这种成功源于它们能够通过复杂的适配器设计将视觉特征映射到语义表示。然而，目前的 MLLM 缺乏与物理世界的联系，从而阻止它们与环境和人类互动。这项工作旨在弥合这一差距，使视觉-语言模型也能发挥作用。

机器人学习中的视觉-语言-动作模型。视觉-语言-动作模型 (VLA) 是一个不断发展的研究领域，它利用预训练的视觉-语言模型 (VLM) 作为骨干，实现语言理解和观察理解。这些方法通常对大型预训练 VLM 进行微调，以预测机器人动作 [4–7、12、15、16、21、24、29、31、45、46、48、52、53、56、59、65、69]。这些方法在模拟任务和现实世界任务中都表现出色。然而，现有的 VLA 模型尚未展现出执行真正多模态理解的能力。实验发现，这些模型缺乏这种能力。

这项工作研究如何统一一个能够进行多模态场景理解、对话能力和物理交互的端到端神经网络。ChatVLA 是一个简单而有效的框架（就神经架构和训练策略而言），它使单个神经网络能够同时掌握理解和操作。其中采用分阶对齐训练，这是一种受课程学习启发的两阶段策略。该模型首先掌握具身控制，然后逐步集成多模态数据以“重新激活”冻结的对齐链接。此外，在 MLP 层上引入混合专家 (MoE)。

考虑两种不同的场景：机器人控制和多模态理解。在机器人控制的背景下，通常构建一个演示数据集 D_robot = {τ_i}，其中每个演示 τ_i 包含一系列状态-动作对。状态 s 由观察（图像）v 和指令（文本）t 组成，使得 s = (v, t)。可以将状态-动作对序列表示为 τ_i = {((v_1,t_1),a_1), ((v_2,t_2),a_2),…,((v_T,t_T),a_T)}，其中每个元组 ((v_j,t_j),a_j) 表示时间步 j 的状态和采取的相应动作，T 是演示的长度。这些演示通常由人类专家提供。

对于多模态理解和视觉对话任务，我们有一个数据集 D_v−t = {φ_i}，其中每个数据样本φ_i由一个视觉图像v_i和一个对应的文本形式问题（或字幕）t_i组成，即φ_i = {(v_i, t_i)}。这里，M表示此类图像-文本对的总数。符号v−t表示视觉-文本数据。

工作的总体目标是开发一个通用模型π，能够同时解决具身控制和多模态理解问题。对于具身控制，这涉及学习一种策略，该策略在给定当前视觉观察和文本指令的情况下对机器人动作的联合分布进行建模：π(a_t|v_t, t_t)。同时，对于多模态理解和视觉问答，模型应该在给定视觉输入的情况下捕捉文本（答案或字幕）的分布：π(t|v)。目标是创建一个可以有效学习两种分布的统一模型，使其在机器人控制任务和多模态理解场景中都能表现良好。

当前的 VLA 研究重点是开发更稳健、更通用的模型来学习视觉运动策略 [6, 24, 59]。一些方法探索类似思维链的推理来改进策略生成 [28, 57, 63]，而另一些方法则研究使用视觉文本和机器人数据共同训练 VLA 模型 [45]。具体来说，一些研究报告在实验室环境中使用视觉文本数据共同训练的好处 [8]，而其他研究发现它在现实世界场景中效果较差 [63]。虽然一些研究表明 VLA 可以保持对话能力 [8, 57]，但没有一项研究彻底研究过在应用 VLA 训练范式后如何保留这种能力以及一般的多模态理解。

训练数据的配置分析

为了了解现有 VLA 模型在多模态理解和具身控制方面的能力，研究三种不同的训练范式，每种范式都使用不同的数据集：1）仅使用机器人数据进行训练，这是 VLA 中最流行的方法 [3、6、24、59]，主要侧重于优化机器人控制性能；2）使用类似思维链的推理来增强机器人数据，旨在提供辅助信息，以提高模型泛化能力和机器人任务性能 [57、63]；3）使用视觉文本数据和机器人数据进行联合训练。后一种范式由 RT-2 [8] 开创；然而，由于专有数据和模型细节，精确复制具有挑战性。遵循 RT-2，在此实验中使用 3:1 的机器人数据和视觉文本数据比例。

以下分析 VLA 模型这三种训练数据的设置。具体来说，利用 Diffusion-VLA [57]，一个代表性的 VLA 模型，它既支持通过自回归进行语言输出，也支持通过扩散模型进行动作生成。在六个代表性基准上评估性能：四个侧重于视觉问答，两个提供对多模态大语言模型的更广泛评估，涵盖数学和 OCR 等任务。此外，评估五个现实世界机器人任务的性能，涵盖悬挂、拉动、拾取和放置等多种技能。按照 DiffusionVLA 的方法，生成机器人推理数据。对于视觉文本数据，从 LLaVA 中随机抽样 54k 个图像-文本对。

多模态理解和问答基准的结果如图所示。该图的右下部分显示六个基准上的性能，涵盖视觉问答 (VQA) 和一般理解任务。该图的右上部分显示在五个现实世界机器人任务上进行的总共 112 次试验的平均成功率。

请添加图片描述

上图右下角的表格，包括基础模型 Qwen2-VL [55] 的结果。一些结果是直观的。例如，仅使用机器人数据训练模型在所有基准测试中的表现为 0。该模型完全失去对话能力，在被问到问题时只会表现出喃喃自语。正如预期的那样，与基础模型相比，当训练同时使用视觉-文本对和机器人数据时，性能下降最小。有趣的是，使用包括推理在内的机器人数据进行训练也会将性能从 0 提升到不可忽略的水平，尽管该数据中的推理短语具有高度结构化和模板驱动的性质。即使推理短语相似且结构化，明确允许模型“说出来”也会显着提高问答甚至一般理解的性能。

结论 1. 预训练的 VLM 组件似乎遭受灾难性的遗忘。仅使用机器人数据进行训练会导致模型失去先前获得的对话和理解能力。但是，这并不一定是知识的完全丢失，而是由机器人数据引起的错位。使用固定推理模板进行训练似乎可以“重新激活”视觉文本对齐，使模型能够参与对话并展示理解。这种现象称为“虚假遗忘”。

进一步评估真实机器人设置的不同方法。所有方法都针对 25 个真实机器人任务进行训练。仅使用机器人数据进行训练产生的性能比结合推理更差。这证实了先前的发现，即利用视觉或文本思维链可以增强机器人模型的泛化能力。有趣的是，将机器人数据与视觉文本数据一起训练会导致现实世界任务成功率的显着下降。

结论 2。将推理纳入机器人数据可提高性能的初步观察结果与双重编码理论（Dual Coding Theory） [44] 一致。该理论认为，身体运动技能和视觉语言理解并不是相互排斥的，而是相互关联的，提供重叠的好处。然而，当将视觉-文本对添加到训练数据中时，机器人控制的性能急剧下降。这表明，动作生成和理解所需的不同表示可能会在共享参数空间内竞争。这种现象称之为部分任务干扰，需要仔细解决。统一的系统应该连接这两种数据类型，同时为每个任务实现可分离的表征学习。

方法：ChatVLA

如上所述，对机器人策略数据进行训练可能会干扰视觉文本关系的学习。此外，仅对机器人数据进行训练可能会削弱视觉文本对齐，从而导致模型的对话能力下降。因此，解决这两个挑战对于在单个 VLA 模型中成功统一这两个观点至关重要。如图所示提出的训练策略：该框架最初在具有动作轨迹的机器人数据上进行训练，然后与视觉文本和机器人数据一起训练以保持两个领域的性能。

请添加图片描述

分阶段对齐训练。虚假遗忘是导致 VLA 失去聊天和理解场景能力的关键因素。由于预训练的 VLM 训练有素且擅长视觉相关任务，因此可以直观地看到，只需少量的视觉文本对数据就可以重新激活聊天和理解场景的能力。相比之下，机器人控制任务的训练要复杂得多，因此当务之急应该是开发一个擅长具身控制任务的模型。训练策略简单而有效。首先在机器人数据上训练 VLA 模型。在此训练过程中，还包括推理数据，以确保视觉和文本组件之间的持续对齐。一旦机器人数据训练完成，就会同时训练视觉-文本和机器人数据，以帮助模型在两个任务中保持熟练程度。

专家混合。上一节演示使用分阶段对齐训练来解决虚假遗忘问题，使模型能够保留来自先前训练 VLM 的知识。但是，这种方法并不能完全解决任务干扰问题，因为模型仍然需要对视觉文本和机器人数据进行共同训练。引入专家混合来解决这个问题，如图所示。具体而言，给定 x^l 是第 l 个块的输入。输入可以属于 D_robot 或 D_v-l。值得注意的是，设计一个双路由器，一个用于处理与多模态理解和对话相关的任务（f(FFN_v−l)），另一个用于学习机器人控制方面的表征（f(FFN_robot)）。输入首先通过多头自注意 x^l′ = MHA(x^l−1)+x^l−1，其中 MHA(·) 表示多头自注意。然后将其输入到专家混合层，该层可以表示为：

请添加图片描述

然后将其与来自跳连接的输入 x^l = x^l′ + MoE(x^l′) 相加。注：在第 1 阶段训练中，仅激活控制专家。

为了区分任务输出，用不同的系统提示，例如理解和对话任务的“基于问题回答”，以及控制任务的“预测机器人动作”。直观地讲，应用于 MLP 层的静态 MoE 架构，可视为对共享参数空间进行划分的高维特征提取器。这允许每个任务（例如理解和控制）利用大量专用神经元，从而使模型在两方面都表现出色。这种类似 MoE 的架构的一个关键优势是，在推理过程中，只激活一条路径，从而保留基础模型的模型参数。实验结果表明，这种直接的方法可以同时提高理解、对话和控制性能。

为什么要共享自注意层？一种流行的解决方案是使用注意的混合来学习特定于任务的表示。然而，根据实验，理解和机器人控制任务共享，对两者都有益的表示。例如，典型的机器人控制场景需要模型理解场景、识别目标、确定它们的位置，然后将这些信息转化为动作。这些高维表征具有相似的语义概念。因此，这两个任务的相互关联性对于同时提高理解和控制性能至关重要。

实验细节如下。

对于视觉文本数据，用 llava-1.5 [32] 数据集进行联合训练。按照 ECOT 中提到的数据比例，将视觉文本数据与机器人数据的比例设置为 1:3。使用机器人数据，在 25 个现实世界机器人任务上评估方法，包括具有直接提示的长期任务。数据是从 LLaVA 微调数据集中随机抽样的。假设策划的数据对于减轻虚假遗忘至关重要。

训练中，使用 Qwen2-VL-2B 作为 VLM 主干，动作头集遵循 DiVLA [58]。用分阶段对齐训练来训练 ChatVLA。在第一阶段，在机器人数据上训练模型，只激活控制专家及其相应的动作头。在第二阶段，联合训练视觉文本数据和机器人数据。控制专家和理解专家都使用相同的学习率 2e-5 进行训练。

如图所示直接提示的长期任务：包括 4 个任务

请添加图片描述