当前位置：首页 > article >正文

ChatVLA：基于视觉-语言-动作模型的统一多模态理解与机器人控制

article 2025/3/11 2:55:49

编辑：陈萍萍的公主@一点人工一点智能

ChatVLA：基于视觉-语言-动作模型的统一多模态理解与机器人控制作者提出ChatVLA框架，其核心创新在于分阶段对齐训练（Phased Alignment Training）和混合专家架构（Mixture-of-Experts, MoE）。https://mp.weixin.qq.com/s/tnvz4Fkz2urRnJZIYgUjyg

01 摘要

该部分系统性地阐述了当前视觉-语言-动作模型（VLA）存在的关键问题：虚假遗忘（Spurious Forgetting）和任务干扰（Task Interference）。前者指在机器人控制任务训练过程中，原有视觉-语言对齐关系被覆盖，导致多模态理解能力退化；后者指控制与理解任务因共享参数空间而相互抑制。

针对这些问题，作者提出ChatVLA框架，其核心创新在于分阶段对齐训练（Phased Alignment Training）和混合专家架构（Mixture-of-Experts, MoE）。前者通过先掌握控制任务再逐步引入多模态数据的策略保留对齐能力，后者通过共享注意力层与独立MLP层的设计减少任务干扰。

实验结果表明，ChatVLA在多模态理解基准（如MMMU和MMStar）上显著超越现有VLA方法（如ECoT），参数效率提升3.5倍；在25个真实机器人任务中，成功率远超OpenVLA等模型。这些结果验证了统一框架在同时实现鲁棒多模态理解和高效机器人控制上的潜力。

02 引言

在现代人工智能研究中，视觉-语言-行动（Vision-Language-Action, VLA）模型的开发和应用日益受到重视。这些模型旨在通过融合多种模态的信息来增强机器人的理解能力和物理操作能力。本文介绍了一种名为ChatVLA的新框架，该框架致力于将多模态推理、对话交流以及物理交互整合到一个单一的网络中。ChatVLA不仅在复杂的场景中表现出色，而且在参数数量上比现有模型（如OpenVLA和ECoT）减少了3.5倍，展示了其高效性和强大性能。这一成就标志着人工智能领域的一个重要进步，为实现更加智能和多功能的人机互动奠定了基础。

ChatVLA的核心在于它能够有效地结合视觉信息与文本数据，以支持机器人在各种任务中的表现。这种跨模态的能力对于处理现实世界中的复杂问题至关重要，因为它们通常涉及多个感官输入和决策过程。例如，在典型的机器人控制场景中，模型需要理解场景内容、识别物体及其位置，并将这些信息转化为具体动作。为了实现这一点，ChatVLA采用了先进的训练策略，确保了高维表示之间的语义一致性，从而提升了理解和控制性能。此外，ChatVLA还通过一系列实验验证了其在多模态理解和视觉问答方面的竞争力，证明了单个网络可以同时优化多个任务的表现。

03 相关工作

现有研究可分为两类：

· 多模态大语言模型（MLLMs）：如LLaVA、DeepSeek-VL等，通过视觉编码器与LLM的适配器设计实现跨模态对齐，但在物理交互能力上存在本质缺陷；

· 视觉-语言-动作模型（VLAs）：如RT-2、OpenVLA等，通过微调VLMs生成动作指令，但普遍牺牲了多模态理解能力。例如，OpenVLA在VQA任务中得分为零，表明其完全丢失了预训练VLMs的知识。

ChatVLA的突破在于**双编码理论（Dual Coding Theory）**的启发：将物理技能与语言理解视为相互关联但独立处理的系统。通过MoE架构，模型在共享注意力层中实现跨任务知识迁移，同时在独立MLP层中保留任务特异性，从而突破传统VLAs的能力瓶颈。

04 方法

4.1 问题形式化

设机器人控制任务数据集为 $D_{robot} = \{\tau_i\}^N_{i=1}$ ，其中 $\tau_i$ 为状态-动作序列 ${((v_j,t_j),a_j)}$ ；多模态理解任务数据集为 $D_{v-t}=\{\phi_i\}^M_{i=1}$ ，其中 $\phi _i=\{(v_i,t_i)\}$ 。模型需同时学习两个分布：

· 控制任务： $\pi (a_t | v_t,t_t)$

· 理解任务： $\pi(t|v)$

传统方法直接联合优化这两个目标，导致参数更新方向冲突。例如，控制任务需要低层运动规划，而理解任务依赖高层语义特征，二者梯度方向可能相反。

4.2 分阶段对齐训练

ChatVLA的设计理念围绕着解决两个主要挑战：如何防止由于机器人策略数据训练而导致的视觉-文本关系学习干扰，以及如何在保持对话能力的同时提高机器人控制任务的表现。首先，针对虚假遗忘的问题，研究团队提出了一种称为“阶段对齐训练”的方法。这种方法基于这样一个前提：预训练的视觉语言模型（VLM）已经具备了强大的视觉相关任务能力，因此只需少量的视觉-文本配对数据即可重新激活其聊天和场景理解能力。相比之下，机器人控制任务更为复杂，因此优先考虑构建擅长于物理控制任务的优秀模型是至关重要的。

具体来说，ChatVLA的训练策略分为两个阶段。

阶段一（控制优先）：第一阶段专注于使用机器人数据进行训练，期间还会加入推理数据以确保持续的对齐性。这种做法有助于避免因单独训练机器人数据而造成的视觉-文本对齐度下降，从而保护模型的对话能力。

仅使用机器人数据Drobot训练模型，但引入推理模板（如“预测下一步动作：{动作}”）。这一设计通过显式语言生成强制模型保持视觉-语言对齐，缓解虚假遗忘。此时，MoE架构中仅激活控制专家（FFNrobot）。

阶段二（多模态融合）：第二阶段则着重于改进模型架构，以便更好地处理复杂的机器人控制任务。该方法不仅简单有效，而且显著提高了模型在不同任务上的表现。

在控制任务收敛后，以1:3的比例混合 $D_{robot}$ 与 $D_{v-l}$ 进行联合训练。此时，视觉-文本专家（ $FFN_{v-l}$ ）被激活，通过任务提示（如“根据问题回答”）动态选择专家分支。分阶段策略确保控制任务的基础能力不被多模态数据干扰。

例如，在长时序真实机器人任务中，ChatVLA在直接提示下的平均成功长度达到了0.54，而在高级策略模型下更是高达0.94，远超其他基准模型如Octo和OpenVLA。这表明ChatVLA能够在保持高质量对话能力的同时，大幅提升机器人执行复杂任务的能力。

4.3 混合专家架构

MoE的核心设计在于共享注意力层与独立MLP层。以第 $l$ 层为例：

1）共享注意力：

其中，多头注意力（MHA）层提取跨模态特征，为控制与理解任务提供共同语义基础。

2）专家路由：

残差连接：

保留低层特征的同时融入专家处理结果。

理论依据与优势：

· 双编码理论：MoE模拟人类大脑中运动技能与语言理解的分离处理机制；

· 参数效率：仅需为每个任务增加少量MLP参数（如2B总参数中，专家MLP占比约15%）；

· 动态推理：通过系统提示切换专家分支，无需额外计算开销。

05 实验设计与结果

为了全面评估ChatVLA在多模态理解和机器人控制任务中的表现，研究团队设计了一系列严谨的实验。首先，他们利用Vlmevalkit工具对ChatVLA在TextVQA、DocVQA、InfoVQA等多个视觉问答（Visual Question Answering, VQA）数据集上的表现进行了测试。结果显示，ChatVLA在多项基准测试中均表现出色，特别是在VQA任务中，其框架实现了显著的进步。例如，在一些更具挑战性的基准测试如MMMU、MMStar等上，ChatVLA也展现了与现有视觉语言模型（VLMs）相当甚至更优的性能。这表明ChatVLA不仅能处理常见的视觉问答任务，还能应对更加复杂的多模态理解挑战。

接下来，研究人员进一步考察了ChatVLA在实际机器人控制任务中的表现。通过一系列长时序的真实机器人任务，包括整理玩具、堆叠积木、将玩具放入抽屉以及清理积木等，ChatVLA展示了其卓越的操作能力。特别是在直接提示条件下，ChatVLA的平均成功长度达到了0.54，明显优于其他模型如Octo和OpenVLA。同样地，在高级策略模型的支持下，ChatVLA在完成诸如移动块体至篮子然后将玩具放入抽屉等复杂任务时，其平均成功长度高达0.94，再次显示了其在机器人控制领域的强大潜力。这些实验结果充分证明了ChatVLA作为一个统一的多模态理解和机器人控制系统所具有的高效性和可靠性。

06 结果分析与讨论

从实验结果来看，ChatVLA在多模态理解和机器人控制方面展现出了显著的优势。特别是在视觉问答任务中，ChatVLA不仅在标准的VQA数据集上取得了优异的成绩，还在更具挑战性的基准测试中保持了高水平的表现。例如，在TextVQA和AI2D等数据集中，ChatVLA的得分分别为79.7和74.7，显示出其在处理自然语言描述和图像理解方面的强大能力。这些成绩的背后，是ChatVLA独特的训练策略和模型结构所带来的优势。通过引入阶段对齐训练法，ChatVLA能够在不牺牲对话能力的前提下，提升其对复杂场景的理解力和操作精度。

此外，ChatVLA在实际机器人控制任务中的表现同样令人瞩目。无论是简单的玩具分类还是复杂的早餐准备任务，ChatVLA都展现出了极高的成功率和效率。例如，在长时序任务中，ChatVLA的平均成功长度达到了0.94，远超其他竞争对手。这一成果得益于ChatVLA对视觉-文本关系的精细处理以及其在机器人控制任务上的专注训练。值得注意的是，尽管ChatVLA的参数量相对较少，但其在各项任务中的表现却不逊色于甚至超过了拥有更多参数的大规模模型。这表明，通过合理的模型设计和训练策略，可以在减少计算资源消耗的同时，实现高效的多模态理解和控制功能。总之，ChatVLA的成功验证了单个网络能够有效整合多模态推理、对话交流及物理交互的可能性，为未来的研究提供了新的方向和启示。