当前位置：首页 > article >正文

[EAI-029] RoboVLMs，基于VLM构建VLA模型的消融研究

article 2025/3/9 23:12:55

Paper Card

论文标题：Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models
论文作者：Xinghang Li, Peiyan Li, Minghuan Liu, Dong Wang, Jirong Liu, Bingyi Kang, Xiao Ma, Tao Kong, Hanbo Zhang, Huaping Liu
论文链接：https://arxiv.org/abs/2412.14058
项目主页：https://robovlms.github.io/
论文出处：/
论文被引：/

Abstract

基础视觉语言模型 (VLMs) 在多模态表示学习、理解和推理方面展现出强大的能力。通过将动作组件注入 VLMs，可以构建视觉-语言-动作模型 (VLAs)，并且也显示出良好的性能。现有工作已经证明了 VLAs 在多种场景和任务中的有效性和泛化能力。然而，从 VLMs 到 VLAs 的迁移并非易事，因为现有的 VLAs 在其主干网络、动作预测建模、数据分布和训练方法方面有所不同。这导致缺乏对 VLAs 设计选择的系统性理解。本文揭示了显著影响 VLA 性能的关键因素，并重点回答三个基本的设计选择：选择哪个主干网络，如何制定 VLA 架构，以及何时添加跨机器人本体的数据。结果表明更倾向于 VLA，并开发了一个新的 VLA 系列 RoboVLMs，它只需要很少的手动设计，并在三个模拟任务和现实世界实验中取得了新的最先进的性能。通过 8+ 个 VLM 主干网络、4 个策略架构和超过 600 个不同的设计实验，为 VLAs 的未来设计提供了一个详细的指南。

Summary

实验做的挺充分，开源了代码，质量比较高，用了 lighting 框架。瑕不掩瑜的是没有探索pi0涉及的自回归+扩散的技术路线，期待后续工作～
在这里插入图片描述

研究背景

基于VLMs构建VLAs的一个原因是：得益于互联网规模的数据训练，VLMs已经证明在学习文本、图像/视频等多模态数据方面具备很强的泛化能力和鲁棒性。这种能力可以促进像VLA这种机器人基础模型的适应性，从而减小高度多样化的开放世界场景和有限的机器人数据之间的差距。然而，大规模视觉语言预训练在多大程度上促进了通用机器人策略仍然是一个未解之谜。此外，各种不同类型的VLMs迅速涌现，它们具有不同类型的LLM主干、训练数据、模型大小、架构和训练方法。哪种类型的VLM 主干更适合机器人操作，这也是开发成功的VLAs的关键问题。

在这里插入图片描述

如图 2 所示，考虑了 4 种建模方法。除了VLA模型中骨干网络的多样性外，如何对机器人的动作建模又有两种分类法：
1）动作空间是连续的还是离散的 1️⃣；

2）VLAs中如何结合历史和动作信息。对于历史信息建模，考虑两种形式：

1）单步建模，仅利用当前状态或观测结果来产生动作 2️⃣；
2）历史建模，考虑时间窗口大小的历史状态或观测信息。对于历史信息的聚合，考虑两种方法：
- 交错建模，以交错的形式整合历史观测和动作序列 3️⃣。
- 策略头，分别处理每个历史步骤，并在不同的策略头融合信息以进行动作预测 4️⃣。不同的结构以不同的方式利用预训练的VLM，弄明白如何构建VLA以充分发挥VLM的能力非常重要。

除了VLA模型架构方面，VLA的训练数据的质量和多样性同样重要。在具体训练方法上有很大的差异：一些工作利用额外的数据进一步预训练VLM，改进更接近机器人操作任务的表示；另一些则与领域内任务共同训练VLA。此外，通过充分预训练各种操作技能，机器人策略有望通过最少的演示学习新技能。因此，在开发高效 VLA 的情况下，何时利用大规模跨机器人本体的数据也是关键问题。

方法介绍

为了研究上述问题并找到 VLA 的最有效解决方案，选择了 4 种 VLA 结构、8 种不同的主干网络和 3 种不同的训练数据方法来训练 VLA 模型。提出了一种新的框架，RoboVLMs，以便将VLMs转换为VLAs并进行公平的比较。

评估基准：在两个流行的模拟机器人操作基准上评估这些模型：CALVIN 和 SimplerEnv。

VLMs：最初选择了三个VLMs——LLaVA、Flamingo和KosMos作为骨干，将每个骨干与四个VLA结构相结合，以检查动作空间、观测范围和历史聚合方法的影响。鉴于使用连续动作空间的策略头建模效果最佳这一发现，将8个不同的VLMs作为具有策略头公式的骨干进行比较，以回答哪个骨干更合适。同时，比较了不同VLA结构的泛化能力和数据效率。

数据构建：还在一个自收集的真实世界机器人操作数据集上训练和评估了构建的VLAs，该数据集包含100个操作任务和总共74K条轨迹。

对于何时利用跨机器人本体数据的问题，比较了下述方法：

预训练（使用Open X-Embodiment训练的VLAs）
微调（使用目标数据集训练的VLAs）
后训练（使用Open X-Embodiment预训练并进一步使用目标数据集微调的VLAs）

为了确认具有最佳配置的VLAs在现实世界中的适用性，在现实世界机器人操作场景中对其进行了训练和评估，证明了其在以下方面的泛化能力：1）未见的干扰物，2）未见的背景，3）未见的目标物体，4）新的技能描述。

本文提出了新的框架 RoboVLMs，它将 VLMs 转化为 VLAs，并提供了一个统一、灵活、易于使用、开源的框架，使任何 VLM 都能轻松无缝地集成到 VLAs 中。由 RoboVLMs 构建的 VLAs 在各种基准测试和实际任务中都展现出强大的泛化能力、灵巧性和灵活性。代码已开源。

消融实验

主要发现总结

通过全面的研究，对围绕以下问题的构建高性能 VLAs 得出了重要的见解：
在这里插入图片描述

为什么需要 VLAs？基于预训练VLMs构建的VLAs已被证明对于通用的机器人策略既有效又高效。在所有实验中，包括模拟和现实世界操作任务，VLA始终以显著的优势优于开源的最新VLA。此外，预训练的VLMs在泛化能力和数据效率方面表现出显著的优势，使其非常适合现实世界的机器人应用。

哪个VLM骨干更适合VLAs？对 8 个不同的VLM骨干进行的广泛研究显示，两个不同的VLM骨干，即KosMos [36] 和Paligemma [3]，其性能明显优于其他骨干。这说明全面的视觉-语言预训练对于实现优越的VLA性能至关重要。

如何构建 VLAs？通过大量的研究和实验，连续动作始终优于自回归离散动作，同时整合历史上下文对于提高性能和解决部分可观测性至关重要。对于模型架构，直接与策略头集成的 VLMs 表现出优于其他方案的性能，这是因为一致的使用，即视觉语言token应以其原始预训练格式进行处理，并添加策略头以整合过去的视觉和本体感受观测结果，从而有效地进行决策。最后，更大的 VLMs 进一步提高了效率，需要更少的数据来实现更高的性能。

何时应用跨机器人数据集？虽然人们普遍认为使用跨机器人数据进行预训练或后训练可以提高性能，但这一观点尚未得到严格验证。本文的研究结果表明，使用跨机器人数据进行预训练并不能一致地带来最终性能的显著提升。但是，在目标数据集上对经过跨机器人预训练的模型进行后训练可以带来显著的性能提升。此外，利用来自相同机器人或任务的操作数据可以显著提高性能。

评测基准包含2个仿真+1个真实环境，这些基准中包含的所有任务均是单臂机器人，产生7自由度的动作——夹爪的6D位姿和一维的打开/关闭状态。机器人观测信息包括本体感受信息、视觉观测和语言输入。
在这里插入图片描述

1-为什么需要 VLAs？

Question 1: Are VLAs a proper choice for building generalist robot policies?
Finding 1: VLA is a promising path to generalist robot policies.

研究中性能最佳的VLA，它在CALVIN和SimplerEnv基准测试中都取得了新的最先进的结果，明显优于所有其他机器人策略。结果在表II和图5中。
在这里插入图片描述

最强的RoboVLM在模拟和现实世界实验中都大大超过了现有的最先进的通用策略，并为机器人操作任务建立了一个强大的基线。具体来说：

在CALVIN基准测试中，最好的模型在所有指标中都取得了最高的性能，并在从ABC到D（训练分割中未见的新场景）的迁移过程中表现出优越的泛化能力。平均而言，在零样本设置下，模型每次单次运行可以完成5个任务中的4.25个，比之前的最先进模型 (GR-1) 多出1.09个任务。
在 SimplerEnv 环境下，模型在 WidowX + Bridge 和 Google Robot 环境中都取得了最高的平均性能，证明了其在不同设置和多样化操作任务下的通用有效性和鲁棒性。

还研究了视觉-语言预训练对泛化能力和数据效率的影响（图 6 和表 IV）。对于 CALVIN 中的泛化能力，采用官方设置：在 ABC 分割上训练模型，并在 D 上验证性能。为了评估数据效率，对 3B 到 9B 的模型规模和不同的数据规模进行了实验：标准设置的 10% 训练数据 (0.1x ABCD)、标准设置 (ABCD) 和 500% 训练数据 (5x ABCD)。视觉-语言预训练对于泛化能力和数据效率都至关重要。这一观察结果是很直观的，因为对齐的视觉-语言表示为视觉理解提供了强大的基础，使策略能够专注于学习操作技能。

尽管VLA在模拟中表现良好，但由于Sim2Real Gap，VLA是否适合真实的机器人应用仍然是一个开放性问题。

Question 2: How do VLAs perform in real-world scenarios?
Finding 2: The best setup VLA built by RoboVLMs appears strong effectiveness and robustness in real scenarios.

在真实机器人基准上进行了性能比较。结果如图 7所示。由RoboVLMs构建的最佳VLA（KosMos P.H.）在所有评估设置中都取得了最佳性能，尤其是在简单和未见背景场景下，这证明了其有效性和泛化能力，这与SimplerEnv和CALVIN模拟中的结果一致。
在这里插入图片描述

2-如何构建 VLAs？

进行了一系列受控实验研究，以在CALVIN基准上对各种VLA公式进行消融研究，以便快速评估。

Question 3: What is the best-performing VLA structure?
Finding 3: The VLA achieves its best performance when using multi-step historical observations as inputs and continuous actions as outputs. For integrating history with continuous action space, the policy head structure performs better.

在这里插入图片描述

表III总结了各种VLA结构在CALVIN中的性能，可以得出以下结果：

连续动作很重要：通过比较表III中所示的两种类型的动作空间，连续和离散，在单帧的情况下，连续动作空间始终优于离散动作空间，尤其是在任务范围增加时。连续动作可以表示高精度的浮点数，而离散动作仅限于索引动作区间。对于长周期任务，累积误差会显著降低离散动作的性能。
历史观测很重要：如表III所示，在相同的VLM结构（编码器-解码器或仅解码器）下，将历史观察作为输入的模型始终优于单步模型，在所有任务中都实现了更高的成功率。此改进与所使用的历史融合策略无关。此外，增加可观察历史的长度可以提高性能，尽管代价是更高的计算开销。
策略头改进历史融合： 在利用历史的各种方案中，交错历史方案的性能不如通过附加策略头合并历史的方案。因为策略头保留了VLM最初的视觉-语言融合能力，同时有效地整合了历史信息。此外，交错方案在训练和推理过程中都会产生显著更高的内存和FLOP成本。这表明，使用附加策略头整合历史信息对于VLA来说是一种更有效率的方法。

然而，除了性能本身之外，VLA 面临的最大挑战之一是实现对新颖物体和环境设置的泛化能力。当泛化能力不足时，使用少量新的演示来微调策略就显得理想。因此，VLA应该继承视觉语言模型（VLM）在开放世界环境下的泛化能力，同时在有额外的领域内训练样本可用时保持较高的数据效率。因此，进一步研究以下问题：

Question 4: How do different formulations affect the generalization and data efficiency for VLAs?
Finding 4: Leveraging policy head for history fusion is the best in terms of generalization and data efficiency.

在这里插入图片描述

为了解决这个问题，研究和评估了各种VLA表达方式的泛化能力和数据效率，旨在为训练高性能VLA提供实践见解。交错式表达方式只能与仅解码器结构结合。图9和表IV表明：

对于泛化性能（图9），基于KosMos骨干网络并利用策略头进行历史融合的最佳模型，在零样本设置中仅表现出轻微的性能下降。相反，其他表达方式的性能显著下降。这表明，模型架构显著影响泛化能力。
对于数据效率，趋势与泛化能力的趋势相似。当训练数据规模缩减时，最佳模型始终保持最高性能，并且与其他模型相比，性能下降速度明显更慢。此外，对不同规模的编码器-解码器VLA的比较表明，更大的模型数据效率更高。

3- 哪个VLM骨干更适合VLAs？

在选择最合适的VLM来构建VLA时，仍然存在一个关键问题：

Question 5: Which type of VLMs is most suitable for constructing VLAs?
Finding 5: VLAs benefit from the sufficient vision-language pre-training on large vision-language datasets of VLMs backbone.

在这里插入图片描述

基于一系列 decoder-only 的 VLMs 构建 VLAs：LLaVA、Qwen-VL、MoonDream、UForm、Paligemma和KosMos。为了公平比较，所有模型都使用静态图像进行训练，表V结果表明：

KosMos和Paligemma表现出明显更好的性能：这两个骨干模型比其他模型好得多，优势非常明显。它们优越的性能得益于在大规模视觉语言数据集上进行的充分的视觉语言预训练。因为广泛的预训练促进了视觉和语言特征之间更强的对齐——这种对齐对于语言条件下的操作任务至关重要。

4-何时应用跨机器人数据集？

利用大规模跨机器人本体的机器人操作数据集来提高VLA性能已成为一种主要趋势。然而，目前还不完全清楚这是否有帮助，一个重要的问题仍然存在：

Question 6: How do large-scale cross-embodiment datasets contribute to VLAs?
Finding 6: Extra in-domain data, even from different tasks, shows beneficial, and large-scale cross-embodiment pre-training further improves overall as well as few-shot performance.

为此，将这个问题分解成两个子问题：

来自大规模跨机器人本体数据集的哪些类型的数据对构建VLA最有利？
这些数据应该何时以及如何有效地利用？
本节进行了一系列实验，以研究使用外部大规模跨机器人本体数据集的不同策略。具体来说，探讨了两种主要设置：

预训练：使用领域内操作数据和跨机器人本体数据集对模型进行预训练。这种方法已经在RT-2[7]、OpenVLA[22]和OCTO[39]中进行了探索。
后训练：首先，在跨机器人本体数据集上训练VLM，然后使用领域内操作任务进行微调。此策略已被π0采用。

本节中的实验使用性能最佳的KosMos骨干网络和用于历史融合的策略头作为基础模型。使用 OXE 作为跨机器人本体数据集。
在这里插入图片描述

图10显示了在不同训练阶段利用跨机器人本体数据方法的比较。从上到下，该图显示了SimplerEnv-谷歌机器人和SimplerEnv-Bridge的评估结果。图11显示了是否在CALVIN少样本学习中集成跨机器人本体数据预训练的比较。可以得出以下观察结果：

使用跨机器人本体数据进行预训练并没有显著帮助。即使是与任务无关的领域内数据，也比跨模态数据更有效地提高模型性能。
跨模态预训练后的后训练显示出潜在的益处。后训练模型的平均性能超过了仅在领域内数据上微调的模型。这表明，跨模态预训练可以提供有用的初始化，从而有利于后续的微调。
预训练提高了少样本学习性能。在大规模跨模态数据集上进行预训练有利于学习更有效的机器人操作表示，这可以快速适应具有未见物体和环境设置的新型操作任务。

实验结论

这项实证研究主要关注构建视觉-语言-动作模型 (VLA) 中的关键因素。我们提出了构建 VLA 的四个重要问题。为了回答这些问题，构建了一个统一的框架来公平比较 VLA，并设计了一系列的实验。在三个模拟器上进行了广泛的实验，在现实场景中 20 个任务中进行了超过 240 次 rollout，从实验中得出结论：对于为什么这个问题，VLA 可以实现高性能和泛化能力，并且是通用的机器人策略的有前景的途径；对于哪种问题，在大规模视觉语言数据集上进行足够视觉语言预训练的 VLM 适用于构建 VLA。对于如何问题，不同 VLA 结构的性能、泛化能力和数据效率，集成历史观测对于 VLA 至关重要，并且与交错方法相比，策略头部是一种更有效率的历史聚合方法；对于何时问题，比较了三种在不同阶段集成跨模态数据的训练方法，并得出结论：额外的领域内数据显示出益处，而大规模跨模态预训练进一步提高了整体性能和少样本性能。

实验中，基于Qwen-VL和LLaVA构建的 VLA 的性能出奇地低。在视觉编码器之后添加了一个感知器重采样器，可以获得巨大的性能提升，并达到合理的性能。假设性能提升与输入token序列中的图像分辨率和视觉token数量有关。

局限性：研究构建 VLA 的关键挑战，目前存在一些局限性：

1）为了快速简便地扩展现有的 VLM，保留了VLM内的多模态交互结构（例如，注意力掩码，专家混合）。在此基础上，进一步发展了视觉、语言和动作之间的交互，这是大多数现有工作中的一种常用方法。然而，专门设计架构和多模态动作交互具有产生优越性能的潜力（例如，π0），值得进一步探索。
2）出于 1) 中的原因，此处考虑的VLA的分类和建模是简化和有限的。
3）动作token化、策略头和相应的训练目标在这项工作中尚未得到充分探索。例如，VQ-VAE、扩散模型和流匹配等技术在VLA的背景下仍未得到充分探索。
4）本研究中考虑的VLM主干网络有限。
5）部署如此大型的模型用于实时机器人控制仍然是一个巨大的挑战。

未来工作：

1. 当前的方法在 VLMs 的结构设计、策略头以及相应的训练目标方面存在局限性。对 VLAs 进行更细粒度的设计选择方面的进一步研究可能具有非常高的价值，因为最近的研究表明它们在提高效率和有效性方面发挥着重要作用。
1. 除了语义泛化之外，理想的通用机器人策略应该能够处理长时序、复杂的任务指令（例如，制作早餐），逐步推断可执行的动作，并与其环境产生有意义的物理交互。在我们未来的工作中，开发具有这些高级能力的策略所需的关键要素。