当前位置：首页 > article >正文

论文笔记（七十三）Gemini Robotics: Bringing AI into the Physical World

article 2025/3/23 0:01:53

Gemini Robotics: Bringing AI into the Physical World

文章概括
1. 引言
2. Gemini 2.0的具身推理
- 2.1. 具身推理问答（ERQA）基准测试
- 2.2. Gemini 2.0的具身推理能力
- 2.3. Gemini 2.0支持零样本和少样本机器人控制
3. 使用 Gemini Robotics 执行机器人动作
- 3.1. Gemini Robotics：模型与数据
- 3.2. Gemini Robotics 可直接解决多种灵巧操作任务
- 3.3. Gemini Robotics 能够精确遵循语言指令
- 3.4. Gemini Robotics 将 Gemini 的泛化能力扩展至物理世界
4. 使 Gemini Robotics 专门化并适应灵巧操作、推理及新形态机器人
- 4.1. 长时序灵巧任务
- 4.2. 增强推理能力与泛化能力
- 4.3. 快速适应新任务
- 4.4. 适应新机器人形态
5. 负责任的开发与安全性
6. 讨论

World)

文章概括

引用：

Gemini Robotics Team, Google DeepMind

原文： https://storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf
代码、数据和视频：

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

近年来，大型多模态模型的进步使其在数字领域展现出卓越的通用能力，然而，将这些能力转化为物理代理（如机器人）仍然是一个重大挑战。一般用途的机器人需要能够理解其周围的物理世界，并以熟练且安全的方式与之交互。本报告介绍了一类专门为机器人设计的AI模型家族，并建立在Gemini 2.0的基础之上。我们提出了Gemini Robotics，这是一种先进的视觉-语言-行动（VLA）通用模型，能够直接控制机器人。Gemini Robotics能够执行流畅且具备响应性的动作，以应对各种复杂的操作任务，同时能够适应不同类型和位置的物体，对未知环境具有鲁棒性，并能遵循多样化的开放词汇指令。我们展示了通过额外的微调，Gemini Robotics可以专门化为具有新能力的模型，包括解决长时序、高度灵巧的任务，例如折叠折纸狐狸或玩纸牌游戏，甚至可以通过少至100次示范学习新的短时序任务。此外，它能够适应完全新颖的机器人形态，包括双臂平台和高自由度的人形机器人。这一切之所以成为可能，是因为Gemini Robotics构建于我们在本研究中引入的第二个模型——Gemini Robotics-ER的基础之上。Gemini Robotics-ER（Embodied Reasoning，具身推理）扩展了Gemini的多模态推理能力至物理世界，具备增强的空间和时间理解能力。这使其具备了一系列与机器人相关的能力，包括物体检测、指向、轨迹和抓取预测，以及以多视图对应和3D包围框预测形式呈现的3D理解能力。我们展示了这一新颖组合如何支持多种机器人应用，例如零样本（通过机器人代码生成）或少样本（通过上下文学习）。此外，我们还讨论并解决了与这类机器人基础模型相关的重要安全问题。Gemini Robotics家族标志着向通用机器人发展迈出了重要一步，使人工智能在物理世界中的潜力得以实现。

在这里插入图片描述图1 | Gemini Robotics具身AI模型家族概述。Gemini 2.0已经展现出与机器人相关的能力，例如语义安全理解和长上下文处理。针对机器人的专门训练以及可选的专门化过程，使Gemini Robotics模型具备多种机器人特定的能力。这些模型能够生成灵巧且具备响应性的动作，可以快速适应新的机器人形态，并利用先进的视觉-空间推理来指导行动。

1. 引言

现代人工智能（AI）模型的显著进步——通过大规模数据集的预训练——重新定义了信息处理，展现出在文本、图像、音频和视频等多种模态上的高超能力和泛化能力。这一突破为数字领域的交互式和辅助系统开辟了广阔的应用前景，从多模态聊天机器人到虚拟助手。然而，要在物理世界中实现通用自主AI的潜力，需要从数字世界进行重大转变，在这一过程中，具身AI代理必须具备稳健的类人具身推理能力。这种推理能力涵盖了世界知识的基本概念，这些概念对于在一个固有的物理世界中操作和行动至关重要。作为人类，我们天生具备具身推理能力，例如感知环境的三维结构、理解复杂的物体间关系以及直觉性地掌握物理规律。然而，这些能力对于任何具身AI代理而言，都是其核心基础。此外，具身AI代理不仅要具备对现实世界空间和物理概念的被动理解，还必须学会采取能够直接影响外部环境的行动，以弥合被动感知与主动物理交互之间的鸿沟。

随着机器人硬件的最新进展，具身AI代理能够执行高度灵巧任务的可能性变得令人振奋。在这一背景下，我们提出一个关键问题：如何赋予最先进的数字AI模型具身推理能力，使其能够以通用且灵巧的方式与我们的世界交互？

我们的核心论点是利用前沿视觉-语言模型（VLMs）的先进多模态理解和推理能力，例如Gemini 2.0。这些基础模型所具备的通用理解能力，使其能够解析视觉输入和复杂文本指令，为构建具身智能代理提供了强大基础。要实现这一目标，需要解决两个关键问题。首先，Gemini需要获取稳健的具身推理能力，使其能够理解物理世界丰富的几何和时空细节。其次，我们必须将这种具身推理能力落地，使Gemini能够掌握物理行动的语言，理解接触物理学、动力学以及现实世界交互的复杂性。最终，这些能力必须整合在一起，以实现对现实世界机器人快速、安全且灵巧的控制。

为此，我们提出了Gemini Robotics具身AI模型家族，该模型家族基于我们最先进的多模态基础模型Gemini 2.0构建。首先，我们通过一个新的开源通用具身推理基准ERQA，验证了Gemini 2.0基础模型在具身推理能力方面的表现和泛化能力。接着，我们介绍两个模型：第一个模型是Gemini Robotics-ER，这是一种以强大的具身推理能力为核心的VLM，能够在广泛的具身推理任务上实现泛化，同时保留其基础模型的核心能力。Gemini Robotics-ER在多个理解物理世界的关键能力上表现卓越，包括3D感知、精确指向、机器人状态估计以及通过代码进行可供性预测等。第二个模型是Gemini Robotics，这是一种最先进的视觉-语言-行动（VLA）模型，它将强大的具身推理先验与现实世界机器人的灵巧低级控制相结合，以解决复杂的操作任务。作为一种通用VLA模型，Gemini Robotics能够执行种类繁多、复杂多样的任务，同时能够紧密遵循语言指令，并对指令、视觉和运动中的分布变化实现泛化。为了进一步展示Gemini Robotics模型的灵活性和通用性，我们还引入了一个可选的专门化阶段，展示Gemini Robotics如何适应极端灵巧任务、在困难的泛化环境下进行高级推理，以及控制全新的机器人形态。最后，我们讨论了训练大规模机器人模型（如Gemini Robotics模型）所涉及的安全问题，并提供了在VLA背景下研究此类挑战的指南。本报告特别强调以下内容：

ERQA：一种专门设计用于评估多模态模型具身推理能力的开源基准，解决了当前基准测试仅评估原子能力的局限性，并促进标准化评估和未来研究的发展。
Gemini Robotics-ER：一种VLM（视觉-语言模型），展现了增强的具身推理能力。
Gemini Robotics：一种VLA（视觉-语言-行动）模型，通过融合机器人动作数据，实现高频灵巧控制、稳健的泛化能力以及对多种机器人任务和形态的快速适应。
负责任的发展：我们探讨并践行符合Google AI原则的模型开发方式，深入研究我们的模型对社会的潜在益处和风险，并制定相应的风险缓解措施。

Gemini Robotics模型家族代表了朝向更具通用能力的机器人迈出的初步步伐。我们相信，最终通过从互联网规模数据中提取具身推理能力，并结合现实世界交互中的动作数据进行训练，能够使机器人深入理解物理世界并进行高效操作。这种理解将赋予机器人以通用性和复杂性，从而能够实现迄今为止对机器人系统而言似乎难以企及的目标。

在这里插入图片描述图2 | Gemini 2.0在具身推理能力方面表现卓越——能够在2D环境中检测物体和关键点，利用2D指向进行抓取和轨迹预测，并在3D环境中进行点对应和物体检测。所有结果均由Gemini 2.0 Flash获得。

2. Gemini 2.0的具身推理

Gemini 2.0是一种视觉-语言模型（VLM），其能力不仅限于视觉理解和语言处理任务。特别是，该模型展现了先进的具身推理（ER）能力。我们将ER定义为视觉-语言模型在现实世界中对物体和空间概念进行落地的能力，以及综合这些信息以用于后续机器人应用的能力。部分能力示例见图2。在2.1节，我们首先介绍用于评估广泛ER能力的基准测试，并展示Gemini 2.0模型在该领域的最先进表现。在2.2节，我们演示Gemini 2.0所具备的一系列具体ER能力。最后，在2.3节，我们展示如何将这些能力应用于机器人系统，而无需对机器人动作数据进行微调，从而支持零样本代码生成控制和少样本的上下文学习机器人控制。

2.1. 具身推理问答（ERQA）基准测试

为了衡量VLMs在具身推理方面的进展，我们引入了ERQA（Embodied Reasoning Question Answering），即具身推理问答基准测试。该基准测试专门关注在物理世界中与环境交互的具身智能代理可能需要的能力。ERQA包含400道多项选择的视觉问答（VQA）风格问题，覆盖多个类别，包括空间推理、轨迹推理、动作推理、状态估计、指向、多视图推理和任务推理。问题类型的分布见图3。在400道问题中，28%的问题包含多张图像——这类问题涉及跨图像的对应概念，通常比单图像问题更具挑战性。

ERQA与现有的VLM基准测试形成互补关系。目前的VLM基准测试主要评估更基础的能力（如物体识别、计数、定位），但大多数情况下，并未充分考虑在物理世界中执行任务所需的更广泛能力。图4展示了一些ERQA的示例问题及其答案。其中一些问题要求VLM在多个帧之间识别并匹配物体，另一些问题则需要推理物体的可供性及其与场景中其他物体的3D关系。完整的基准测试细节可在https://github.com/embodiedreasoning/ERQA找到。

在这里插入图片描述图3 | ERQA问题类别分布。

在这里插入图片描述表1 | 在多个基准测试上比较VLMs的具身推理能力评估，包括我们提出的新ERQA基准测试。基准测试通过多项选择题的准确率进行评估。结果采集于2025年2月。

在这里插入图片描述图4 | 具身推理问答（ERQA）基准测试的示例问题，答案以粗体标出。

我们对ERQA中的所有问题进行了人工标注，以确保其正确性和质量。基准测试中的图像（而非问题）来自我们自行拍摄的照片，或以下数据集：OXE（O’Neill等，2024）、UMI Data（UMI-Data）、MECCANO（Ragusa等，2021, 2022）、HoloAssist（Wang等，2023）和EGTEA Gaze+（Li等，2021）。在表1中，我们报告了Gemini模型及其他模型在ERQA上的结果，同时也包括两个广泛用于衡量空间理解和图像理解能力的流行基准测试：RealworldQA（XAI-org, 2024）和BLINK（Fu等, 2024）。具体而言，我们报告了Gemini 2.0 Flash（一种高效低延迟的核心模型）和Gemini 2.0 Pro Experimental 02-05（在本文中简称Gemini 2.0 Pro Experimental，用于复杂任务的最佳Gemini模型）的结果。Gemini 2.0 Flash和Pro Experimental在各自的模型类别中均在所有三个基准测试上达到了新的最先进水平。我们还注意到，在这三个基准测试中，ERQA是最具挑战性的，因此其表现尤其值得关注。

Gemini 2.0模型展现了高级推理能力——我们发现，如果使用思维链（Chain-of-Thought, CoT）提示（Wei等, 2022），Gemini 2.0在基准测试上的表现可以显著提升。CoT提示鼓励模型在选择多项选择题答案之前，先输出推理过程，逐步“思考”问题，而不是直接预测答案。我们在每个问题的末尾附加如下指令作为CoT提示：“逐步推理答案，并在每一步展示你的思考过程。只有在完成所有步骤后，再给出最终答案。” 结果见表2。使用CoT提示后，Gemini 2.0 Flash的表现超越了未使用CoT的Gemini 2.0 Pro Experimental，而CoT进一步提升了Gemini 2.0 Pro Experimental的表现。

在这里插入图片描述表2 | 在ERQA基准测试上使用和不使用思维链（CoT）提示的表现对比。

我们在图5中展示了两条这样的推理路径，这些问题在没有CoT的情况下，Gemini 2.0 Pro Experimental回答错误，但在使用CoT后正确回答。这些推理过程表明Gemini 2.0具备以下能力：

精准地将其空间理解能力落地到图像中的观测信息上；
利用这种落地能力，进行复杂的、逐步的具身推理。

在这里插入图片描述图5 | 使用Gemini 2.0 Pro Experimental的示例问题及推理过程。红色答案是在未使用CoT提示的情况下获得的，绿色答案是在使用CoT提示的情况下获得的。

2.2. Gemini 2.0的具身推理能力

在本节中，我们更详细地介绍Gemini 2.0的具身推理能力。同时，我们引入Gemini Robotics-ER，这是Gemini 2.0 Flash的一个版本，具备增强的具身推理能力。这些能力可以直接用于机器人应用，而无需额外的机器人专属数据或训练。Gemini 2.0能够理解图像中的多种2D空间概念：

物体检测：Gemini 2.0能够执行开放世界的2D物体检测，根据查询提供精确的2D边界框。这些查询可以是显式的（例如，指定物体名称）或隐式的（如类别、属性或功能）。
指向（Pointing）：给定任何自然语言描述，模型可以指向显式实体（如物体及其部件），也可以指向隐式概念（如可供性——“在哪里抓取”“在哪里放置”），自由空间和空间概念。定量评估见表3。
轨迹预测：Gemini 2.0能够利用指向能力生成基于观察结果的2D运动轨迹。例如，可以根据物理运动或交互描述生成轨迹。
抓取预测：Gemini Robotics-ER引入的新特性，扩展了Gemini 2.0的指向能力，可以预测自上而下的抓取点。

Gemini 2.0 还具备3D空间推理能力。凭借“3D视觉”能力，它能够更好地理解大小、距离、方向等概念，并利用这些理解推理场景状态及3D动作：

多视图对应（Multi-View Correspondence）：3D信息的自然表达方式是多视图（如立体视图）。Gemini 2.0能够从多视图图像中理解3D场景，并预测多个摄像机视角下的2D点对应关系。
3D边界框检测：Gemini 2.0能够直接从单目图像预测3D边界框。与2D检测和指向能力类似，Gemini 2.0可以通过开放词汇描述检测物体。

尽管可以为每项任务分别创建专用模型，但将这些能力融合到一个基础模型（如Gemini 2.0）中，使其能够执行具身推理任务，并基于开放世界的自然语言指令进行交互、响应反馈，并保持多轮对话。特别是，Gemini 2.0可以结合场景理解与推理来解决更复杂的任务，例如生成机器人代码（见2.3节）。

下面，我们提供Gemini 2.0模型（Flash和Pro Experimental）在这些能力上的定量与定性评估，并与其他VLMs进行对比。对于某些能力，我们还提供Gemini Robotics-ER的评估结果。你可以在这里找到如何提示Gemini 2.0以触发这些能力的代码和示例。

物体检测
Gemini 2.0可以根据自然语言查询预测2D物体边界框。在图6中，我们展示了Gemini 2.0 Flash在机器人可能遇到的图像上的多个2D检测示例。Gemini 2.0使用 $y_0, x_0, y_1, x_1$ 的坐标约定表示2D边界框。我们可以提示Gemini 2.0检测 场景中的所有物体（示例见图2 ）。此外，模型可以根据描述检测特定物体，例如，在图6中，“ 检测所有厨房用具 ”。这些描述可以 包含空间提示 *——如 “检测图像右侧的坚果” （见中间示例）。此外，我们可以提示Gemini 2.0 通过可供性（affordance）检测物体 。在图6右侧示例中，我们让Gemini 2.0检测溢出液体及“可用于清理它的物品”，模型正确地检测到了溢出液体和毛巾*，即便未被显式指定。这些示例表明，将精准的定位能力与通用VLMs结合，使得Gemini的开放词汇与开放世界推理能力能实现难以通过专门模型达到的语义泛化水平。

在这里插入图片描述图6 | Gemini 2.0 Flash的2D检测示例。左：根据物体类别检测；中：根据空间描述检测；右：根据**可供性（affordance）**检测。为了减少视觉干扰，左图和中图未显示预测的物体标签。

2D指向（Pointing）
在某些场景下，相比边界框，点能够提供更灵活且更精确的图像理解与机器人控制方式。我们在图7中展示了Gemini 2.0的指向能力在机器人操作场景中的应用。

在这里插入图片描述图7 | Gemini 2.0能够从自然语言查询预测2D点。示例由Gemini 2.0 Flash生成，预测的点标签未可视化。

模型使用 $y, x$ 元组表示点坐标。与2D物体检测类似，Gemini 2.0可以基于开放词汇语言指向任何描述的物体。

Gemini 2.0不仅可以定位整个物体，还可以指向物体的特定部分，如勺子的手柄（图7左侧）。
它还可以指向空间概念，例如**“锅左侧桌子上的空区域”（图7左侧）或“按照现有八个罐子的排列模式，指向新罐子应放置的位置”**（图7中间）。
此外，Gemini 2.0还可以推理可供性（affordance）；例如，当被要求**“指向人类会抓取的位置以拾起此物体”时，模型正确地指向了杯子的手柄**（图7右侧）。

我们在表3中使用三个基准测试对Gemini 2.0的指向能力进行了定量评估：

Paco-LVIS（Ramanathan等，2023）：用于自然图像上的物体部件指向。
Pixmo-Point（Deitke等，2024）：用于网页图像上的开放词汇指向。
Where2place（Yuan等，2024）：用于室内场景的自由空间指向。

具体如何将指向能力与其他模型进行基准测试的细节见附录B.2。Gemini 2.0在指向任务上显著超越了最先进的视觉-语言模型（VLMs），包括GPT和Claude。此外，Gemini Robotics-ER在三个子任务中击败了专门用于指向的VLM——Molmo中的两个任务。

在这里插入图片描述表3 | 2D指向基准测试，评估开放词汇指向能力。分数为准确率（若预测点在真实值区域内，则得1分，否则为0）。

2D轨迹（2D Trajectories）
Gemini 2.0能够利用其指向能力来预测2D轨迹，将多个点连接在一起。尽管Gemini 2.0无法执行复杂的运动规划（例如避障路径规划），但它仍然能够基于观测图像生成有意义的轨迹。一些示例展示在图8中。

左图和中图：Gemini 2.0从第一视角视频中的人手推理出合理的轨迹，以连接至其可能抓取的工具。
右图：Gemini 2.0预测了一系列路径点，如果机器人夹爪沿该路径点运动，则可以擦拭托盘上溢出的液体。

Gemini 2.0的轨迹预测能力反映出它对运动和动力学的世界知识，这对于机器人而言是基本能力。在4.2节，我们进一步利用这一新兴的轨迹理解能力，使行动与视觉和语言能力更加紧密结合。

在这里插入图片描述图8 | Gemini 2.0能够通过预测起点和终点来推理2D轨迹。示例由Gemini 2.0 Flash生成，预测的点标签未可视化。

自上而下抓取（Top-Down Grasps）
Gemini 2.0的语义指向能力可以自然扩展至自上而下的抓取。我们可以提示Gemini 2.0预测自上而下的抓取点，其表示方式为** $y, x$ 坐标以及旋转角度 $\theta$ **。

这一能力在Gemini Robotics-ER中得到了进一步增强，示例如图9所示。例如，我们可以让模型预测抓取香蕉的茎部或香蕉中心（右侧示例）。在2.3节，我们展示了如何将这些抓取预测直接用于现实机器人控制。

在这里插入图片描述图9 | Gemini Robotics-ER能够利用Gemini 2.0的2D指向能力预测自上而下的抓取点。示例由Gemini Robotics-ER生成。

多视图对应（Multi-View Correspondence）
Gemini 2.0还具备理解3D世界结构的能力。其中一个例子是多视角3D场景理解。

例如，在初始图像中标注一组点，然后提供相同场景的另一视角图像，我们可以询问Gemini 2.0哪些点在新图像中仍然可见，并查询这些点的坐标。

从图10中的示例可以看出，Gemini 2.0能够在显著不同的视角之间执行多视图对应任务：

上方图像对：模型正确预测了红色点，并识别出它对应于第一视角图像中人手持的物体，即便整个场景的视角发生了显著变化。
下方图像对：模型正确预测了橙色点在第二张图像中不可见。

这种多视图理解能力在机器人领域尤为重要。例如，机器人可以利用Gemini 2.0对多个图像流（如立体相机视图、头部摄像头视图和腕部摄像头视图）进行推理，从而更好地理解其观测到的3D空间关系。

在这里插入图片描述 图10 | Gemini 2.0能够通过关联不同视角的2D点来理解3D场景。对于每对图像，左侧图像包含标注点坐标，右侧图像不包含坐标。模型的任务是预测哪些点在右侧图像中仍然可见，并给出可见点的坐标。示例由Gemini 2.0 Flash生成。

3D检测（3D Detection）
Gemini 2.0 还能够直接从单张图像预测3D度量边界框。与其2D检测能力类似，Gemini 2.0 的3D检测能力也支持开放词汇查询，示例如图11所示。在表4中，我们报告了 Gemini 2.0 在 SUN-RGBD（Song等, 2015）数据集上的3D检测表现。SUN-RGBD是一个广泛用于3D物体检测和场景理解的主流数据集和基准测试。我们将 Gemini 2.0 的表现与现有的基准专家模型进行了对比，包括ImVoxelNet（Rukhovich等, 2022）、Implicit3D（Zhang等, 2021）和Total3DUnderstanding（Nie等, 2020）。Gemini 2.0 的3D检测表现可与当前最先进的专家模型相媲美，而Gemini Robotics-ER 在 SUN-RGBD 基准测试上达到了新的最先进水平。值得注意的是，这些基准模型使用的是封闭类别集，而 Gemini 2.0 可以处理开放词汇查询，进一步提升其适用性。

在这里插入图片描述表4 | Gemini Robotics-ER 在SUN-RGBD 3D物体检测基准测试上达到了新的最先进水平。(* ImVoxelNet（Rukhovich等, 2022）的性能是在一个较简单的10个类别集上测得的)。

在这里插入图片描述 图11 | Gemini 2.0能够直接预测开放词汇的3D物体边界框。示例由Gemini 2.0 Flash生成。

2.3. Gemini 2.0支持零样本和少样本机器人控制

Gemini 2.0 的具身推理能力使其能够控制机器人，即使没有接受任何机器人动作数据训练。它能够一站式完成所有必要的任务，包括感知、状态估计、空间推理、规划和控制。

以往的研究通常需要组合多个模型才能实现这些功能（Ahn等, 2022；Kwon等, 2024；Liang等, 2023；Vemprala等, 2023），而 Gemini 2.0 在单个模型中融合了所有必需的能力，极大简化了机器人控制流程。

在本节中，我们探讨两种不同的机器人控制方法：

零样本（zero-shot）机器人控制——通过代码生成控制机器人。
少样本（few-shot）控制——通过上下文学习（in-context learning, ICL），基于少量示例适应新行为。

Gemini Robotics-ER 在两种控制方式下的任务完成率均表现良好，尤其是在零样本机器人控制方面，其性能与具身理解能力的提升密切相关。Gemini Robotics-ER 经过更全面的训练，在此方面的任务完成率相比Gemini 2.0 提高了近2倍。

零样本控制（Zero-shot Control）——通过代码生成
为了测试 Gemini 2.0 的零样本控制能力，我们将其代码生成能力与具身推理能力（2.2节）相结合，并在双臂机器人ALOHA 2（Team等, 2024；Zhao等, 2025）上进行实验。

在控制机器人时，Gemini 2.0 可以调用API（Arenas等, 2023；Kwon等, 2024；Liang等, 2023），该API能够执行以下操作：

控制夹爪到指定姿态。
打开和关闭夹爪。
读取当前的机器人状态。
进行环境感知（Gemini 2.0 本身负责物体检测、关键点预测和自上而下的抓取姿态生成，无需外部模型调用）。

在 一个控制回合（episode） 中，Gemini 2.0 依次执行以下步骤：

接收系统提示（system prompt），包括机器人API的说明和任务指令。
逐步接收场景的实时图像，包含当前环境状态、机器人状态和执行反馈。
生成代码，代码将在机器人环境中执行，以控制机器人的行为。
基于执行反馈进行自适应调整和重新规划（replan），例如图34所示。

API的整体结构和回合控制流程如图12所示。

在这里插入图片描述 图12 | 感知与控制API的概览，以及在一个控制回合中的智能编排。该系统用于零样本控制。

表5 展示了在模拟环境中执行一组操作任务的结果。这些任务涵盖了不同难度和物体类型，从简单的抓取任务（如抬起香蕉）到长时序、多步骤、多任务的操作（如将玩具放入盒子并关闭盒子）。完整的任务描述见附录B.3.1。

在这里插入图片描述表5 | ALOHA 2模拟任务集（ALOHA 2 Sim Task suite）的成功率。数据为50次随机初始条件实验的平均成功率。

Gemini 2.0 Flash 平均成功率为27%，其中对于较简单的任务，成功率最高可达54%。相比之下，Gemini Robotics-ER 的表现几乎是Gemini 2.0 Flash的两倍，其平均任务成功率达到53%。这表明 Gemini Robotics-ER增强的具身推理能力 显著提高了下游机器人操作任务的表现。

表6 展示了在真实ALOHA 2机器人上的实验结果。香蕉传递任务的成功率相比模拟环境有所下降，这主要是由于校准误差及真实世界噪声的影响。对于更复杂的灵巧操作任务（如折叠衣物），Gemini Robotics-ER 目前仍无法完成，主要原因是其抓取精度不够高。

在这里插入图片描述表6 | Gemini Robotics-ER在真实ALOHA 2机器人任务中的成功率。香蕉传递任务的成功率取10次实验的平均值，折叠衣物和擦拭任务的成功率取9次实验的平均值。对于需要高度灵巧操作的任务，零样本成功率仍然较低，但在Gemini Robotics模型（见第3节）中将有显著提升。

少样本控制（Few-shot Control）——通过上下文示例（In-Context Learning, ICL）
前述结果证明了 Gemini Robotics-ER 可以完全依赖零样本（zero-shot）方式解决一系列任务。然而，某些高度灵巧的操作任务仍然超出了 Gemini 2.0 当前的零样本能力。针对这些挑战，我们展示了一种少样本（few-shot）学习方法，即利用少量上下文示例（in-context demonstrations）来对模型进行条件约束，使其能够快速模仿新行为。与前述示例中使用代码生成不同，这里我们提示（prompt）模型直接生成机器人末端执行器的轨迹，并使其遵循演示示例中的行为模式。我们扩展了 Di Palo 和 Johns（2024） 提出的方法，该方法将 $k$ 条遥操作轨迹 转换为一系列物体和末端执行器位姿，并将其标记化为文本后添加到模型的提示中（见图13）。借助 Gemini Robotics-ER 的具身推理能力，我们无需使用外部模型来提取视觉关键点和物体位姿（该方法在原始研究中需要依赖额外模型），因为 Gemini Robotics-ER 本身就能完成这些任务。除了观测信息和动作数据外，我们还在提示中交错插入任务的语言描述，以引导模型在推理时形成自然语言推理。这种方式使模型能够更好地理解何时使用哪只机械臂，或更准确地预测与物体交互的位置。使用大型多模态模型的优势之一是它能够结合观察、动作和语言信息，这种多模态组合的效果优于单一模态的信息。

在这里插入图片描述 图13 | 少样本上下文学习（Few-shot In-Context Learning, ICL）流程概览。Gemini可以接收观测信息、语言指令和轨迹示例，并在此基础上为新任务实例生成新的语言推理和轨迹。

使用这种方法（提供10次演示）的实验结果见 表5 和表6。

Gemini 2.0 Flash 在模拟环境中的成功率达到 51%。
Gemini Robotics-ER 在模拟环境和真实世界中的成功率均达到了 65%。

相较于零样本代码生成方法，这种方法的主要性能提升来源于更复杂的灵巧操作任务，例如：

物品传递（handover of objects）
折叠衣物（folding a dress）
玩具包装（packing a toy）

在这些任务中，示例演示可以约束模型生成更精确的双臂轨迹，从而提高任务成功率。

这一系列实验表明，Gemini 2.0 Flash 及其具身推理增强版本 Gemini Robotics-ER 可以直接用于机器人控制，包括：

作为感知模块（如物体检测）；
作为规划模块（如轨迹生成）；
通过生成和执行代码来协调机器人运动。

实验还表明，模型的具身推理能力与下游机器人控制的性能之间存在强相关性。同时，我们的实验也证明，该模型能够利用上下文学习（in-context learning），仅凭少量示例就能提高更复杂的灵巧双臂任务（如折叠衣物）的执行能力，并能够直接输出末端执行器的轨迹以完成任务。

然而，作为VLM（视觉-语言模型），该模型在机器人控制方面仍然存在固有局限性，尤其是在更复杂的灵巧操作任务上。这主要是因为需要额外的中间步骤来将模型的具身推理能力与机器人执行动作关联起来。

在接下来的章节中，我们将介绍Gemini Robotics，这是一种端到端的视觉-语言-行动（Vision-Language-Action, VLA）模型，能够实现更通用且更灵巧的机器人控制。

3. 使用 Gemini Robotics 执行机器人动作

在本节中，我们介绍 Gemini Robotics，它是 Gemini Robotics-ER 的一个衍生版本，经过微调以直接预测机器人动作。Gemini Robotics 是一个通用模型，能够在不同环境下解决灵巧任务，并支持不同的机器人形态。

我们首先研究该模型在大规模、多样化的数据集上训练后的表现，该数据集包含标注了动作的机器人数据及其他多模态数据。训练后的模型可以开箱即用地完成多种短时序灵巧任务（见 3.2 节），并且能够紧密遵循自然语言指令（见 3.3 节）。此外，它继承了 Gemini Robotics-ER 的泛化能力，在场景视觉变化、物体位置变化和物体实例变化方面表现出鲁棒性（见 3.4 节）。

在 第 4 节，我们进一步测试 Gemini Robotics 的极限能力，并针对高难度的长时序灵巧任务（见 4.1 节）及极端泛化场景（见 4.2 节）进行专门化训练。此外，我们还研究了其对全新灵巧任务的快速适应能力（见 4.3 节），以及对全新形态机器人的适应能力，包括不同的结构形式、动作模式和感知输入（见 4.4 节）。

3.1. Gemini Robotics：模型与数据

模型（Model）
在大型 VLM（如 Gemini Robotics-ER） 中，推理速度通常较慢，并且需要专用硬件。这可能会影响 VLA（视觉-语言-行动）模型 在机器人实时控制中的可行性。为了应对这些挑战，Gemini Robotics 采用了双组件架构：

VLA主干（Gemini Robotics backbone）：托管在云端，负责视觉-语言推理。
本地动作解码器（Gemini Robotics decoder）：运行在机器人板载计算机上，负责动作执行。

Gemini Robotics backbone 由 Gemini Robotics-ER 的一个精炼版本（distilled version） 组成，其查询-响应延迟已优化至小于 160ms（相比原始模型减少了数秒）。

为了补偿 VLA 主干的延迟，Gemini Robotics decoder 在本地执行低级控制。

当主干和本地解码器结合时，从原始感知输入到低级动作块（action chunks）的端到端延迟约为 250ms。
由于每个动作块可包含多个动作，因此有效控制频率可达 50Hz。

整体系统不仅能够在主干延迟的情况下仍然保持流畅、响应迅速的运动，还保留了主干模型的泛化能力。模型架构概览见 图14。

在这里插入图片描述 图14 | Gemini Robotics模型的架构、输入和输出概览。Gemini Robotics 是 Gemini Robotics-ER 的一个衍生版本，经过微调以预测机器人动作。该模型接收多模态提示（multimodal prompt），输入包括：

场景当前状态的一组图像
任务的文本指令

模型的输出是一系列动作块（action chunks），由机器人执行。

Gemini Robotics 由两个主要组件组成：

VLA主干（Gemini Robotics backbone）——在云端运行的视觉-语言-行动核心网络。
本地动作解码器（Gemini Robotics decoder）——在机器人板载计算机上运行的动作执行模块。

数据（Data）
我们在 ALOHA 2 机器人机群（Team等, 2024；Zhao等, 2025）上采集了大规模的遥操作机器人动作数据集，时间跨度超过 12 个月，包含数千小时的真实世界专家机器人演示数据。

该数据集包含数千种不同的任务，涵盖：

多样化的操作技能
不同的物体类型
不同的任务难度
不同的时间跨度
不同的灵巧操作要求

此外，训练数据还包括非动作数据，如：

网页文档
代码
多模态内容（图像、音频、视频）
具身推理数据
视觉问答数据（VQA）

这些额外的数据显著提升了模型对机器人任务的理解、推理和泛化能力。

基线模型（Baselines）
我们将 Gemini Robotics 与两种最先进的基线模型进行对比：

$\pi_0$ re-implement
- 该模型是我们对开源最先进的 $\pi_0$ VLA 模型（Black等, 2024）的重新实现版本。
- 我们在相同的数据集上训练该模型，并发现其性能优于原始公开的 $\pi_0$ 检查点，因此我们将其作为最强的 VLA 基线（更多细节见 附录C.2）。
多任务扩散策略模型（Multi-task Diffusion Policy）
- 受 ALOHA Unleashed（Zhao等, 2025）启发，但进行了任务条件化修改。
- 该模型在多模态演示数据上训练，被证明在学习灵巧技能方面有效。

所有基线模型均使用相同的数据组合训练至收敛，以确保公平对比。

Gemini Robotics 主要在云端运行，并结合本地动作解码器，而两个基线模型均在本地运行，依赖Nvidia RTX 4090 GPU 进行推理。

所有实验结果均基于严格的真实机器人实验，并经过 A/B 测试 和 统计分析（更多细节见 附录C.1）。

3.2. Gemini Robotics 可直接解决多种灵巧操作任务

在我们的第一组实验中，我们证明了Gemini Robotics 能够解决广泛的灵巧操作任务。我们评估该模型在短时序灵巧任务上的表现，并将其与最先进的多任务基线模型进行对比。

所有模型均在开箱即用（out of the box）的条件下进行评测，即不进行任何任务特定的微调或额外提示。测试任务从3.1节的数据集中随机抽取 20 个任务。

我们选择了多种不同的场景（部分示例见图15），包括：

洗衣房（例如**“折叠裤子”**）；
厨房（例如**“堆叠量杯”**）；
杂乱的办公桌（例如**“打开粉色文件夹”**）；
其他日常活动（例如**“打开眼镜盒”**）。

这些任务的灵巧需求各不相同，从简单的抓取和放置（如**“从桌子中央拾取鞋带”），到需要双手协调的可变形物体操控**（如**“缠绕耳机线”**）。

我们在图15中展示了 Gemini Robotics 在这些任务上的示例执行过程，完整任务列表见附录C.1.1。

在这里插入图片描述 图15 | 机器人在复杂环境中执行灵巧操作的示例任务。
从上到下：“打开眼镜盒”，“倒出豆类”，“解开文件夹”，“缠绕耳机线”。

图16 总结了我们的模型与基线模型的整体性能。实验表明，Gemini Robotics在一半的任务中表现出色，成功率超过80%。值得注意的是，我们的模型在可变形物体操控方面表现尤为优异（如**“折叠粉色布料”、“缠绕耳机线”），而基线模型在这些任务上表现不佳**。对于更具挑战性的任务（如**“打开粉色文件夹”、“插入红色积木”、“缠绕耳机线”），Gemini Robotics是唯一能够取得非零成功率的方法。这凸显了高容量模型架构与多模态（视觉、语言、动作）高质量多样化数据结合的重要性，这些因素对于多任务策略学习至关重要。然而，我们发现某些 最复杂的灵巧任务仍然较难 ，单纯依赖多任务训练仍难以学习到（如“插入鞋带”）。在 4.1节 ，我们将探讨Gemini Robotics的专门化策略**，以解决这些更长时序的高难度任务。

在这里插入图片描述 图16 | Gemini Robotics能够直接解决多种任务。我们从数据集中随机抽取 20 个任务，这些任务的灵巧需求不同，并使用 Gemini Robotics 和基线模型进行对比实验。结果表明，Gemini Robotics 显著优于基线模型。

3.3. Gemini Robotics 能够精确遵循语言指令

第二组实验测试了模型遵循自然语言指令的能力。我们选取25条语言指令，并在5个不同的评估场景中进行测试，包括训练场景以及包含未见过物体和容器的全新场景（详细信息见附录C.1.2）。本次评估主要关注需要精确执行的语言指令（例如 “将蓝色夹子放在黄色便签的右侧”），而非开放式的抽象指令（如 “清理桌子”）。实验结果的可视化及二元任务成功率见图17。

实验表明，高质量的多样化数据与强大的视觉-语言主干模型相结合，使模型具备了高度可控性（steerability）。Gemini Robotics 和 $\pi_0$ re-implement 在分布内场景（in-distribution scenes）下的表现优于扩散基线模型（diffusion baseline），表明强大的语言编码能力是必要的。然而，在具有挑战性的场景（例如包含新物体和细粒度指令的任务，如 “将牙膏放入盥洗架底部隔间” ），我们发现 Gemini Robotics 的表现优于所有基线模型 （见 图17）。

尽管基于 PaliGemma 的 $\pi_0$ re-implement 在处理训练期间见过的物体时表现良好，但在解析描述性语言属性（如 “顶部黑色容器”、“蓝色夹子”）方面存在困难，并且在处理未见过的物体和语言描述时表现不佳。

在这里插入图片描述 图17 | Gemini Robotics能够在复杂场景中精确执行全新的语言指令，即便这些场景在训练期间从未见过。

左侧：场景中包含训练时见过的物体。
中间：场景中包含全新物体。
右侧：在“拾取（Pick）”和“拾取并放置（Pick and Place）”任务中，针对新物体的详细指令下的成功率。

3.4. Gemini Robotics 将 Gemini 的泛化能力扩展至物理世界

泛化能力不足是机器人在家庭和工业应用中实现大规模部署的关键瓶颈。在最后一组实验中，我们评估了 Gemini Robotics 在三个重要维度上的泛化能力，这些维度在以往研究（Gao等, 2025）中被认为至关重要：

视觉泛化（Visual Generalization）
- 模型应对场景的视觉变化保持不变性，即视觉变化不应影响任务执行的动作。
- 这些变化可能包括：
  - 背景变化
  - 光照条件变化
  - 干扰物体的存在
  - 物体的纹理变化
指令泛化（Instruction Generalization）
- 模型应理解自然语言指令的等效性和不变性。
- 在超越3.3节研究的精细化可控性的基础上，模型应具备：
  - 对同义改写（paraphrasing）的理解能力
  - 对拼写错误（typos）的鲁棒性
  - 跨语言理解能力
  - 适应不同详细程度指令的能力
动作泛化（Action Generalization）
- 模型应能够适应已学动作或合成新动作，以泛化到新的初始条件（如物体位置变化）或新的物体实例（如形状或物理属性不同的物体）。

我们使用多样化任务集评估 Gemini Robotics 与基线模型的泛化性能。该基准测试共包含 85 项任务，其中：

20% 为训练分布内任务
28% 用于评估视觉泛化
28% 用于评估指令泛化
24% 用于评估动作泛化

图18 - 图20 展示了该任务集中三种不同类型的泛化任务示例。完整的任务分解见附录C.1.3。

在这里插入图片描述 图18 | 用于评估视觉泛化能力的任务示例。

左侧：分布内场景（in-distribution scene）。
从左至右：场景可能包含新的干扰物、不同的背景或不同的光照条件。

在这里插入图片描述 图19 | 用于评估指令泛化能力的任务示例。

左侧：分布内指令（in-distribution instruction）。
从左至右：任务指令可能包含拼写错误、使用不同语言表达，或以不同句式和详细程度描述相同任务。

在这里插入图片描述 图20 | 用于评估动作泛化能力的任务示例。

左侧：显示与分布内任务不同的初始物体位置。
右侧：显示新的物体实例与训练数据中的物体实例的区别。
- 例如，在“折叠衣服”任务中，我们测试了不同尺寸的衣服（训练时为S码，新实例为M码和XS码）。
对于这两种变化（初始条件、物体实例），模型需要调整先前学到的动作，例如：
- 调整机械臂的到达路径以适应新的空间布局。
- 适应不同形状或尺寸的物体进行操控。

图21 报告了平均任务进度得分，该指标比二元任务成功率更具连续性，使我们能更细粒度地分析各任务策略的进展，尤其是困难任务（每个任务的进度得分定义见附录C.1.3.3）。此外，我们在附录图40中提供了基于成功率的同类图表。

在这里插入图片描述 图21 | Gemini Robotics 泛化能力分解。

Gemini Robotics 在所有三个泛化类别上均优于基线模型，并能更有效地处理各种变化。
即使基线模型在某些情况下发生灾难性失败（如遇到新语言的指令或目标物体的视觉变化），Gemini Robotics 仍能取得非零表现。

Gemini Robotics 在所有三种泛化类型上均明显优于基线模型，并能更有效地适应各种变化（如图21所示）。即使在基线模型发生灾难性失败（如遇到新语言的指令）的情况下，Gemini Robotics 仍能取得非零成功率。

我们推测这些改进的原因在于：

更强大、更高容量的 VLM（视觉-语言模型）主干网络
Gemini 2.0 中最先进的视觉编码器
多样化的训练数据 共同提升了模型的泛化能力。

4. 使 Gemini Robotics 专门化并适应灵巧操作、推理及新形态机器人

Gemini Robotics 是一个强大的机器人通用模型，能够完成多种灵巧任务，并在无需微调的情况下表现出非平凡的泛化能力。在本节中，我们进一步测试模型的极限能力，并探索未来可能的优化方向，以进一步增强其通用性。

具体而言，我们研究以下四个方面：

测试模型在更具挑战性的长时序灵巧任务上的能力，并通过专门化使其精通这些任务。
优化模型的语义驱动具身推理能力，以增强泛化性。
探索快速适应新任务和新环境的可能性。
研究如何适应全新的机器人形态，包括不同的机械结构、动作模式和感知输入。

其中，(1) 和 (2) 提供了未来改进模型的重要信息，而**(3) 和 (4) 是模型在实际部署中所需的重要特性**。

4.1. 长时序灵巧任务

在3.2节，我们展示了 Gemini Robotics 在短时序灵巧任务上的出色表现。在本节中，我们进一步研究：通过在小规模高质量数据集上进行微调，是否能够使模型专门化，从而解决更具挑战性的长时序灵巧任务。

我们选择了六个高难度任务来测试模型在专门化后的能力，示例任务的执行过程见图22。

在这里插入图片描述 图22 | Gemini Robotics 在 ALOHA 机器人平台上成功完成多种长时序灵巧任务。从上到下依次为：“折纸狐狸”、“整理午餐盒”、“拼写字母棋盘游戏”、“玩纸牌游戏”、“用夹子将豌豆夹加入沙拉”、“用勺子将坚果加入沙拉”。

折纸狐狸（Make an origami fox）

机器人需要将一张纸折叠成狐狸头的形状。
该任务需要执行4次精确的折叠，每一步都涉及对齐、弯折、捏合和压折，并随着纸层数的增加，难度逐步上升。
任务挑战：
- 双臂协调的精准性要求极高，即便是微小的误差都可能导致不可逆的失败。

整理午餐盒（Pack a lunch-box）

机器人需要将多个物品整理进午餐袋：
1. 先将一片面包插入塑料袋的狭窄开口，然后拉链封口。
2. 将封好的塑料袋和能量棒放入午餐袋中。
3. 将葡萄转移到容器中，封好盖子，再放入午餐袋。
4. 最后拉链封闭午餐袋。
任务挑战：
- 任务涉及多个复杂子任务（如插入面包、封闭容器盖、拉链开合），需要精确的双臂协调和夹爪控制。

拼写字母棋盘游戏（Spelling board game）

游戏规则：
1. 人类玩家在机器人面前放置或绘制某个物体的图片。
2. 机器人需要识别该物体，并用字母棋盘拼出三字母的单词来描述该物体。
任务挑战：
- 该任务要求机器人具备视觉识别能力，并能实现紧密的视觉-语言-行动映射。

玩纸牌游戏（Play a game of cards）

机器人需要操作自动发牌机，抽取三张纸牌并转移到另一只手。
机器人需要等待人类玩家出牌，然后打出一张手牌，最后整理剩余手牌。
任务挑战：
- 机器人必须能够精准地传递薄纸牌，并具备精细的手部操控能力，以确保正确地抓取和出牌。

用夹子将豌豆夹加入沙拉（Add snap peas to salad）

机器人需要使用金属夹子从碗中夹取豌豆夹，并将其放入另一只碗。
任务挑战：
- 该任务要求机器人具备双臂协调能力：
  - 一只手持夹子
  - 另一只手施加压力以完成抓取和释放。

用勺子将坚果加入沙拉（Add nuts to salad）

机器人需要使用勺子，从竖立容器中舀取坚果，并将其倒入沙拉碗。
任务挑战：
- 舀取动作需要精确控制，以确保成功地从高容器中取出坚果并倒入目标位置。

这些实验表明，通过针对特定任务的高质量微调数据，Gemini Robotics 可以扩展其通用灵巧操作能力，在长时序、高难度任务上展现更专业化的表现。

我们为每个任务精选2000至5000个高质量演示数据回合，并使用每个专门化数据集对第3节中的Gemini Robotics检查点进行微调。我们将这些专门化模型的性能与基线模型的专门化版本（即 $\pi_0$ re-implement specialist 和 Multi-task diffusion specialist）进行比较，这些基线模型也在相同数据集上进行了微调。

此外，为了评估第3节中多样化训练数据的重要性，我们训练了两个对比模型：

从零开始训练的单任务扩散策略模型（Single task diffusion policy）。
从零开始训练的 Gemini Robotics 专门化模型（未使用第3节的检查点）。

我们在真实环境中对所有模型进行了广泛评估，并在图23中报告了任务成功率（进度得分结果见附录图42）。

每个任务执行20次实验，
仅在拼写字母棋盘游戏任务上执行12次实验。

实验结果

我们的专门化模型在所有任务上的平均成功率达到79%。
午餐盒整理任务（Lunch-box）成功率达100%，该任务持续超过2分钟，涵盖多个子任务。
拼写游戏（Spelling game）：
- 能够正确读取和拼写专门化数据集中出现的印刷图片单词。
- 在6个从未见过的手绘草图中，正确拼写4个。
- 所有基线模型均无法稳定识别图像并正确拼写单词。

对于较简单的灵巧任务，我们发现：

从零开始训练的单任务扩散模型 在简单任务上的表现较好，与当前最优研究结果一致（Zhao等, 2025）。
但在拼写游戏、折纸、午餐盒整理等长时序任务上，该模型表现不佳，可能是由于这些任务的复杂性较高。

此外，我们发现：

Multi-task diffusion 和 $\pi_0$ re-implement specialist 在相同数据上的微调后，仍然无法达到Gemini Robotics 的性能水平，这与图16中的发现一致。
Gemini Robotics 的关键优势在于其更强大的 Gemini-based 主干网络，这表明：
- 在复杂任务上取得成功的专门化能力，与通用模型的强大性高度相关。

最后，当我们直接从零开始训练 Gemini Robotics 专门化模型，仅使用专门化数据集时，发现其无法解决任何任务（所有任务成功率均为0%，因此未在图23中展示）。

这表明：除了高容量模型架构之外，
- 在第3节中通过多样化机器人动作数据集学习到的表示能力和物理常识，也是模型成功专门化到高难度长时序灵巧任务的关键因素。

在这里插入图片描述 图23 | 专门化训练后在新灵巧长时序任务上的表现。

Gemini Robotics 是唯一能稳定完成极端挑战性任务（如“折纸狐狸”和“午餐盒整理”）的模型，午餐盒任务的成功率达到100%，而基线模型在这些任务上均表现不佳。
基线模型在较简单任务（如“舀取坚果”、“玩纸牌”、“放置豌豆”）上表现较为接近。
但在拼写游戏任务上，仅有 Gemini Robotics 成功，不仅能准确拼写印刷图片卡片中的单词，甚至在从未见过的手绘草图上也能达到超过60%的正确率。

4.2. 增强推理能力与泛化能力

我们现在探讨如何充分利用 Gemini Robotics-ER 的新型具身推理能力（如空间理解、物理理解和世界知识），以指导低级机器人动作，适用于比3.4节更需要推理能力和泛化能力的场景。尽管先前研究表明 VLA（视觉-语言-行动）模型 在视觉鲁棒性方面取得了一定进展，但目前仍然面临抽象推理能力保留及其在行为泛化中的应用的重大挑战（Brohan等, 2023；Kim等, 2025）。为了解决这一问题，我们研究了一种微调过程，该过程利用3.1节机器人动作数据集的重新标注版本，使动作预测更接近新引入的具身推理能力，包括轨迹理解和生成（见2.2节）。此外，我们扩展了 3.1节 的本地动作解码器，使其能够将这些推理中间变量转换为连续的低级动作。

我们将增强推理版本的 Gemini Robotics 与3.1节中的基础 Gemini Robotics 模型进行了比较，测试场景均为训练分布外的真实机器人任务（3.1节）。这些具有挑战性的场景结合了3.4节研究的分布偏移，要求模型同时具备指令泛化、视觉泛化和动作泛化能力。我们在本节概述了高层次评估类别，完整的任务指令和描述见附录D.2。

评估任务类别

单步推理（One-step Reasoning）

任务要求：
- 指令间接指定目标物体或操作方式，如通过属性或可供性（affordance）。
示例任务：“将右下角的鼠标分类至匹配的堆”
- 目标是将右下角的白色玩具鼠标分类至白色鼠标的堆，而不是误分类至棕色或灰色鼠标的干扰堆。
- 该任务涉及的所有鼠标以及基于颜色的物品分类任务均未出现在训练分布的动作标签中。

语义泛化（Semantic Generalization）

任务要求：
- 需要超越3.4节所研究的泛化能力，并结合更复杂的语义和视觉理解。
示例任务：“将日本鱼类 delicacy 放入午餐盒”
- 机器人必须确定寿司是目标物体，并将其放入午餐盒，而不是错误地选择其他干扰物体。

空间理解（Spatial Understanding）

任务要求：
- 需要理解相对和绝对空间关系的概念。
示例任务：“将最小的可乐放入午餐盒”
- 机器人必须选择小罐装可乐，而非其他标准尺寸的可乐，并放入午餐盒。
- 该任务评估的空间概念（如“最小的”）在训练数据的动作标签中未曾出现。

实验结果

图24 展示了基础 Gemini Robotics 模型与增强推理版本在真实世界评估任务中的成功率对比。

基础模型仍然表现合理，但在分布外任务上的成功率明显低于增强推理版本。
增强推理版本在需要单步推理、规划、语义知识和空间理解的任务中，显著提升了成功率。
除了提升模型在新环境中的部署能力，增强推理版本还提高了可解释性，因为模型能够输出类似人类可理解的具身推理过程（如Gemini Robotics-ER 的推理轨迹）。

在这里插入图片描述 图24 | 需要具身推理能力的真实机器人任务的性能表现。
在重新标注的动作数据集上进行微调后，模型的动作预测能力得到了增强，使其能泛化至包含多种分布偏移的新情况。

在图25中，我们展示了关键点轨迹的可视化，该轨迹作为模型内部推理链的一部分：

轨迹展示了左臂（红色）和右臂（蓝色）在未来1秒内的预测运动路径。
这进一步表明，具身推理能力可以有效用于机器人运动规划，并为更复杂的推理任务提供了坚实基础。

在这里插入图片描述
图25 | 增强推理版本的 Gemini Robotics 预测的轨迹可视化，作为模型内部**思维链（Chain of Thought）**的一部分。

红色轨迹：左机械臂的预测运动路径。
蓝色轨迹：右机械臂的预测运动路径（未来1秒）。
轨迹体现了模型利用具身推理知识进行运动规划的过程。

4.3. 快速适应新任务

机器人基础模型 通过利用 预先获取的机器人动作和物理交互常识，有望实现快速任务学习。4.1节 研究了模型在长时序、高度灵巧任务上的专门化能力，而本节则探讨了另一端的任务范围：我们的通用模型在新短时序任务上的适应速度。

具体而言，我们从先前的长时序任务中选取了八个子任务（详见附录D.3.1），并调整用于微调3.1节检查点的数据量。图26 展示了每个任务的平均成功率随示范次数的变化情况。

在这里插入图片描述 图26 | 在有限示范次数下，Gemini Robotics 能够快速适应新任务。

在8个任务中，有7个任务在最多100次示范后成功率超过70%，并且在两个任务上达到100%成功率。
基线模型在较简单任务上表现良好，但 Gemini Robotics 在更具挑战性的任务（如“折纸第一折”和午餐盒操作） 上更具优势，即使示范次数少于100次。

在八个任务中，有七个任务在最多100次示范（相当于15分钟至1小时的示范时间，具体取决于任务复杂度）后，成功率超过70%。
值得注意的是，在两个任务中，Gemini Robotics 达到了100%的成功率。
基线模型 在简单任务上表现较为接近：
- 例如 “倒入生菜” 任务中，基线模型的学习效率更高。
- 在 “添加沙拉酱” 和 “抽取纸牌” 任务中， $\pi_0$ re-implement 略微优于 Gemini Robotics。
然而，基线模型在 更复杂的任务（如“折纸狐狸的第一折”或午餐盒操作任务） 上表现不佳，尤其是在示范次数有限的情况下。

这一实验结果再次证明，强大的VLM（视觉-语言模型）主干网络 对于快速学习新任务至关重要，因为它能够更有效地将丰富多样的机器人动作数据转化为对物理交互的深入理解。

4.4. 适应新机器人形态

在初步实验中，我们还研究了如何高效地将 Gemini Robotics 模型适应到新的机器人形态。原始模型在 ALOHA 2 机器人上训练，而本节研究如何在目标平台上使用少量数据进行微调。

我们测试了两个新的机器人形态：

双臂 Franka 工业机器人，带有并联夹爪。
Apptronik 的 Apollo 全尺寸人形机器人，配备五指灵巧手。

图27 展示了这两种机器人在不同任务中的示例。

在这里插入图片描述 图27 | Gemini Robotics 模型可微调至控制不同机器人。

上图：Apollo 人形机器人执行午餐盒整理任务。
下图：双臂 Franka 工业机器人组装工业皮带轮系统。

微调后，我们发现：

在分布内任务上，Gemini Robotics 的成功率与最先进的单任务扩散策略（Single Task Diffusion Policy）相当，甚至略优。
例如，在双臂 Franka 机器人上微调后的 Gemini Robotics 模型，能够在所有测试任务上取得平均63%的成功率（任务详情及成功率图见附录D.4）。
我们进一步研究了该模型在视觉干扰、初始条件变化和物体形状变化下的鲁棒性（见附录D.4.2）。

图28 展示了当 Gemini Robotics 适应到新的机器人形态（双臂 Franka 机器人）后，各项泛化指标的表现。

在这里插入图片描述 图28 | 当 Gemini Robotics 适应到新的机器人形态（双臂 Franka 机器人）时的泛化能力分解。

在视觉泛化和动作泛化测试中，Gemini Robotics 始终优于扩散基线模型。
未对比指令泛化能力，因为单任务扩散基线模型不接受语言指令。

在视觉泛化和动作泛化测试中，Gemini Robotics 显著优于单任务扩散基线。
这一结果表明，即使经过针对新形态的微调，Gemini Robotics 仍然能够保留其鲁棒性和泛化能力，并成功迁移到不同的机器人形态。

5. 负责任的开发与安全性

我们在本报告中介绍的模型均符合 Google AI 原则（Google, 2025）以及先前发布的 AI 技术标准（Gemini-Team等, 2023；Kavukcuoglu等, 2022）。
确保 AI 被负责任地构建和使用是一个持续迭代的过程，这不仅适用于文本和图像生成模型，也同样适用于机器人基础模型。

由于本报告介绍的模型具有数字-物理混合特性，并且最终使机器人能够在物理世界中执行操作，因此需要特殊的安全考量。
在 Google DeepMind 责任与安全委员会（RSC） 以及 负责任开发与创新团队（ReDI） 的指导下，我们识别了使用这些模型的潜在风险，并制定了安全缓解框架，涵盖**具身推理（embodied reasoning）和动作输出（action output）**两种模式。

机器人安全性概述
传统的机器人安全性 是一个广泛且多方面的研究领域，涵盖多个方面：

危害缓解（hazard mitigation）——已被编写成数百页的 ISO 和 RIA 标准（for Standardization, 2011；Jacobs和Virk, 2014；RIA）。
无碰撞运动规划（collision-free motion planning）（LaValle, 2006）。
力调节控制（force modulation）（Villani和De Schutter, 2016）。
鲁棒控制（robust control）（Ames等, 2019；Zhou和Doyle, 1998）。

传统上，机器人安全性主要关注物理动作安全，即确保机器人：

遵守严格的物理约束（如避障、工作空间边界限制）。
具备稳定的运动能力（如步行机器人）。
能够调节接触力 以保持在安全范围内。

这些功能通常由控制栈的最底层实现，采用的方法包括：

运动规划（motion planning）
模型预测控制（model predictive control, MPC）
顺应/力控制（compliant/force control）

VLA 模型（Gemini Robotics） 需要与这些关键的低级安全控制器进行接口集成，以确保机器人遵守物理安全标准。
我们在先前的研究中（Chiang等, 2025；Varley等, 2024）已探索了此类接口的原型。

此外，本报告描述的 AI 驱动机器人系统 需要对安全研究有更广泛且不断发展的视角，因为安全性的新概念也变得日益重要。

Gemini 机器人模型的安全性
Gemini 安全策略（Gemini-Team等, 2023）最初设计用于内容安全性（content safety），防止 Gemini 模型生成有害的对话内容，如：

仇恨言论
色情内容
不适当的医疗建议
泄露个人身份信息

由于 Gemini Robotics 继承了 Gemini 2.0 检查点，它也继承了这些安全策略，从而能够确保安全的“人-机器人对话”。

随着 具身推理模型（Embodied Reasoning Model） 的引入，新的输出模式（如指点动作（pointing））也需要额外的内容安全层。
因此，我们对 Gemini 2.0 和 Gemini Robotics-ER 进行了监督微调，以训练模型避免在图像内容之外做不适当的泛化。

该训练使模型在偏见诱导的指点查询上的拒绝率提升至96%（基线拒绝率仅为20%）。

语义动作安全（Semantic Action Safety）
对于通用机器人而言，**语义动作安全（semantic action safety）**同样至关重要，意味着机器人必须：

在开放域、非结构化环境中尊重物理安全约束。
避免执行潜在危险的操作。

这些规则难以穷尽列举，但应涵盖：

软玩具 不能放在热炉上。
对花生过敏的人 不能被递送含有花生的食物。
红酒杯 必须保持直立搬运。
刀具不能指向人。

这类安全约束适用于通用机器人，也适用于其他具身智能体。

ASIMOV 数据集与安全性评估
与本技术报告同时发布的ASIMOV 数据集（Sermanet等, 2025a,b），用于评估和改进语义动作安全性。
该数据集包含：

视觉安全问答实例（图29a）。
纯文本安全问答实例（图29b）。

Gemini Robotics-ER 在这些数据集上进行了后训练（post-training），以增强安全性。
图29c 和 29d 总结了安全性评估结果。

对比真实世界的安全性评估数据（如NEISS, 2024），Gemini 2.0 Flash 和 Gemini Robotics-ER 均表现出较强的物理安全语义理解能力。
采用宪法式 AI（Constitutional AI）方法（Ahn等, 2024；Bai等, 2022；Huang等, 2024；Kundu等, 2023；Sermanet等, 2025a）后，模型安全性表现进一步提升。
通过后训练和宪法式 AI 机制，可以有效缓解对抗性提示的影响，即当模型被要求颠倒对“安全”与“不安全”的理解时，其性能不会显著下降。

有关 ASIMOV 基准、数据驱动的宪法生成过程 及全面的实证分析，请参考**Sermanet等（2025a,b）**的论文，该研究与本技术报告同时发布。

未来展望
这些研究结果初步证明，我们严格执行的非机器人 AI 模型安全标准同样适用于新一代具身 AI 和机器人模型。
未来，我们将继续改进安全性对齐方法，并持续优化我们的机器人基础模型。

除了安全风险，我们还需要关注机器人部署的社会影响。
我们认为，主动监测和管理这些影响（包括潜在的益处和挑战）对于风险缓解、负责任的部署和透明报告至关重要。

Gemini Robotics 模型的模型卡（Model Card） 见 附录A（Mitchell等, 2019）。

在这里插入图片描述

6. 讨论

在本研究中，我们探讨了 Gemini 2.0 的世界知识和推理能力如何通过机器人技术被引入物理世界。对于机器人和其他具身智能体而言，稳健的人类级具身推理能力至关重要。

基于这一认识，我们提出了 Gemini Robotics-ER，这是一种具身视觉-语言模型（VLM），在空间理解、轨迹预测、多视图对应和精确指点等方面显著提升了当前技术水平。
我们通过新的开源基准验证了 Gemini Robotics-ER 的卓越性能。实验结果表明，我们的训练方法能够有效增强 Gemini 2.0 的多模态推理能力，从而为真实世界的机器人应用奠定了坚实基础，使其能够高效地进行零样本（zero-shot）和少样本（few-shot）适应，应用于感知、规划和代码生成等任务以控制机器人。

此外，我们介绍了 Gemini Robotics，这是一种通用视觉-语言-动作（VLA）模型，在 Gemini Robotics-ER 的基础上进一步缩小了被动感知与主动具身交互之间的差距。作为目前最灵巧的通用机器人模型，Gemini Robotics 在多种复杂操作任务中表现出色，从精细的布料操控到高精度的可动物体处理，均展现了卓越的能力。

我们认为，本方法取得成功的关键因素包括：

强大的视觉-语言模型，具备增强的具身推理能力。
针对机器人任务的特定训练策略，结合大规模机器人动作数据集与多样化的非机器人数据。
专为低延迟机器人控制设计的独特架构。

此外，Gemini Robotics 能够有效遵循开放词汇指令，并在零样本泛化方面表现出色，充分利用了 Gemini Robotics-ER 的具身推理能力。

最后，我们展示了可选的微调机制，使 Gemini Robotics 能够适应新任务和新机器人形态，在极端灵巧操作和复杂泛化场景中取得优异表现。这些结果凸显了我们的方法在快速将基础能力转化为现实应用方面的灵活性和实用性。

局限性与未来研究方向
尽管 Gemini 2.0 和 Gemini Robotics-ER 在具身推理方面取得了重大进展，但仍有提升空间。例如：

Gemini 2.0 可能难以在长视频中保持对空间关系的稳定推理。
其数值预测（如点和边界框）可能不够精确，难以满足更精细的机器人控制任务。

此外，尽管 Gemini Robotics 的初步实验结果显示出良好的泛化能力，但未来研究仍需重点关注以下几个方面：

增强 Gemini Robotics 在复杂任务中的表现
- 进一步提升模型处理多步推理与精准灵巧操作的能力，特别是在新情境下的表现。
- 研究如何无缝集成抽象推理与精确执行，以实现更强鲁棒性和更广泛的泛化能力。
利用模拟数据提升 VLA 模型的能力
- 更依赖模拟数据来生成视觉多样性更强、接触信息更丰富的数据。
- 研究如何利用这些数据训练更具泛化能力的 VLA 模型，使其能更有效地迁移到真实世界（Lin等, 2025）。
扩展多形态机器人实验，降低新形态适应所需的数据量
- 目标是实现零样本跨形态（zero-shot cross-embodiment transfer），使模型能够立即将已有技能泛化至新型机器人平台。