[EAI-022] FuSe,在VLA模型基础上,融合触觉和语音等异构模态信息
Paper Card
论文标题:Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding
论文作者:Joshua Jones, Oier Mees, Carmelo Sferrazza, Kyle Stachowicz, Pieter Abbeel, Sergey Levine
论文链接:https://arxiv.org/abs/2501.04693
论文出处:/
论文被引:/
项目主页:https://fuse-model.github.io/
Abstract
与世界互动是一种多感官体验:实现有效的通用交互需要利用所有可用的模态——包括视觉、触觉和听觉——来弥补部分观测的不足。 例如,当视觉被遮挡时,机器人应该依靠它的触觉(把手放进包里)和听觉。 然而,最先进的通用机器人策略(Generalist Robot Policies)通常在大型数据集上进行训练,仅根据视觉和本体感受观测来预测机器人的动作。这项工作提出了FuSe,它能够利用自然语言作为一种通用的跨模态基础(cross-modal grounding),在异构传感器模态上对视觉运动通用策略进行微调,而这些模态的大型数据集并不容易获得。 我们将多模态对比损失与基于感觉的语言生成损失相结合,以编码高级语义。 在机器人操作的背景下,我们展示了FuSe能够执行需要联合推理多种模态(如视觉、触觉和听觉)的具有挑战性的任务,这些任务在零样本设置中进行,例如多模态提示、组合式跨模态提示以及与其交互的对象的描述。 我们表明,相同的方案适用于广泛不同的通用策略,包括基于扩散的通用策略和大型视觉-语言-动作 (VLA) 模型。 现实世界中大量的实验表明,与所有考虑的基线相比,FuSe能够将成功率提高 20% 以上。
Summary
研究背景
当前的通用机器人策略模型仅仅依赖视觉和本体感受观测信息来生成动作以控制机器人,而人类还会用过触觉和听觉反馈与物理世界交互,这些信息提供了关于物体属性的丰富补充信息。而增加模态以后,可用的多种模态对齐的数据就会缺失很多,那如何才能保留在大量数据上预训练的通用机器人策略的泛化能力的同时,将其语义知识与不易获得的大型数据集的异构感官数据相结合?
方法介绍
自然语言可以为混合模态模型提供一个共同的借口(common interface),将人类语言与多模态感知和动作结合起来。本文提出了一种可以在视觉模态基础上补充了触觉和声音的数据集上微调通用机器人策略的方法,解锁了新的能力和跨模态语义理解能力,仅需少量的模态对齐数据。关键想法是通过辅助损失将所有模态都整合到单一的通用自然语言模态中,实现对所有模态的联合推理。
最终的策略可以成功地完成具有挑战性的任务指令,例如“拿起摸起来柔软且发出响亮声音的红色物体”、“描述抓取的物体感觉如何”、“拿起颜色与弹钢琴的按钮相同的物体”。
实验结果证明,FuSe的微调策略始终优于在视觉数据上微调或者从异构感官数据上从头训练的模型基线。
相关工作
通用机器人策略
基于VLM构建的VLA模型,由于使用了多样的大量的数据训练,提高了泛化能力。但由于数据缺乏,使得其能力局限在视觉模态输入。
机器人中的多模态推理
多模态旨在利用不同传感器之间的互补性来增强自主机器人策略的能力,包括性能、泛化和鲁棒性。
模型架构
微调策略需要解决的三个核心问题:
- 新的观测模态(触觉和音频)的特征提取器(编码器)仅在较小的数据集上训练
- 骨干模型通常在视觉语言模态上预训练,没有经过新的观测模态的训练
- 新的跨模态提示能力通常依赖于特定模态的标注,例如柔软且有弹性的物体
骨干模型:octo、pi0都可以
- 触觉编码器:使用预训练的视触觉编码器TVL,并与octo一起训练
- 音频编码器:优于原始音频波形纬度高且噪声大,先将音频转换为声谱图,然后通过 ResNet26 编码器进行处理
- 辅助损失1——多模态对比损失:最大化同一场景的不同视图和语义之间的互信息
- 辅助损失2——语言生成损失:基于Transformer构建了单独的生成头,用模态token区分不同的输入模态,预测每种模态组合的高级语义
辅助损失可以将各种感知模态与预训练的通用机器人策略的语义知识联系起来
语言指令改写:先通过模板生成,然后用ChatGPT改写,比如摸起来感觉柔软且是红色的物体
实现细节:v5e-128 TPU pod;bcz=1024;training step=50k;余弦学习率,warmup step=2k,max value=3e-4;
数据构建
数据量:27K
数据模态:语言指令、视觉、触觉、音频、惯性测量、本体感觉和机器人动作
采集设备:meta quest 2 VR
消融实验
研究目的:融合新的观测模态数据,微调通用机器人策略,并验证策略的预训练语义与知识的关联程度
实验设备:WidowX 250 6DoF机械臂,5hz控制频率,一个第三人称视角RGB相机,一个腕部RGB相机,二指夹爪上两个Digit触觉传感器,一个标准麦克风,一个9轴IMU
实验设计:
- 抓取任务:训练数据集中存在的24个物体;未见的32测试物体。
- 购物袋任务:物体放在纸袋内,第三人称视角存在遮挡,腕部相机照明条件变差,是一个具有部分视觉可观测的场景。多模态组合推理任务:抓住与播放钢琴声音的按钮颜色相同的物体;按下与蓝色按钮发出相同声音的按钮
- 按钮任务:训练数据集中存在的6个物体,18个干扰物体,14个抓取物体;未见的2个按钮,12个未见过的干扰物体。
每个评估实验测试5次
- 在部分可观测环境中,FuSe是否能够以零样本的方式帮助执行多模态提示任务? (部分 IV-C)
- FuSe是否能够启用多模态提示来区分单个模态描述中模棱两可的对象? (部分 IV-D)
- FuSe的多模态能力能否应用于组合推理任务? (部分 IV-E)
- 在微调FuSe时,提出的辅助跨模态语言接地损失是否对于实现高性能是必要的? (部分 IV-F)
- FuSe是否适用于不同的通用机器人策略架构? (部分 IV-G)
微调性能对比
图 5 中的结果显示,该基线在较简单的任务(桌面和按键)上具有竞争力,但在装袋任务上明显逊于我们的模型,在装袋任务中,当夹持器进入购物袋时,视觉遮挡会使视觉特征的区分度降低。
多模态提示
该提示可以成功地区分物体,不仅基于视觉特征,还基于其他模态,如触觉或声音。 评估提示包含多个示例,其中任务是用一种模态含糊不清、另一种模态唯一的描述来抓取物体(例如,“抓住摸起来软软的圆形物体”,场景中同时出现泡沫球和揉皱的纸球)。
表I结果表明,FuSe微调的策略可以结合多模态指令来改进模糊描述。
任务组合能力
两种不同的任务组合能力:
- 提示模型抓取一个颜色与发出特定声音的训练物体中的按钮相同的物体(例如,“抓住颜色与发出钢琴声的按钮相同的物体”)
- 在一个多步骤任务中,利用生成式头来连接不同的子任务。 首先,仅使用视觉指令(例如,“按下蓝色按钮”)提示模型按下训练时未见过的按钮。 然后,将产生的声音馈送到生成式头,该头将生成与相应音频相关的指令(例如,“按下发出钢琴声的按钮”)。 最后,在训练环境中用音频指令提示模型,在该环境中,模型已经将按钮的视觉线索与相应的声音相关联,并将执行最终按下与在第一个子任务中按下的按钮发出相同声音的按钮的轨迹。
图 6 中报告了定量结果,表明即使在简单的组合任务上,FuSe也优于所有基线,因为它利用了其多模态推理能力。 对于多步骤任务,将其与从所有可用传感器上从头开始训练并具有相同辅助损失的Octo进行了比较。 FuSe再次优于基线,尤其是在完成完整任务方面。 事实上,从头开始训练的模型显示出较差的语言基础,并且无法完成基于音频的指令。
辅助损失消融实验
在购物袋任务中消融了不同的FuSe辅助损失,该任务具有部分可观察的视觉场景。 图 7 显示,包含这两种损失对于充分利用机器人上可用的异构反馈至关重要,对于看不见的测试对象,基线的性能尤其下降。
VLA模型结果
基于PaliGemma-3B构建VLA,此类模型能够直接整合FuSe的生成语言建模损失,而不需要额外的语言模型头,从而统一了动作预测和基于语言的特征学习的实现。 首先仅使用视觉模态在OXE数据集上进行预训练,然后在自己的数据集上使用所有传感器模态进行微调。
图 8 中展示了结果,其中VLA FuSe策略与其基于Octo的对应策略具有竞争力,并且在具有挑战性的购物袋任务中优于后者,这证明了FuSe在不同策略主干上的有效性。VLA FuSe是第一个在异构(非视觉)传感器输入上进行微调的开源VLA。
实验结论
FuSe 是一种在异构机器人传感器模态(例如触觉或音频)上微调大型预训练机器人策略的方法。 通过在训练过程中利用自然语言作为一种通用的跨模态基础,FuSe能够执行需要在多种模态(例如视觉、触觉和声音)上联合推理的具有挑战性的任务,且能够在零样本环境下进行。 FuSe 能够实现多模态提示、组合式跨模态提示以及对其交互对象的描述等功能。FuSe 证明了通过跨模态语言基础进行多模态微调和特征学习的有效性,它适用于各种不同的通用策略,包括基于Transformer的Octo模型,或从在互联网规模数据以及单模态机器人数据上预训练的生成式VLM基础模型微调而来的策略。
局限性:使用附加模态训练策略需要增加训练资源,目前将观测历史限制在0.4秒。 提高训练效率将能够使用更长的上下文长度进行训练,这可能会改进稀疏信号(如触觉数据)的推理。