ACL-2024 | 具身智能空间理解能力几何?EmbSpatial-Bench:视觉语言大模型在具身任务中空间理解水平测试基准
-
作者:Mengfei Du, Binhao Wu, Zejun Li, Xuanjing Huang, Zhongyu Wei
-
单位:复旦大学数据科学学院,复旦大学计算机科学学院
-
论文标题:EmbSpatial-Bench: Benchmarking Spatial Understanding for Embodied Tasks with Large Vision-Language Models
-
论文链接:https://aclanthology.org/2024.acl-short.33.pdf
-
代码链接:https://github.com/mengfeidu/EmbSpatial-Bench
主要贡献
-
论文提出了评估视觉语言大模型(LVLMs)在具身任务中的空间理解能力的基准测试平台EmbSpatial-Bench,覆盖了六个从自我中心视角描述的空间关系。
-
通过对多个现有的LVLMs进行zero-shot评估,展示了即使是像GPT-4V这样强大的模型在具身场景中的空间理解能力也存在显著不足。
-
为了提高LVLMs的空间理解能力,设计了一个指令微调数据集EmbSpatial-SFT,旨在增强模型在具身任务中的空间理解能力。
-
展示了EmbSpatial-SFT数据集在不同场景下提升模型空间感知能力的效果。实验结果表明,经过微调的模型在空间理解任务上表现出显著的改进。
研究背景
研究问题
论文主要解决的问题是如何评估视觉语言大模型(LVLMs)在具身任务中的空间理解能力。
尽管LVLMs在遵循指令和基于视觉上下文进行规划方面表现出色,但在具身环境中的空间理解能力尚未得到充分评估。
研究难点
该问题的研究难点包括:
-
现有基准测试不适合准确评估LVLMs的空间理解能力;
-
需要从以自我为中心的角度描述空间关系,而不是以图像主体为中心;
-
评估场景应与具身任务中的场景一致。
相关工作
-
视觉语言大模型(LVLMs):
-
当前的LVLMs通过从丰富的图像-文本交错数据集中学习视觉表示,通常使用轻量级的连接模块来结合视觉和语言信息。
-
进一步的研究对基于LVLMs的架构进行微调,并在具身任务上取得了一定的表现,初步揭示了LVLMs作为具身智能的潜力。
-
然而,这些工作既没有评估也没有增强LVLMs的空间理解能力,而这对于各种具身任务来说是至关重要的。
-
-
空间理解基准:
-
尽管有许多通用的基准可用于评估LVLMs,但专门用于评估空间理解的基准仍然很少。
-
当前基准都是基于COCO或VG构建的,这些数据集与具身场景不一致。
-
缺乏专门的基准使得LVLMs在具身任务中的空间理解能力未被充分探索。
-
EmbSpatial-Bench
EmbSpatial-Bench从3D场景中构建,更符合具身任务的真实环境需求。
数据集构建流程
-
空间图像来源:选择MP3D、ScanNet和AI2-THOR等具身3D模拟器的数据。这些数据集提供了丰富的标注,适合用于评估具身空间理解。
-
空间关系提取:直接从3D数据集中提取空间关系,而不是依赖于对象检测器。通过3D坐标和相机参数计算2D坐标,然后提取空间关系三元组。
-
问答生成:采用多选题格式生成问题,设计模板来生成关于物体间空间关系的问答对。对于“远”和“近”的关系,生成识别图像中最远或最近物体的问题。
-
过滤和人工验证:初始过滤掉边界框过大或过小的问答对,保持空间关系的平衡分布。通过人工检查进一步确保样本的正确性。
数据集统计
-
构建的基准包含3,640个问答对,覆盖294个物体类别和6种空间关系。
-
数据集中最常见的物体类别和空间关系三元组的分布如下图,展示了该基准目标空间关系组合的多样性。
EmbSpatial-SFT
数据集目标
-
EmbSpatial-SFT旨在通过提供问答数据来增强LVLMs的能力,特别是针对两个任务:空间关系识别和物体定位。
-
前者与EmbSpatial-Bench的任务设置一致,后者作为辅助任务来增强模型对目标物体的定位能力。
空间关系识别
-
该任务的目标是识别物体之间的空间关系。通过自动化的管道,从MP3D的训练分割中构建了25K个训练样本。
-
这些样本用于训练模型以提高其在空间关系识别方面的表现。
物体定位
-
物体定位任务基于2D图像中物体的坐标,采用物体定位任务的形式。
-
模型的目标是回答查询物体的位置,位置以文本形式的边界框表示。
-
这项任务被视为关系识别的基础技能。
数据集构建
-
EmbSpatial-SFT完全基于MP3D的训练分割构建,以便在EmbSpatial-Bench的其他场景中进行zero-shot评估。
-
这种方法允许在保持数据集多样性的同时,利用特定场景进行微调。
实验
实验设置
-
基于EmbSpatial-Bench,作者对当前的LVLMs进行zero-shot评估,使用准确率作为评估指标。
-
采用了两种评估策略:生成策略和似然策略。生成策略直接使用模型文本输出中的预测选项,而似然策略则选择模型生成的选项中概率最高的那个。
zero-shot性能
-
表格展示了10个开源LVLMs和2个闭源模型的zero-shot性能。
-
结果表明,当前LVLMs(包括强大的闭源模型如GPT-4V和Qwen-VL-Max)在具身场景中的空间理解能力表现不佳。
-
所有LVLMs中表现最好的模型准确率仅为49.11%(生成策略)或43.85%(似然策略),远低于人类的90.33%。
指令微调
论文进一步在EmbSpatial-SFT上对MiniGPT-v2进行微调,以探索数据是否能够进一步提升模型的空间理解能力。可训练的参数包括视觉连接模块和LLM骨干中的LoRA模块。
- 主要结果:
-
在似然评估策略下,从EmbSpatial-SFT学习显著提高了模型在域内和域外环境中的性能,整体准确率提高了34.25%。
-
尽管在生成策略下的提升不如似然策略显著,但微调后的模型在生成策略下仍表现出适度的性能提升(整体提升了9.04%)。
-
- 消融研究:
-
验证了微调LLM骨干与LoRA模块的有效性,并发现调整LLM骨干对于提升所有场景的性能至关重要。
-
辅助物体定位数据也对不同具身环境的性能有所贡献,分别在生成策略和似然策略下带来了0.47%和0.76%的整体提升。
-
总结
论文提出了EmbSpatial-Bench和EmbSpatial-SFT,用于评估和改进LVLMs在具身任务中的空间理解能力。
实验结果表明,当前典型的LVLMs在具身场景中的空间理解能力较弱,但通过指令微调可以显著提高其性能。
该研究为LVLMs在具身AI系统中的应用提供了重要的基准和数据支持。