当前位置: 首页 > article >正文

ACL-2024 | 具身智能空间理解能力几何?EmbSpatial-Bench:视觉语言大模型在具身任务中空间理解水平测试基准

  • 作者:Mengfei Du, Binhao Wu, Zejun Li, Xuanjing Huang, Zhongyu Wei

  • 单位:复旦大学数据科学学院,复旦大学计算机科学学院

  • 论文标题:EmbSpatial-Bench: Benchmarking Spatial Understanding for Embodied Tasks with Large Vision-Language Models

  • 论文链接:https://aclanthology.org/2024.acl-short.33.pdf

  • 代码链接:https://github.com/mengfeidu/EmbSpatial-Bench

主要贡献

  • 论文提出了评估视觉语言大模型(LVLMs)在具身任务中的空间理解能力的基准测试平台EmbSpatial-Bench,覆盖了六个从自我中心视角描述的空间关系。

  • 通过对多个现有的LVLMs进行zero-shot评估,展示了即使是像GPT-4V这样强大的模型在具身场景中的空间理解能力也存在显著不足。

  • 为了提高LVLMs的空间理解能力,设计了一个指令微调数据集EmbSpatial-SFT,旨在增强模型在具身任务中的空间理解能力。

  • 展示了EmbSpatial-SFT数据集在不同场景下提升模型空间感知能力的效果。实验结果表明,经过微调的模型在空间理解任务上表现出显著的改进。

研究背景

研究问题

论文主要解决的问题是如何评估视觉语言大模型(LVLMs)在具身任务中的空间理解能力。

尽管LVLMs在遵循指令和基于视觉上下文进行规划方面表现出色,但在具身环境中的空间理解能力尚未得到充分评估。

研究难点

该问题的研究难点包括:

  • 现有基准测试不适合准确评估LVLMs的空间理解能力;

  • 需要从以自我为中心的角度描述空间关系,而不是以图像主体为中心;

  • 评估场景应与具身任务中的场景一致。

相关工作

  • 视觉语言大模型(LVLMs)

    • 当前的LVLMs通过从丰富的图像-文本交错数据集中学习视觉表示,通常使用轻量级的连接模块来结合视觉和语言信息。

    • 进一步的研究对基于LVLMs的架构进行微调,并在具身任务上取得了一定的表现,初步揭示了LVLMs作为具身智能的潜力。

    • 然而,这些工作既没有评估也没有增强LVLMs的空间理解能力,而这对于各种具身任务来说是至关重要的。

  • 空间理解基准

    • 尽管有许多通用的基准可用于评估LVLMs,但专门用于评估空间理解的基准仍然很少。

    • 当前基准都是基于COCO或VG构建的,这些数据集与具身场景不一致。

    • 缺乏专门的基准使得LVLMs在具身任务中的空间理解能力未被充分探索。

EmbSpatial-Bench

EmbSpatial-Bench从3D场景中构建,更符合具身任务的真实环境需求。

数据集构建流程

  • 空间图像来源:选择MP3D、ScanNet和AI2-THOR等具身3D模拟器的数据。这些数据集提供了丰富的标注,适合用于评估具身空间理解。

  • 空间关系提取:直接从3D数据集中提取空间关系,而不是依赖于对象检测器。通过3D坐标和相机参数计算2D坐标,然后提取空间关系三元组。

  • 问答生成:采用多选题格式生成问题,设计模板来生成关于物体间空间关系的问答对。对于“远”和“近”的关系,生成识别图像中最远或最近物体的问题。

  • 过滤和人工验证:初始过滤掉边界框过大或过小的问答对,保持空间关系的平衡分布。通过人工检查进一步确保样本的正确性。

数据集统计

  • 构建的基准包含3,640个问答对,覆盖294个物体类别和6种空间关系。

  • 数据集中最常见的物体类别和空间关系三元组的分布如下图,展示了该基准目标空间关系组合的多样性。

EmbSpatial-SFT

数据集目标

  • EmbSpatial-SFT旨在通过提供问答数据来增强LVLMs的能力,特别是针对两个任务:空间关系识别和物体定位。

  • 前者与EmbSpatial-Bench的任务设置一致,后者作为辅助任务来增强模型对目标物体的定位能力。

空间关系识别

  • 该任务的目标是识别物体之间的空间关系。通过自动化的管道,从MP3D的训练分割中构建了25K个训练样本。

  • 这些样本用于训练模型以提高其在空间关系识别方面的表现。

物体定位

  • 物体定位任务基于2D图像中物体的坐标,采用物体定位任务的形式。

  • 模型的目标是回答查询物体的位置,位置以文本形式的边界框表示。

  • 这项任务被视为关系识别的基础技能。

数据集构建

  • EmbSpatial-SFT完全基于MP3D的训练分割构建,以便在EmbSpatial-Bench的其他场景中进行zero-shot评估。

  • 这种方法允许在保持数据集多样性的同时,利用特定场景进行微调。

实验

实验设置

  • 基于EmbSpatial-Bench,作者对当前的LVLMs进行zero-shot评估,使用准确率作为评估指标。

  • 采用了两种评估策略:生成策略和似然策略。生成策略直接使用模型文本输出中的预测选项,而似然策略则选择模型生成的选项中概率最高的那个。

zero-shot性能

  • 表格展示了10个开源LVLMs和2个闭源模型的zero-shot性能。

  • 结果表明,当前LVLMs(包括强大的闭源模型如GPT-4V和Qwen-VL-Max)在具身场景中的空间理解能力表现不佳。

  • 所有LVLMs中表现最好的模型准确率仅为49.11%(生成策略)或43.85%(似然策略),远低于人类的90.33%。

指令微调

论文进一步在EmbSpatial-SFT上对MiniGPT-v2进行微调,以探索数据是否能够进一步提升模型的空间理解能力。可训练的参数包括视觉连接模块和LLM骨干中的LoRA模块。

  • 主要结果
    • 在似然评估策略下,从EmbSpatial-SFT学习显著提高了模型在域内和域外环境中的性能,整体准确率提高了34.25%。

    • 尽管在生成策略下的提升不如似然策略显著,但微调后的模型在生成策略下仍表现出适度的性能提升(整体提升了9.04%)。

  • 消融研究
    • 验证了微调LLM骨干与LoRA模块的有效性,并发现调整LLM骨干对于提升所有场景的性能至关重要。

    • 辅助物体定位数据也对不同具身环境的性能有所贡献,分别在生成策略和似然策略下带来了0.47%和0.76%的整体提升。

总结

论文提出了EmbSpatial-Bench和EmbSpatial-SFT,用于评估和改进LVLMs在具身任务中的空间理解能力。

实验结果表明,当前典型的LVLMs在具身场景中的空间理解能力较弱,但通过指令微调可以显著提高其性能。

该研究为LVLMs在具身AI系统中的应用提供了重要的基准和数据支持。


http://www.kler.cn/a/523926.html

相关文章:

  • 力扣面试150 快乐数 循环链表找环 链表抽象 哈希
  • c++:vector
  • gesp(C++六级)(6)洛谷:P10109:[GESP202312 六级] 工作沟通
  • windows lm studio 0.3.8无法下载模型,更换镜像
  • DeepSeek-R1:开源Top推理模型的实现细节、使用与复现
  • AndroidCompose Navigation导航精通1-基本页面导航与ViewPager
  • 如何获取svg图标中的路径 (漫反射图标效果实现)
  • 算法随笔_29:最大宽度坡_方法3
  • 澳洲硕士毕业论文写作中如何把握主题
  • 笔记本跑大模型尝试
  • 奖励模型:解析大语言模型的关键工具
  • 作業系統:設計與實現-母本
  • 密码学的数学基础1-整数 素数 和 RSA加密
  • vim交换文件的作用
  • 关于2024年
  • 2024年12月GESP C++ 二级考级真题—寻找数字
  • *胡闹厨房*
  • Python爬虫学习第三弹 —— Xpath 页面解析 实现无广百·度
  • 16、Spring 框架基础:开启 Java 企业级开发的新时代
  • 【信息系统项目管理师-选择真题】2009下半年综合知识答案和详解
  • 知识库管理系统提升企业知识价值与工作效率的实践路径分析
  • 朴素贝叶斯模型
  • 为华为云函数增加App认证
  • 【Rust自学】15.0. 智能指针(序):什么是智能指针及Rust智能指针的特性
  • 好用的AI/解析网站
  • 论文阅读的附录(八):Understanding Diffusion Models: A Unified Perspective(五):逐步加噪评分匹配