当前位置: 首页 > article >正文

CVPR-2024 | 让智能体站在舞台中央!EgoThink: 评估视觉语言模型的第一人称视角思维能力

  • 作者:Sijie Cheng, Zhicheng Guo, Jingwen Wu, Kechen Fang, Peng Li, Huaping Liu, Yang Liu

  • 单位:清华大学计算机科学与技术系,清华大学人工智能产业研究院(AIR),多伦多大学电气与计算机工程系,清华大学致理书院,零一万物

  • 标题:EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models

  • 原文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Cheng_EgoThink_Evaluating_First-Person_Perspective_Thinking_Capability_of_Vision-Language_Models_CVPR_2024_paper.pdf

  • 项目主页: https://adacheng.github.io/EgoThink/

  • 代码链接: https://github.com/AdaCheng/EgoThink/

  • 数据集: https://huggingface.co/datasets/EgoThink/EgoThink/

主要贡献

  • 论文提出视觉问答基准EgoThink,用于评估视觉语言模型(VLMs)从第一人称视角进行思考的能力,涵盖了六个核心能力,每个能力又细分为十二个维度,以全面评估VLMs在模拟人类第一人称视角任务中的表现。

  • EgoThink基准使用来自自中心视频的片段,并通过手动标注生成包含第一人称信息的问题-答案对,,确保了数据集的质量和多样性,能够有效地评估VLMs在处理第一人称视角任务时的能力。

  • 论文在EgoThink基准上评估了二十一种流行的VLMs,展示了这些模型在处理第一人称视角任务时的表现。实验结果表明,尽管GPT-4V在多个维度上表现优异,但所有评估的模型仍有很大的改进空间。

  • 由于答案格式开放,论文采用GPT-4作为自动评分器来计算单答案评分。通过与人类评价的比较,验证了自动评分器的可靠性。

研究背景

研究问题

尽管视觉语言模型(VLMs)在传统的三人称视角任务中取得了显著进展,但在第一人称视角任务中的表现仍然未被充分探索。

论文主要解决的问题是如何评估VLMs从第一人称视角进行思考的能力。

研究难点

该问题的研究难点包括:

  • 如何构建一个全面的第一人称视角评估基准,

  • 以及如何有效地评估VLMs在第一人称视角任务中的表现。

相关工作

  • 视觉语言模型

    • 受大模型(LLMs)启发,VLMs通常将强大的LLMs作为骨干网络。早期的VLMs通过大规模的图像-文本成对数据集或任意交错视觉和文本数据进行预训练。

    • 近期的研究利用大量的图像-文本指令数据集进行指令微调,以帮助VLMs生成更满意的答案。这种两阶段训练过程使得VLMs在下游视觉语言任务中表现出色。

  • VLMs的评估

    • 为了评估VLMs的能力,存在多种类型的视觉语言下游任务。传统的基准,如图像描述任务和视觉问答推理任务,主要从第三人称视角探测VLMs的特定能力。

    • 一些综合分析研究从第三人称视角全面评估VLMs的性能,例如Vlue和Lvlm-ehub等基准,分别包含五个基本任务和六类能力。

  • 第一人称视角的评估

    • 在计算机视觉领域,有一些基于自中心视角的评估基准,用于评估某些视觉能力。

    • 在多模态领域,EgoVQA和EgoTaskQA等基准主要关注特定任务,缺乏整体理解。论文强调了探索VLMs从第一人称视角进行思考的综合能力的必要性。

EgoThink基准

核心能力

论文设计了六个核心能力类别,每个类别又细分为十二个细粒度维度,以便从第一人称视角进行定量评估。这些核心能力包括对象识别、活动识别、定位、推理、预测和规划。

  • 对象识别
    • 包括三个细粒度维度:存在性(检测图像中是否存在描述的物体)、属性(检测物体的属性或特征,如颜色)和可用性(预测人类可以对物体执行的潜在动作)。

  • 活动识别
    • 关注基于手-物交互的人类活动的自动识别,主要从自中心视角进行。

  • 定位
    • 涉及两个方面的能力:位置(检测主体周围的场景)和空间关系(探究物体相对于主体的位置)。

  • 推理
    • 包括计数、比较和情境推理。由于是从第一人称视角进行的,通常需要对手中的物体或周围物体进行计数或比较,并可能需要进一步的推理过程。

  • 预测
    • 关注预测未来事件的能力,特别是从自中心视角预测物体状态的变化或手-物交互的未来。

  • 规划
    • 包括导航和辅助两个维度。导航涉及从起始位置到达目标位置,而辅助则提供解决日常问题的指令。

数据集构建

  • 自中心视觉数据的收集

    • 使用Ego4D数据集,这是一个旨在推动计算机视觉中自中心感知领域发展的经典且大规模的自中心视频数据集。

    • Ego4D包含了来自931个独特摄像头佩戴者的3,670小时视频,覆盖了全球74个地点的9个国家。

    • 从Ego4D数据集中提取视频帧,以获得多样化的原始图像数据集。

    • 当前的工作仅关注图像,因为大多数VLMs目前不支持视频输入,论文计划在未来的工作中扩展到视频。

  • 图像选择标准

    • 为了确保图像质量,应用了严格的筛选标准。首先排除模糊或缺乏自中心特征的图像。

    • 然后,为了获得数据集内的高多样性,进一步筛选以确保每个视频最多只有两张图像被纳入过滤后的图像集。

  • 问题和答案对的标注

    • 收集了大量自中心图像候选后,雇佣六名标注员手动标注问题和答案对。每个标注员负责两个特定的维度,确保标注的准确性和一致性。

    • 标注过程中,每个图像在标注后将从候选集中移除,以避免重复。

    • 此外,有三名额外的标注员在初次标注后进行审查,确保第一人称视觉数据和分配的问题-答案对符合特定维度的定义。

  • 统计信息
    • EgoThink基准包含700张图像,覆盖六个类别和十二个细粒度维度。这些图像来自595个视频,确保了广泛的场景表示。

    • 数据集的设计旨在平衡基准的多样性和开放式问答评估的高成本,确保示例在概念、场景和视频方面具有多样性,以提供在实际限制内的稳健性能估计。

实验过程

实验设置

  • 模型选择:论文选择了十八种流行的视觉语言模型(VLMs)进行评估。这些模型包括API-based模型和开源模型,根据模型的总可训练参数将其分为约70亿和约130亿参数的两组,以便进行公平比较。

  • 零样本评估:所有模型在EgoThink基准上进行零样本评估,这意味着模型在没有针对特定任务的额外训练的情况下进行测试。这种设置旨在评估模型在泛化到新任务时的能力。

  • 单答案评分:由于EgoThink基准的答案格式是开放式的,提出使用GPT-4作为自动评分器来评估生成的答案。GPT-4通过比较模型输出与参考答案的语义相似性来评分,关注答案的语义正确性而非简单的相似性。

实验方法

  • 自动评分协议:详细介绍了如何使用GPT-4作为自动评分器。他们将问题、模型输出和参考答案格式化为一个提示,并将其输入到GPT-4中。GPT-4被要求为模型输出分配一个分数(0表示错误,0.5表示部分正确,1表示完全正确)。

  • 对比其他评估方法:论文还讨论了使用GPT-3.5-Turbo、Claude-2和人类标注员作为评估者的可能性,并在后续章节中进行了进一步的分析。

结果与分析

实验结果

  • 总体结果:实验结果显示,尽管VLMs近年来有所改进,但在第一人称视角任务上仍存在挑战。GPT-4V在多个维度上表现最佳,但在某些维度上仍需改进。总体来看,大多数模型在各个能力上的得分最高约为60分。

  • 维度分析
    • 对象识别:通过存在性、属性和可用性三个维度进行评估。结果表明,GPT-4V在属性维度表现出色,但在存在性维度上仍有改进空间。一些开源模型在定位物体时存在困难。

    • 活动识别:GPT-4V在活动维度上优于所有开源模型,但检测特定动作仍然具有挑战性。一些模型在识别复杂动作时表现不佳。

    • 定位:BLIP-2-11B在位置和空间关系维度上表现优异,显示出相对于自身的物体空间关系感知的难度。GPT-4V在定位任务上表现不如BLIP-2-11B。

    • 推理:计数是最困难的能力,GPT-4V得分较低。比较和情境推理也显示出高难度,模型在理解和推理复杂情境时表现不佳。

    • 预测:预测未来事件的能力较难实现,GPT-4V得分中等。模型在识别和预测未来行为时存在困难。

    • 规划:在导航和辅助维度上,GPT-4V得分最高,但大多数开源模型的答案缺乏细节或忽略了图像中的重要信息。这表明模型在提供详细和准确的计划时存在挑战。

分析与讨论

  • 组件影响分析
    • LLM参数规模的影响:比较了不同参数规模的VLMs(约70亿和约130亿参数)的表现。结果显示,增加LLM的参数数量通常会提高模型性能,特别是在那些在指令微调期间未冻结语言模型的模型(如LLaVA系列)中。这表明扩大可训练参数的数量有助于提高模型的性能和泛化能力。

    • 指令微调的影响:直接比较了BLIP-2-11B和InstructBLIP-11B的表现,这两者仅在指令微调和额外的指令感知标记上有所不同。结果表明,指令微调可以显著提升模型性能,尽管提升幅度不大。这可能是因为InstructBLIP使用的指令微调数据来自特定下游任务,其数据分布与EgoThink基准的第一人称视角数据有很大差异。

    • 图像编码器信息的影响:探讨了视觉grounding信息(如分割信息)对模型表现的影响。实验表明,补充的图像信息可以在某些情况下帮助模型更好地定位物体和回答问题。

  • 人类与评估者的一致性
    • 人类评估:进一步使用GPT-3.5-Turbo、Claude-2和人类标注员对模型在对象和规划维度上的表现进行评估。由于人工劳动量大,论文请三位标注员评估GPT-4V的表现,并考虑了准确性、完整性、逻辑合理性和语法正确性等方面。

    • 一致性分析:计算了自动评估器(GPT-4、GPT-3.5-Turbo、Claude-2)与人类之间的一致性。结果显示,GPT-4和Claude-2与人类的一致性较高,Pearson相关系数分别为0.68和0.68。这表明最近表现良好的大型语言模型在与人类评估一致方面具有较高的相关性。

总结

论文介绍了EgoThink,全面评估VLMs第一人称思考能力的新基准。尽管顶级VLMs在大多数维度中的得分仅为60分左右,但GPT-4V在总体表现上仍然是最好的。

分析表明,LLM的总参数量对模型性能影响最大。尽管自动评估器与人类评估者之间的高一致性,但由于答案中详细信息的原因,规划维度的评估仍然困难。


http://www.kler.cn/a/540834.html

相关文章:

  • 基于 FFmpeg 和 OpenGLES 的 iOS 视频预览和录制技术方案设计
  • 多头自注意力中的多头作用及相关思考
  • 半导体制造工艺讲解
  • 数字电路-基础逻辑门实验
  • 常见的前端框架和库有哪些
  • 【报错解决】MySQL报错:sql_mode=only_full_group_by
  • 2025考研查分时间,公布!
  • Linux内核模块参数与性能优化:__read_mostly属性的深度剖析
  • InspurServer服务器监控指标详解
  • 【Python】字典
  • 大数据浪潮下,解锁智算云平台实操密码
  • 智能名片系统(源码+文档+部署+讲解)
  • 低成本+高性能+超灵活!Deepseek 671B+Milvus重新定义知识库搭建
  • java实现Http请求的几种常用方法
  • 编译和链接【二】
  • 网易日常实习一面面经
  • 安卓使用JExcelApi读取Excel文件
  • 06排序 + 查找(D2_查找(D1_基础学习))
  • STM32EXTI外部中断
  • 废品回收小程序:技术创新下的经济效益
  • 【快应用】多语言适配案例
  • Spring模块组成
  • 什么是 React Router?如何使用?
  • 使用云计算,企业的数据监管合规问题如何解决?
  • BUCK电路的双脉冲测试
  • 【通俗易懂说模型】反向传播(附多元分类与Softmax函数)