NTU:多模态大模型的知识获取能力评估
📖标题:Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos
🌐来源:arXiv, 2501.13826
🌟摘要
🔸人类通过三个认知阶段获得知识:感知信息、理解知识和运用知识解决新问题。视频是这一学习过程的有效媒介,促进了这些认知阶段的进展。然而,现有的视频基准测试未能系统地评估大型多模态模型(LMM)中的知识获取能力。
🔸为了解决这一差距,我们引入了Video-MMMU,这是一个多模式、多学科的基准,旨在评估LMM从视频中获取和利用知识的能力。视频MMMU精选了300个专家级视频和900个人类注释问题,涵盖六个学科,通过阶段对齐的问答对评估知识获取:感知、理解和适应。提出的知识增益指标∆knowledge量化了视频观看后的性能改进。
🔸对LMM的评估显示,随着认知需求的增加,其性能急剧下降,并突显了人类和模型知识获取之间的显著差距,强调了提高LMM从视频中学习和适应能力的方法的必要性。详见https://videommmu.github.io/
🛎️文章简介
🔸研究问题:现有的视频基准无法系统地评估大型多模态模型(LMM)的知识获取功能。
🔸主要贡献:论文提出了Video-MMMU,一个大规模多模态、多学科的视频基准,用于评估模型从视频中获取知识的能力,并引入了知识获取度量来量化模型在观看视频后的性能提升。
📝重点思路
🔸数据集构建:收集了300个专家级视频,涵盖6个专业领域(艺术、商业、科学、医学、人文和工程),每个视频包含三个与知识获取阶段(感知、理解和适应)对齐的问题-答案对。
🔸知识获取度量:提出了∆ knowledge度量,通过模型在观看视频前后在实践考试问题上的准确率变化来衡量知识获取效果。
🔸实验设计:评估了多个开源和专有LMM在Video-MMMU上的表现,包括LLaVA-OneVision、GPT-4o等模型。
🔸认知阶段评估:通过感知、理解和适应三个认知阶段系统评估模型从视频中获取知识的能力。
🔎分析总结
🔸模型性能下降:随着认知需求的增加,模型性能逐渐下降,特别是在适应任务上表现较差。
🔸知识获取挑战:∆ knowledge度量显示,人类在观看视频后知识获取效果显著(∆ knowledge = 33.1%),而表现最好的模型GPT-4o仅达到15.6%,表明当前模型在从视频中获取知识方面存在显著差距。
🔸音频影响:音频转录在感知和理解阶段提升了模型性能,但在适应阶段却导致性能下降,表明音频在增强基本理解的同时可能限制了模型将知识应用于新场景的能力。
🔸错误分析:模型在处理知识密集型视频时存在显著的问题,特别是在问题解读和方法选择上,显示出模型在理解和应用视频知识方面的局限性。
💡个人观点
论文的核心在于提出了一个基准评估模型从视频中获取知识的能力,并设计了知识差异的度量指标。
🧩附录