MME-RealWorld:您的多模态大型语言模型能挑战高分辨率的真实世界场景吗?这些场景对人类来说都非常困难!
论文名称:MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?
论文链接:https://arxiv.org/abs/2408.13257
项目主页:https://mme-realworld.github.io/
代码链接:https://github.com/yfzhang114/MME-RealWorld
研究背景
- 研究问题:这篇文章要解决的问题是评估多模态大型语言模型(MLLMs)在高分辨率真实世界场景中的表现。现有的基准测试存在数据规模小、依赖模型生成的注释导致数据质量受限、任务难度不足等问题,难以衡量模型在真实世界中面临的显著挑战。
- 研究难点:该问题的研究难点包括:数据规模小导致性能波动大、依赖模型生成的注释导致数据质量受限、任务难度不足,特别是图像分辨率低。
- 相关工作:该问题的研究相关工作有:MME [17]、MMbench [45]、MMStar [10]、MM-Vet [70]、TorchStone [5]、BLINK [20] 等基准测试,但这些基准测试在数据规模、注释质量和任务难度方面存在不足。
研究方法
这篇论文提出了MME-RealWorld来解决现有基准测试的不足。具体来说,
- 数据收集:从公共数据集和互联网上收集了超过30万张图像,过滤出13,366张高质量图像进行标注。这些图像来自自动驾驶、遥感、视频监控、报纸、街景和金融图表等场景。
- 注释过程:由25名专业注释者和7名MLLMs专家参与,确保所有问题对MLLMs具有挑战性。每个问题的答案选项包括正确答案和其他四个选项,模型需要从中选择正确答案。
- 评价指标:使用基于规则的过滤器对MLLM生成的答案进行对齐和验证。计算每个子任务的准确率,并报告整个数据集的加权平均准确率和未加权平均准确率。
实验设计
-
数据收集:从超过30万张图像中手动选择了13,366张高分辨率图像,这些图像的平均分辨率为2,000×1,500,包含丰富的图像细节。
-
注释过程:25名专业注释者和7名MLLMs专家参与注释,确保所有问题对MLLMs具有挑战性。每个问题的答案选项包括正确答案和其他四个选项,模型需要从中选择正确答案。
-
任务划分:将数据分为五个真实世界领域,涵盖43个感知和推理子任务。每个QA对提供五个选项,模型需要从中选择正确答案。
-
模型评估:对29个先进的MLLMs进行评估,包括GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet等。
结果与分析
-
感知任务:在五个领域中,InternVL2表现出最强的感知能力,但不同任务之间的性能差异显著。例如,GPT-4o在真实世界OCR任务中表现良好,但在更具挑战性的任务中表现不佳。
-
推理任务:Claude 3.5 Sonnet在大多数领域中表现出色,特别是在图表相关任务中领先。然而,即使是顶级模型,推理任务的平均准确率也未超过45%。
-
中文版本:在中文版本的MME-RealWorld中,Qwen2-VL和InternVL-2在感知和推理任务中表现优异,特别是InternVL-2在中文任务中的表现优于英文版本。
-
错误分析:大多数模型在选择“E”作为答案时表现出较高的频率,表明它们的视觉感知模块未能有效识别图像中的对象。此外,模型在处理动态信息方面存在显著缺陷。
总体结论
这篇论文提出了MME-RealWorld,这是迄今为止最大且分辨率最高的纯人工注释数据集,专注于真实世界应用。通过广泛的模型评估,揭示了当前模型在复杂图像感知方面的显著不足,强调了进一步进步的必要性。
论文评价
优点与创新
- 数据规模:MME-RealWorld是目前最大的人工标注基准,包含29,429个问答对,覆盖了5个真实世界场景的43个子任务。
- 数据质量:所有注释均为手动完成,经过专业团队交叉检查以确保数据质量。图像分辨率高达2000×1500,包含丰富的图像细节。
- 任务难度和现实世界实用性:不同模型在基准上的表现显示,即使最先进的模型也未超过60%的准确率,突显了当前模型在复杂图像感知方面的不足。
- 高分辨率图像处理:基准测试了多种模型在高分辨率图像处理方面的能力,强调了高分辨率图像处理在解决复杂现实世界任务中的关键重要性。
- 中文版本:提出了MME-RealWorld-CN,专注于中国场景,确保所有图像和问题与中国上下文相关。
不足与反思
- 现有模型的局限性:尽管模型在处理高分辨率图像方面取得了一定进展,但在理解动态信息和进行三维空间预测方面仍存在显著不足。现有的多模态大型语言模型在处理单帧图像时,其性能与人类相比仍有较大差距。
- 计算效率:处理高分辨率图像的计算需求较高,现有方法在计算效率和资源消耗方面仍有改进空间。例如,Mini-Gemini-HD在处理大于672×672的图像时,会丢失更多细节。
- 未来工作方向:需要更强大的多模态模型,具备3D空间预测和理解能力,或者在特定领域数据集上进行专门的微调,以便在自动驾驶等高风险领域有效应用多模态大型语言模型。
关键问题及回答
问题1:MME-RealWorld数据集在数据规模和注释质量方面有哪些独特之处?
- 数据规模:MME-RealWorld是迄今为止最大的全人工注释数据集,包含29,429个问题-答案对,覆盖了43个子任务。相比之下,现有的其他基准测试如MME、MMbench等数据集的问题-答案对数量较少,通常少于10,000对,容易导致评估结果的波动性较大。
- 注释质量:所有注释均由专业人员进行,确保了数据的高质量。具体来说,25名专业注释者和7名MLLMs专家参与了注释过程,确保每个问题对MLLMs具有挑战性。此外,所有答案选项都经过交叉检查,以确保数据的准确性。相比之下,一些基准测试如MMMT-Bench和SEEDBench的注释是由模型自身生成的,这不可避免地引入了噪声,影响了注释的质量。
- 高分辨率图像:MME-RealWorld的平均图像分辨率为2,000×1,500,显著高于现有基准测试的图像分辨率。高分辨率图像包含了丰富的细节信息,对于提供有意义的帮助至关重要。例如,体育比赛中的计分板等信息只能通过高分辨率图像才能正确解读。
问题2:在MME-RealWorld的实验结果中,哪些模型在感知任务和推理任务中表现最佳?
- 感知任务:在感知任务中,InternVL-2模型表现最强,平均准确率为55.82%。尽管如此,即使在最先进的模型中,也没有一个模型的准确率超过60%。这表明模型在处理高分辨率图像和复杂真实世界场景时仍存在显著差距。
- 推理任务:在推理任务中,Claude 3.5 Sonnet表现最佳,平均准确率为49.20%。然而,大多数开源模型在推理任务中的表现较差,平均准确率低于45%。这进一步表明,当前模型在理解复杂推理任务方面仍有很大提升空间。
问题3:MME-RealWorld数据集对中国场景的适应性和挑战性如何?
- 数据收集:为了适应中国场景,MME-RealWorld-CN版本收集了额外的图像,并请中文志愿者进行注释。这些图像主要来自中国场景,如视频监控、自动驾驶和遥感等。
- 任务类型:MME-RealWorld-CN保留了与英文版本相似的任务类型,包括感知任务和推理任务。这些任务在图像质量和任务难度上与英文版本保持一致。
- 模型表现:在MME-RealWorld-CN的实验结果中,Qwen2-VL和InternVL-2在感知任务和推理任务中均表现出色。特别是InternVL-2在中文场景中的表现甚至优于其在英文版本中的表现,表明其可能专门针对中文数据进行了优化。然而,一些模型在处理中文场景时表现较差,特别是在推理任务中,显示出模型在理解和处理中文相关信息方面仍有显著差距。