当前位置: 首页 > article >正文

【CVPR24】OmniMedVQA: 一种新的医疗LVLM大规模综合评估基准

论文介绍

论文: OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

代码: https://github.com/OpenGVLab/Multi-Modality-Arena

会议与年份:CVPR24

ae6ab279371d2adb83140150ea19b9eb.png

全文概述

本篇论文介绍了针对医疗领域的视觉问答任务(Medical VQA)的新基准测试集——OmniMedVQA。该测试集由来自73个不同医学数据集的超过5万张真实医学图像组成,涵盖了12种不同的模态和20多个解剖学区域。通过实验发现,现有的大型视觉语言模型(LVLM)在解决这些医疗视觉问答问题时表现不佳,甚至专门用于医学领域的LVLM也比通用模型表现差。这表明需要更灵活、更强大的LVLM来应对生物医学领域的需求。本文的研究结果不仅揭示了现有LVLM对真实医学图像理解的局限性,还突显了OmniMedVQA数据集的重要性。作者们已经将代码和数据集公开发布,供其他研究人员使用。

全文贡献

  • 我们提出OmniMedVQA,这是一个针对医疗领域的大型且全面的视觉问答基准。OmniMedVQA包含12种不同的模态,并涵盖了超过20个独特的解剖区域,为评估LVLM在应对医疗挑战方面的基本能力建立了综合基准。

  • 我们对包括8个通用领域LVLM和4个专门针对医疗应用设计的LVLM在内的12种不同类型的LVLM进行了全面评估。据我们所知,这是迄今为止针对医疗领域的最全面的LVLM评估。

  • 我们的评估揭示了几个创新见解,并为未来改善LVLM以适应医疗应用提供了宝贵的指导。

数据集

f90d1b535f41a7b65a55e761d1b509e6.png

数据集构建过程

OmniMedVQA数据集的构建基于73个不同的医学数据集,这些数据集覆盖了12种不同的成像模态和超过20个解剖区域。构建过程中,首先收集了大量的医学分类数据集,然后利用GPT的强大上下文推理能力,将这些数据转换为视觉问答(VQA)格式 。此外,为了增加数据集的多样性和评估能力,还通过ChatGPT-3.5 API对问题进行了重新表述,并生成了错误选项,从而构建了多选题问答对。

数据集特点

OmniMedVQA数据集是一个大规模、多样化且全面的医学视觉问答基准,包含118,010张来自真实医疗场景的图像,覆盖12种不同成像模态和20多个解剖区域,旨在评估大型视觉语言模型在医学领域的性能,其多模态和多区域的特点使其成为测试和改进LVLMs在医学影像理解和问答能力的重要资源。

数据集所涉及到的12中模态

OmniMedVQA数据集包含了以下12种不同的成像模态:

Colposcopy(宫颈检查):319张图像,338个QA项。
CT(计算机断层扫描):14,457张图像,15,836个QA项。
Digital Photography(数字摄影):2,308张图像,2,786个QA项。
Fundus Photography(眼底摄影):10,108张图像,10,815个QA项。
Infrared Reflectance Imaging(红外反射成像):9,477张图像,9,785个QA项。
MR(磁共振成像):31,917张图像,32,705个QA项。
Optical Coherence Tomography(光学相干断层扫描):3,791张图像,4,646个QA项。
Dermoscopy(皮肤镜检查):5,967张图像,6,762个QA项。
Endoscopy(内窥镜检查):1,432张图像,1,877个QA项。
Microscopy Images(显微镜图像):19,785张图像,21,743个QA项。
X-Ray(X射线):7,594张图像,9,711个QA项。
Ultrasound(超声检查):10,855张图像,10,991个QA项

评估过程

在论文中,评估过程旨在全面测试12种不同的大型视觉语言模型(LVLMs)在OmniMedVQA数据集上的性能,其中包括8个通用领域模型和4个专门针对医疗领域的模型。评估涉及构建输入提示,将问题和候选选项结合,并传递给LVLMs以生成响应。为了全面评估模型性能,采用了两种评估指标:问答得分和基于前缀的得分。问答得分直接衡量模型选择与真实答案的匹配程度,而基于前缀的得分则衡量模型对每个选项生成文本内容的可能性,反映模型的内在知识水平。

6d5258eb77ccec0dbac6dbe2070e06bc.png

实验分析

精度对比

335ae1f2a99dcd7cc9ee8084a22190ac.png

http://www.kler.cn/a/420486.html

相关文章:

  • JS querySelector方法的优点
  • ES中的字段类型
  • 代码随想录-算法训练营day31(贪心算法01:分发饼干,摆动序列,最大子数组和)
  • 多人聊天室项目 BIO模型实现
  • javaweb_Day05
  • 汽车操作系统详解
  • 【笔记】文明、现代化与价值投资
  • 【C++boost::asio网络编程】有关异步读写api的笔记
  • 再谈Java中的String类型是否相同的判断方法
  • ESP32-S3模组上跑通ES8388(11)
  • git bash 一双击选中内容就^C (ctrl C)
  • 安全关系型数据库查询新选择:Rust 语言的 rust-query 库深度解析
  • Github提交Pull Request教程 Git基础扫盲(零基础易懂)
  • 贪心算法题
  • ipmitool使用详解(三)-解决各种dell、hp服务器无法ipmitool连接问题
  • 时频转换 | Matlab基于递归图Reccurence Plots一维数据转二维图像方法
  • Kafka系列教程 - Kafka 快速入门 -1
  • 浅析RPC—基础知识
  • <<WTF-Solidity>>学习笔记(part 21-24)
  • 淘宝天猫API接口探索:店铺商品全览与拍立淘图片搜索实战
  • Fastadmin的定时任务详解
  • python使用pdfplumber工具包加载pdf格式数据
  • GaussDB TPOPS 搭建流程记录
  • 记录使用Spark计算订单明细表销量排行榜的实现
  • 流量特征分析
  • 【娱乐项目】竖式算术器