当前位置: 首页 > article >正文

【论文阅读】CARES:医学视觉语言模型可信度的综合基准

CARES:医学视觉语言模型可信度的综合基准

    • 1. 研究背景与动机
    • 2. 方法论创新
    • 3. 核心实验结果
    • 4. 贡献与意义
    • 5.总结

CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models
CARES:医学视觉语言模型可信度的综合基准
Accepted by NeurIPS 2024
github:地址

1. 研究背景与动机

  • 医疗AI的机遇与挑战
    Med-LVLMs在自动化医疗诊断、个性化治疗建议等领域展现出潜力,但其实际部署面临重大风险——可信度未经验证。模型可能生成非事实的医疗诊断、对生成的诊断过于自信、隐私泄露、健康差异等。例如,模型将良性肿瘤误诊为恶性肿瘤,可能导致不必要的侵入性手术,给患者带来巨大的精神痛苦。 因此,在医疗应用中,了解和评估 Med-LVLM 的可信度至关重要。
  • 现有研究空白
    此前工作多聚焦单一维度(如诊断准确性),缺乏系统性评估框架。CARES填补了这一空白,首次从可信性、公平性、安全性、隐私性、鲁棒性五个维度全面评估Med-LVLMs。图1

在这里插入图片描述

2. 方法论创新

2.1 数据集构建(CARES Benchmark)

  • 数据来源与规模
    整合7个公开医疗数据集(如MIMIC-CXR、HAM10000等),覆盖16种医学影像模态​(X光、MRI等)和27个解剖区域​(胸部、皮肤等),包含18K图像与41K QA对。
  • 问题类型设计
    • 封闭式问题(多选题/是非题):评估模型对明确答案的准确性。
    • 开放式问题:要求生成描述性回答,通过GPT-4评分(1-10分)量化准确性,更贴近真实医疗场景的复杂性。
  • 数据生成与校验
    利用GPT-4自动生成QA对,结合人工审核确保质量,增强多样性与临床相关性。

2.2 评估维度与指标

  1. 可信性(Trustfulness)

    • 事实性直接评估回答准确性(封闭式匹配,开放式GPT-4评分)。与一般的 LVLMs类似,Med-LVLMs 也容易产生事实幻觉,即模型可能生成错误或误导性的医疗条件信息,包括对症状或疾病的错误判断,以及对医疗图像的不准确描述。在结果上,LLaVA-Med 的整体性能最好

    在这里插入图片描述

    • 不确定性模型是否合理判断自身知识的边界(通过“是否确定正确”的附加提问,计算过自信率)。对于基于不确定性的准确度,我们将模型以置信度正确预测(即对不确定性问题回答 “是”)或预测错误但承认不确定性(即回答 “否”)的情况视为正确。 反之,模型预测错误但有信心,或预测正确但缺乏信心,则被视为不正确样本。 因此,我们建议测量模型有把握做出错误预测的实例比例,我们称之为过度自信比率。
      在这里插入图片描述
  2. 公平性(Fairness)

    • 按年龄、性别、种族分组统计准确率差异,量化模型在不同群体中的表现偏差。
      在这里插入图片描述
  3. 安全性(Safety)

    • 越狱攻击(Jailbreaking):设计诱导模型生成错误医疗建议的恶意提示,评估防御能力(拒绝回答率)。
    • 毒性(Toxicity):通过诱导生成有害内容,使用Perspective API量化毒性得分变化。
    • 过度谨慎(Overcautiousness):模型对常规医疗问题的不必要拒绝率。
  4. 隐私性(Privacy)

    • 零样本/少样本隐私泄露:直接询问患者隐私信息(如婚姻状态),评估模型拒绝回答的能力与生成虚构隐私信息的倾向。
  5. 鲁棒性(Robustness)

    • 输入级扰动:加入噪声后模型性能下降幅度。
    • 语义级分布偏移:测试模型对未见模态(如用放射学模型处理眼底图像)的识别与拒绝能力。

3. 核心实验结果

3.1 可信性

  • 事实性错误普遍:所有模型在开放式问题上准确率低于50%,罕见解剖区域(如足部)表现更差。
  • 过度自信问题严重:模型倾向于对错误答案高度自信(如Med-Flamingo过自信率59.11%)。

3.2 公平性

  • 年龄差异:40-60岁群体表现最佳,老年群体因训练数据不足准确率显著下降。
  • 种族差异:西班牙裔和白人群体表现优于其他种族(如HAM10000数据集中准确率差异达15%)。

3.3 安全性

  • 越狱攻击有效:所有模型在恶意提示下准确率下降(如LLaVA-Med下降4.78%),仅LLaVA-Med具备一定防御机制(拒绝率30.17%)。
  • 毒性生成风险:通用LVLM(如LLaVA-v1.6)毒性得分增幅显著(+14.26%),Med-LVLMs防御能力较弱。

3.4 隐私性

  • 隐私保护不足:多数模型无法有效拒绝隐私问题(如RadFM拒绝率为0),且倾向于生成虚构隐私信息(准确率普遍低于50%)。
  • 少样本泄露风险:暴露虚构示例后,模型更易泄露输入中的隐私信息(如Qwen-VL-Chat准确率从5.10%升至11.32%)。

3.5 鲁棒性

  • 输入扰动敏感:加入噪声后模型准确率显著下降(如LLaVA-Med在IU-Xray上下降9.33%),但拒绝回答率低(<5%)。
  • 分布外数据处理差:模型对未见模态(如眼底图像)几乎无拒绝能力(拒绝率≈0%)。

4. 贡献与意义

  • 首个系统性医疗VLMs可信度基准:覆盖多维度、多模态,为研究提供标准化评估工具。
  • 关键问题揭示:指出现有模型的严重缺陷(如事实性错误、公平性偏差),推动改进方向。

5.总结

在本文中,介绍了 CARES,这是一个旨在评估医学 LVLM 可信度的综合基准。 它涵盖 16 种医学成像模式和 27 种解剖结构,通过不同的问题形式评估模型的可信度。 CARES 从多个维度–可信度、公平性、安全性、隐私性和稳健性–全面评估了医学 LVLM。 作者的研究结果表明,现有的 Med-LVLM 非常不可靠,经常出现事实错误和能力判断失误。 此外,这些模型在实现跨人口群体的公平性方面也很困难,而且容易受到攻击并产生有毒反应。 最终,CARES 所做的评估旨在推动进一步标准化,开发出更可靠的 Med-LVLMs。


http://www.kler.cn/a/592471.html

相关文章:

  • 布谷视频直播系统源码开发:深度剖析从架构设计到实现
  • 若依分离版整合多数据源——Phoenix+HBase
  • LiteratureReading:[2017] Attention Is All You Need
  • MSys2统一开发环境,快速搭建windows opencv环境
  • jmeter定时器-Constant Throughput Timer
  • 【从零开始学习计算机】计算机网络(二)物理层
  • Web3到底解决了什么问题?
  • 隐私权案件如何办理?公众人物隐私权为何受限?
  • 【Linux】Windows 客户端访问 Linux 服务器
  • 《Linux 网络架构:基于 TCP 协议的多人聊天系统搭建详解》
  • 数据库GreenDao的使用、升级、以及相关常用注释说明
  • 如何为预训练模型进行领域适配:全参数微调、LoRA 还是 Prompt Tuning?
  • 3.数据探索与可视化基本图形(直方图、箱线图、散点图)——Python数据挖掘代码实践
  • Java 中 LinkedList 的底层数据结构及相关分析
  • kubectl describe pod 命令以及输出详情讲解
  • 基于Flask的自闭症患者诊断辅助系统:助力自闭症诊断
  • 【Golang那些事】go1.22和1.23 更新重点及测评
  • 从技术角度看交互作用分析
  • 【C# 上位机UDP通讯】
  • Webpack 基础