当前位置: 首页 > article >正文

【Arxiv 大模型最新进展】LLaVA Needs More Knowledge: 利用 KG-RAG 提升病理解释性能,并保护隐私(★AI最前线★)

【Arxiv 大模型最新进展】LLaVA Needs More Knowledge: 利用 KG-RAG 提升病理解释性能,并保护隐私(★AI最前线★)


🌟 嗨,你好,我是 青松 !

🌈 自小刺头深草里,而今渐觉出蓬蒿。


NLP Github 项目推荐:

  • 【AI 藏经阁】:https://gitee.com/fasterai/ai-e-book

    介绍:该仓库主要分享了数百本 AI 领域电子书

  • 【AI 算法面经】:fasterai/nlp-interview-handbook#面经

    介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器

  • 【大模型(LLMs)面试笔记】:https://gitee.com/fasterai/nlp-interview-handbook

    介绍:该仓库汇总了 NLP 算法工程师高频面题,适合大模型初学者和正在准备面试的小伙伴希望能帮助各位同学缩短面试准备时间,不错过金三银四涨薪窗口,迅速收获心仪的Offer 🎉🎉🎉


文章目录

  • LLaVA Needs More Knowledge: Retrieval Augmented Natural Language Generation with Knowledge Graph for Explaining Thoracic Pathologies
    • 方法详解
      • 病理分类任务
      • 知识图谱检索
      • 视觉与语言模型
      • 实验结果


LLaVA Needs More Knowledge: Retrieval Augmented Natural Language Generation with Knowledge Graph for Explaining Thoracic Pathologies

作者Ameer Hamza, Abdullah, Yong Hyun Ahn, Sungyoung Lee, Seong Tae Kim

单位Kyung Hee University, Republic of Korea

下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

方法详解

该框架将一个预训练的 LLaVA 模型与一个 CLIP ViT - L 视觉编码器相结合,以提取视觉特征,然后将这些视觉特征投影到语言模型的嵌入空间中。KGR 模块使用 MedCLIP 将输入图像映射到一个共享的潜在空间,并通过 FAISS 库检索相关的 KG 三元组。这些三元组提供了特定领域的上下文,增强了胸部病理准确且信息丰富的自然语言解释(NLE)的生成。模块化设计允许与其他架构(如 Med - XPT 和 Bio - LLaVA)无缝集成,确保在不同的视觉 - 语言任务中具有灵活性和适应性。

病理分类任务

运用 MLP 处理医学视觉模型提取的视觉特征,对 10 种病理按存在可能性分为阴性不确定阳性三个确定性水平进行预测。得到分类后的结果,跟KG-RAG检索到的知识一起输给大模型。

知识图谱检索

为解决传统 RAG 系统可能暴露患者敏感信息的风险,提出基于 KG 的 RAG 方法。该方法使用由通用医学术语、实体及其相互关系组成的 KG,避免直接涉及患者特定细节,降低隐私暴露风险。

数据存储的构建

  • 构建一个包含 KG 三元组的数据存储,这些三元组来自 MIMIC - CXR 训练集,通过 RadGraph 模型提取。形式为:“疾病实体 - 关系描述 - 相关实体” 的形式,如 “肺炎 - 暗示 - 肺部阴影” 等
  • 仅使用具有 “暗示” 关系的三元组,因为它们与解释病理更直接相关。
  • 三元组的嵌入使用 MED-CLIP 模型生成,并仅存储文本信息,排除图像特征,以便实现跨模态检索。

知识检索过程

  • 对于每个查询图像,使用 MED-CLIP 模型提取视觉特征,该模型将视觉和三元组特征映射到统一特征空间。
  • 通过计算查询图像视觉特征与存储的三元组嵌入之间的余弦相似度,从 KG 数据存储中检索出最相似的前 k 个三元组。

视觉与语言模型

视觉模型:MedCLIP 和 ViT - L/14 CLIP

语言模型:LLaVA 或者 Viccuna

最后集成信息输入,向语言模型提供病理及其确定性水平(不确定、阳性)以及检索到的知识。这些元素被集成到一个结构化的提示模板中。然后将这个提示输入到解码器中,解码器根据图像特征、病理和检索到的知识生成自然语言解释(NLE)。

实验结果

与其他方法比较

在 MIMIC - NLE 测试集上,将 KG - LLaVA 框架与 RATCHET、TieNet、DPT 等方法比较。KG - LLaVA 在 AUC(83.0)、BLEU - 4(7.2)、METEOR(15.1)、ROUGE - L(25.0)和 CIDEr(62.2)等指标上均优于现有方法,表明其在准确分类和生成胸部病理相关解释方面的有效性。

不同 LLMs 比较

对 KG - LLaVA、Med - XPT 和 Bio - LLaVA 三个框架比较。KG - LLaVA 在 BLEU - 4、METEOR 和 ROUGE - L 指标上表现最佳,能生成准确且内容丰富的解释;

不同 RAG 方法影响

比较 Med - XPT 和 KG - LLaVA 在无 RAG、基于标准 NLE 的 RAG 以及基于 KG 检索模块的 RAG 三种配置下的性能。在 KG 配置下性能提升最显著,KG - LLaVA 在多个指标上领先,Med - XPT 在 CIDEr 指标上表现出色,证明了 KG - RAG 模块的重要性。


  • 原文链接: https://arxiv.org/abs/2410.04749

http://www.kler.cn/a/552239.html

相关文章:

  • electron 本地文件管理系统关于下载的一个关键点
  • Jenkinsdebug:遇到ERROR: unable to select packages:怎么处理
  • 中期检查表
  • C++基础知识学习记录—运算符重载
  • 【Golang 面试题】每日 3 题(五十八)
  • ubuntu平台下vim自动插件管理
  • [AI相关]Unity的C#代码如何简写
  • 构建高效智能对话前端:基于Ant Design X 的deepseek对话应用
  • Kafka的生产者和消费者模型
  • Go 语言函数返回对象 vs 传递指针赋值:性能对比与最佳实践
  • C#上位机--结构
  • Redis(高阶篇)03章——缓存双写一致性之更新策略探讨
  • 在华为云部署应用,通过阿里云代理调用第三方接口的利弊与解决方案
  • 机器学习(李宏毅)——RNN
  • 搭建一个 Spring Boot 项目,解决jdk与springboot版本不匹配
  • vue3中reactive的对象清空,所引发的问题:清空不了和清空之后再去赋值就赋值不了为什么
  • 年前集训总结python
  • 玩客云 IP查找
  • Gateway中的Filter机制
  • 解锁养生秘籍,拥抱健康生活