【AI论文】BIOMEDICA:一个源自科学文献的开放生物医学图像-标注档案、数据集及视觉-语言模型
摘要:
视觉-语言模型(VLMs)的发展依赖于大规模且多样化的多模态数据集。然而,通用型生物医学VLMs的进展受限于生物学和医学领域缺乏带注释的、可公开访问的数据集。现有的工作仅限于狭窄的领域,未能涵盖科学文献中编码的生物医学知识的全部多样性。为了填补这一空白,我们推出了BIOMEDICA,这是一个可扩展的开源框架,用于从PubMed Central开放获取子集中提取、注释并序列化全部内容,生成一个易于使用、可公开访问的数据集。我们的框架生成了一个全面的档案,包含来自超过600万篇文章的超过2400万个独特的图像-文本对。同时,我们还提供了元数据和专家指导的注释。为了展示我们资源的实用性和可访问性,我们发布了BMCA-CLIP,这是一套在BIOMEDICA数据集上通过流式传输持续预训练的CLIP风格模型套件,无需本地下载27TB的数据。平均而言,我们的模型在涵盖病理学、放射学、眼科学、皮肤病学、外科学、分子生物学、寄生虫学和细胞生物学的40项任务中均达到了最先进的性能,在零样本分类方面平均提高了6.56%(在皮肤病学和眼科学中分别高达29.8%和17.5%),并且具有更强的图像-文本检索能力,而所有这些都只使用了十分之一的计算量。为了促进可重复性和合作,我们向更广泛的研究社区发布了我们的代码库和数据集。Huggingface链接:Paper page,论文链接:2501.07171
一、引言与背景
- 视觉-语言模型的发展:
- 驱动因素:视觉-语言模型(VLMs)的发展主要依赖于大规模且多样化的多模态数据集。这些数据集为模型的预训练和适应提供了基础,从而实现了强大的视觉表示,并在广泛的下游任务中达到了专家级的零样本性能。
- 通用型需求:尽管在通用领域取得了成功,但对通用型生物医学VLMs的需求日益增长。整合来自不同医学专业领域、分子生物学、遗传学及相关领域的知识,有可能彻底改变精准医疗。
- 生物医学领域的数据集挑战:
- 数据集缺乏:尽管对通用型生物医学VLMs的兴趣日益增加,但这一目标的实现受到缺乏跨广泛生物医学领域的带注释且可公开访问的多模态数据集的阻碍。
- 隐私与复杂性:分享患者信息的隐私担忧以及科学生物医学文献处理的复杂性进一步加剧了这一挑战。
- 科学生物医学文献的价值:
- 资源丰富:科学生物医学文献提供了一个不断扩展、高度策划的多模态资源,涵盖了专业人员的知识,反映了经过严格支持的医学和生物学证据。
- 开放获取:开放获取的科学文献为构建全面且多样化的生物医学数据集提供了无与伦比的资源。
二、BIOMEDICA数据集概述
- 数据集构建:
- 数据来源:BIOMEDICA数据集源自PubMed Central Open Access(PMC-OA)存储库,这是一个由美国国家生物技术信息中心(NCBI)托管的生物医学文献开放获取子集。
- 提取与标注:通过ETL(提取、转换、加载)管道,从PMC-OA中提取了超过600万篇文章的图像和文本数据,并进行了标注和序列化。
- 数据集规模:
- 图像-标注对:BIOMEDICA数据集包含超过2400万个独特的图像-标注对,这些对来自超过600万篇开放获取文章。
- 元数据与标注:每个数据点都包含超过27个独特的元数据字段,以及通过无监督算法和七位专家人工标注的粗粒度图像元数据。
- 数据集特性:
- 多样性:数据集涵盖了从临床成像到分子生物学、寄生虫学和细胞生物学等多个生物医学领域。
- 可访问性:数据集以Parquet和WebDataset格式提供,支持快速查询、过滤和高吞吐量流处理,便于模型开发和评估。
三、BIOMEDICA数据集的构建过程
- 数据提取:
- 媒体文件下载:从NCBI的FTP服务下载包含文章(以nXML文件格式存储)和媒体文件的压缩文件。
- 数据聚合:通过解析nXML文件和Entrez API,提取文章数据、元数据和图像-标注对。
- 概念标注:
- 特征聚类:使用DINO-v2模型为每张图像生成嵌入,并通过PCA和K-means进行聚类。
- 专家标注:由两位持证临床医生(病理学和外科学)和一位生物信息学家组成的团队,根据生物医学本体论和PMC-OA内容开发了一个层次化的概念分类体系,并对图像聚类进行标注。
- 数据序列化:
- 数据格式:将数据集序列化为Parquet和WebDataset格式,以支持快速查询、过滤和高吞吐量流处理。
- 数据访问:数据集通过Hugging Face平台提供,便于用户访问和利用。
四、BIOMEDICA数据集的应用与评估
- 模型预训练:
- BMCA-LIP:使用BIOMEDICA数据集持续预训练CLIP模型(BMCA-LIP),探索现代训练策略,如概念过滤和平衡。
- 预训练效果:BMCA-LIP模型在多个生物医学成像分类任务中取得了最先进的零样本分类性能。
- 评估基准:
- 分类任务:构建了包含39个生物医学分类任务的基准,涵盖病理学、放射学、眼科学、皮肤病学、外科学、分子生物学和细胞生物学等多个领域。
- 检索任务:使用Flickr上的生物医学图像-标注对构建了一个新的检索基准,评估模型在图像到文本和文本到图像检索任务中的性能。
- 实验结果:
- 概念过滤与平衡:实验结果表明,对数据集进行概念过滤和平衡可以显著提高模型在零样本分类和检索任务中的性能。
- 模型比较:BMCA-LIP模型在多个任务上超越了现有的生物医学CLIP模型,如BioMedCLIP和PMC-CLIP。
五、BIOMEDICA数据集的贡献与影响
- 数据集的贡献:
- 公开访问:BIOMEDICA数据集是第一个全面且公开的生物医学图像-标注数据集,涵盖了广泛的生物医学领域。
- 标注质量:数据集通过无监督算法和专家人工标注相结合的方式,提供了高质量的图像元数据和概念标注。
- 对生物医学研究的影响:
- 临床决策支持:BIOMEDICA数据集和预训练模型有潜力为临床医生提供决策支持,如通过检索相关图像和文本信息来辅助诊断。
- 药物发现与研发:数据集可以加速药物发现过程,通过整合来自不同生物医学领域的知识来识别新的治疗靶点。
- 对人工智能研究的影响:
- 模型开发:BIOMEDICA数据集为开发新的视觉-语言模型提供了丰富的训练数据,有助于推动人工智能在生物医学领域的应用。
- 跨学科研究:数据集促进了计算机科学、生物学和医学之间的跨学科合作,为解决复杂的生物医学问题提供了新的视角和方法。
六、未来展望与局限性
- 未来展望:
- 扩展数据集:随着PMC-OA存储库的不断增长,BIOMEDICA数据集也将持续扩展,涵盖更多的生物医学领域和图像类型。
- 新模型开发:基于BIOMEDICA数据集,可以开发更先进的视觉-语言模型,以支持更复杂的生物医学任务。
- 局限性:
- 上下文长度限制:当前使用的CLIP模型对上下文长度的限制可能限制了模型在处理长文本标注时的性能。
- 图像大小与分辨率:数据集中的图像大小和分辨率多样,可能需要对图像进行预处理以满足模型输入要求。
- 改进方向:
- 模型优化:针对上下文长度限制和图像大小问题,可以探索使用更先进的模型架构或预处理技术来提高模型性能。
- 标注质量提升:通过引入更多的专家参与标注过程,进一步提高数据集的标注质量和一致性。
BIOMEDICA数据集为生物医学研究和人工智能领域提供了一个宝贵的资源。通过持续扩展和优化数据集,以及开发更先进的视觉-语言模型,我们可以期待BIOMEDICA在推动精准医疗和加速生物医学研究方面发挥更大的作用。