细粒度生物医学多模态对比学习
一、前言
论文[1] 构建一个全新的生物医学多模态数据集 PMC-15M,其规模比现有的生物医学多模态数据集 MIMIC-CXR 大两个数量级,并涵盖了广泛类型的生物医学图像。PMC-15M包含来自440万篇科学文章中的1500万对生物医学图像-文本对。基于PMC-15M,论文[1] 预训练了BiomedCLIP,一个多模态基础模型,并针对生物医学视觉-语言处理进行了领域微调。并且在标准的生物医学成像任务上进行了广泛的实验和消融研究,这些任务从检索到分类再到视觉问答(VQA),BiomedCLIP在一系列标准数据集上取得了新的STOA 效果。
PMC-15M中大约有一半的图像是复合图。将这些复合图分割成子图可以实现更细粒度的建模,并可能学习到更好的视觉-语言表征。为此,论文[1] 粗略介绍构造细粒度图文对数据集 PMC-Fine-Grained-46M,流程如下:
- 通过使用正则表达式和规则将复合图标题拆分成带有独立标签的子标题拆分标题;
- OCR 技术检测图中的文本,将子标题的标签与OCR检测到的文本相匹配;
- 将复合图像拆分为子图,并提取出来子图的标签,与子标题的标签相匹配。
但是,论文[1] 对PMC-Fine-Grained-46M的使用仅限于统计细粒度图像分布,计划在未来的工作中探索利用 PMC-Fine-Grained-46M 来增强 B