病理AI领域基础模型及多实例学习方法的性能评估|顶刊精析·25-01-27
小罗碎碎念
这篇论文聚焦于组织学全切片图像分析,旨在探究多实例学习(MIL)与基础模型(FMs)结合的效果。
由于全切片图像(WSI)分析面临标注有限和模型直接处理困难等问题,MIL成为常用的弱监督学习方法,但现有不同特征提取和聚合方式缺乏系统比较。
为此,研究人员整合了六种基础模型(FMs)和六种多实例学习方法,在涵盖四种癌症类型的七个临床任务上进行系统评估。实验结果显示,使用CONCH和UNI等FMs进行补丁级编码能显著提升MIL分类的准确率和训练收敛速度,且实例特征微调可进一步优化性能。同时,MIL聚合器在不同的补丁级编码器和分类任务中表现各异,如RRT在部分任务中表现出色。
综上所述,该研究表明FMs在提升MIL模型性能方面具有重要作用,为计算病理学中选择合适的模型和方法提供了客观依据,也为后续开发更先进的特定领域FMs指明了方向。
知识星球
如需获取推文中提及的各种资料,欢迎加入我的知识星球!
一、引言
随着组织学数字化的趋势和人工智能(AI)的快速发展,AI引导的WSI分析日益受到重视,旨在提供计算机辅助诊断、分级、临床结果预测等功能。
由于高倍率WSI文件体积庞大,通常达到几吉字节,这使得病理学家全面标注大量WSI变得不切实际,同时也给深度学习模型直接处理这些数据带来了挑战。
为了解决有限的组织学标注问题,并有效学习切片级别的表征,多实例学习(MIL)为WSI分类任务提供了一个有前景的解决方案。
在MIL框架下,每个WSI通常被切割成数千个瓦片,但只有整个切片的标注是已知的,而不是每个瓦片(Laleh等,2022)。每个WSI被视为一个带标签的“包”,相应的瓦片作为未标记的“实例”,这与临床任务预测的WSI分析场景完美契合。
近期,深度MIL方法已成为计算组织病理学中WSI分类的主流方法。
深度MIL遵循一个通用的三阶段流程:
- 实例级特征提取
- 包级特征聚合
- 特定任务分类
现有的深度MIL方法主要在特征提取和聚合模块上存在差异,这两个模块在WSI分类任务中均发挥着关键作用。
预训练的卷积神经网络(CNNs),如ResNet50模型,已被广泛用作实例级特征提取器(Lu et al., 2021b,a; Zhang et al., 2022; Shao et al., 2021)。然而,这些使用ImageNet数据集预训练的模型可能无法捕捉到与下游WSI分类任务相关的特定领域特征(Xu et al., 2023)。
为了提取组织学特定特征,现有研究探索了各种瓦片级编码策略。
例如,Li et al. (2021)在其MIL框架中应用了自监督对比学习进行特征提取。Chen et al. (2022)通过使用DINO框架(Caron et al., 2021)探索了自监督的视觉Transformer(ViT)来提取层次化的组织图像特征。
近期,为组织图像嵌入设计的特定FM已出现,以生成信息丰富的表征并在各种下游任务中泛化良好。Wang et al. (2022)引入了CTransPath,这是一个将卷积神经网络与多尺度Swin Transformer架构相结合的混合模型。该模型在来自TCGA和PAIP数据集的大约1500万张未标注WSI瓦片上预训练,作为多样化组织病理学任务的通用特征提取器。
Ikezogwo et al. (2024)整理了一个名为QUILT的大规模视觉-语言数据集,来源于相关的组织病理学YouTube视频。通过整合来自Twitter、研究论文和更广泛的互联网的数据,扩展为更大的QUILT-1M数据集。他们使用QUILT-1M微调了预训练的CLIP模型,构建了QUILTNET,该模型在下游组织病理学图像分类的零样本和线性探测任务中展现了有希望的性能。
Hua et al. (2023)开发了PathoDuet,这是一个基于两个预训练任务——跨尺度定位和跨染料转移的病理切片分析基础模型。该模型最初在苏木精和伊红(H&E)图像上预训练,然后转移到免疫组化(IHC)图像上,使其能够作为不同组织学染料的通用特征提取器。
Huang et al. (2023)从Twitter收集了大量配对自然语言描述的病理图像数据集,并使用对比学习开发了病理语言-图像预训练(PLIP)模型。Lu et al. (2024)使用PubMed上公开可用的文章整理了迄今为止最大的组织病理学图像-标题对数据集,并通过任务无关的预训练构建了视觉-语言FM,以解决广泛的下游计算病理学任务。
Chen et al. (2024b)从超过10万张诊断性H&E染色WSI中收集了超过1亿张组织学图像,并使用DINOv2流程(Oquab et al., 2023)训练了一个名为UNI的通用自监督病理模型。
Vorontsov et al. (2024)通过从大约130亿个可用组织瓦片中随机采样并替换训练了2亿个瓦片,开发了一个名为Virchow的FM。Virchow使用了ViT-huge架构,并通过DINOv2流程进行训练。一个好的特征提取器在深度MIL分类任务中扮演关键角色(Wölflein et al., 2023)。
然而,这些最新的组织学FM在不同的MIL流程中的功能尚不明确。
针对深度MIL基础的WSI分类任务,已经开发了许多特征聚合方法。
注意力基础的MIL(ABMIL)(Ilse et al., 2018)是该领域的一个开创性方法,它通过使用基于神经网络的排列不变聚合算子来计算每个实例的贡献。Lu et al. (2021b)提出了聚类约束的注意力MIL(CLAM),通过生成多个并行的注意力分支来扩展ABMIL,用于多类WSI分类。Zhang et al. (2022)开发了双层特征蒸馏MIL(DTFDMIL)用于WSI分类,该方法使用了两轮ABMIL,并引入了伪包来辅助模型训练。
受Transformer成功的启发,Shao et al. (2021)提出使用自注意力池化来聚合组织学瓦片的实例特征嵌入。由于传统的Transformer无法处理过长的序列,不适合具有长实例序列的大型WSI,他们采用了Nystrom方法(Xiong et al., 2021)来近似softmax函数。
Chen et al. (2022)开发了分层图像金字塔Transformer(HIPT),利用WSI固有的层次结构,通过两个级别的自监督学习来学习切片级表征。Li et al. (2024)提出了一种基于知识感知注意力方法的动态图表示,称为WiKG。该方法探索了实例之间的相互关系,并利用它们的方向性贡献来更好地在瓦片之间互动,从而提高WSI分类性能。
还有许多其他相关的深度MIL方法也专注于WSI分类任务,如基于图神经网络(GNN)的MIL(Hou et al., 2022)和结合MIL的监督对比学习(Juyal et al., 2024)。
一些研究在公共组织学基准和内部数据集上比较了常用的MIL方法。然而,可能由于数据集划分或选择的不同,即使在公共数据集上,报告的性能也可能彼此有所差异(Shao et al., 2021; Zhang et al., 2022; Tang et al., 2024)。
因此,对于临床相关问题,哪些方法能提供最佳性能,仍然缺乏系统性的证据。这种证据的缺乏阻碍了研究人员、病理学家和公司在计算病理学应用中做出最佳设计选择。
为了解决基于基础模型的微病理学MIL分类缺乏无偏见的基准研究的问题,作者系统地收集了覆盖七个具有诊断或治疗相关性的临床端到端预测任务的WSI数据集。
这些任务包括乳腺癌患者的组织学分级、生物标志物预测、胶质瘤和肝癌患者的组织学分级,以及结直肠癌患者的微卫星不稳定性(MSI)预测。数据集包含自建和公开可获取的队列,从而建立了一个公平且可重复的基准。
作者对五种近期提出的组织学FM和用于瓦片级特征嵌入的ImageNet预训练ResNet50进行了基准测试,同时还包括了MIL流程中的六种最先进的切片级特征聚合方法,旨在为基于MIL的WSI分类提供无偏见的FM评估。作者希望本研究能够提供客观证据,帮助读者使用现有的FM和MIL框架解决WSI分类任务。
二、方法
2-1:Deep MIL的概念、数学表达以及建模方式
多实例学习的设定
对于给定的WSI,用 X = { ( x 1 , y 1 ) , . . . , ( x n , y n ) } X = \{(x_1,y_1),...,(x_n,y_n)\} X={(x1,y1),...,(xn,yn)}表示一个“包”,包含 n n n个实例(如含组织的图像块 x i x_i xi ), Y Y Y表示与 X X X对应的切片级标签,实例级标签 { y 1 , . . . , y n } \{y_1,...,y_n\} {y1,...,yn}不可用。
主要目标是解决包级分类任务 P ( Y ∣ X ) P(Y|X) P(Y∣X),同时发现能触发包标签的关键实例 x i x_i xi 。
数学表达与建模方式
Deep MIL的一般形式为
P
(
Y
∣
X
)
=
f
(
ρ
(
{
ϕ
(
x
i
)
:
x
i
∈
X
}
)
)
P(Y|X)=f(\rho(\{\phi(x_i):x_i\in X\}))
P(Y∣X)=f(ρ({ϕ(xi):xi∈X}))
其中
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅)是实例级特征提取器,
ρ
(
⋅
)
\rho(\cdot)
ρ(⋅)是包级特征聚合器,
f
(
⋅
)
f(\cdot)
f(⋅)是特定任务分类器。
MIL可基于 ϕ \phi ϕ和 ρ \rho ρ的选择,通过基于实例和基于嵌入两种方式建模。
- 基于实例的方法中, ϕ \phi ϕ是给每个实例打分的实例分类器, ρ \rho ρ是聚合实例分数以生成包级预测的池化算子;
- 基于嵌入的方法中, ϕ \phi ϕ是将每个实例映射到嵌入的实例级特征提取器, ρ \rho ρ是从实例嵌入生成包嵌入的包级特征聚合器,最终包级预测通过函数 f f f实现。
由于基于嵌入的方法直接将包级嵌入映射到分类标签,在当前先进的WSI分类任务中更具吸引力,所以本研究聚焦于对其进行基准测试。
2-2:用于多实例学习(MIL)分类的基础模型(FMs)
如图1(a)所示,在使用深度多实例学习方法进行诊断分类之前,全切片图像(WSI)需要进行预处理。
在本研究中,采用CLAM工具包(Lu等人,2021b)中的预处理操作,主要包括7×7中值滤波、大津阈值法(Otsu’s thresholding)以及形态学操作,以定位每张WSI中的组织区域。
图2展示了两个组织检测示例,用绿色轮廓标记。
根据相应切片的最大放大倍数和下采样因子自适应配置参数,从这些组织区域中提取20倍放大下256×256像素的非重叠图像块。之后,可应用各种特征提取器对其进行编码。
然后,使用不同的特征聚合器将这些编码后的图像块进行聚合,以形成切片级表示。本研究主要聚焦于对近期用于实例级嵌入的组织学基础模型以及MIL流程中具有代表性的特征聚合方法进行基准测试。
图1(b)展示了基于多实例学习(MIL)的全切片图像(WSI)分析流程,涵盖预处理、特征提取、特征聚合以及切片级分类四个主要环节。
- WSI预处理(WSI Pre - processing):这是流程的起始步骤,为后续操作提供基础。
- 特征提取器(Feature Extractors):包含ResNet50、CTransPath、PathoDuet、PLIP、CONCH、UNI等多种模型,负责从预处理后的WSI中提取特征。
- 特征聚合器(Feature Aggregators):有ABMIL、CLAM、DTFD、TransMIL、RRT、WiKG等,其作用是将特征提取器提取的特征进行聚合处理。
- 切片级分类器(Slide - level Classifiers):用于对聚合后的特征进行分类,具体任务包括二分类分级(Two - class Grading)、二分类微卫星不稳定性(MSI)预测(Two - class MSI Prediction)、多标签分类(Multi - label Classification)、三分类分级(Three - class Grading)、四分类分级(Four - class Grading) 。
整个流程通过不同模块的协作,实现对WSI的分析和分类,各环节所涉及的具体模型和方法在WSI分析中扮演着不同的角色,共同为最终的分类任务服务。
2-3:特征提取器
在实例级特征嵌入方面存在不同的选择。
早期,在ImageNet上预训练的卷积神经网络(CNN)模型,如ResNet50(Lu等人,2021b),被广泛用于对实例级特征进行编码。
由于ImageNet与病理图像之间存在较大的领域差距,一些基本信息可能无法被冻结的卷积滤波器层所包含,这限制了全切片图像(WSI)的分类性能。
为解决这一限制,自监督学习(SSL)被用于学习组织学图像块的有效特征表示。
最近,利用SSL策略在数百万个组织学图像块上训练的基础模型(FMs)已被开发出来,以学习通用的特征表示。
图1©从SSL策略、主干架构和训练图像块数量方面对五种特定于组织学的FMs进行了图形化比较。
表A.3详细说明了这些FMs所使用的数据集和SSL预训练策略。
这张表格(Table A.3)总结了五种特定于组织学的基础模型(CTransPath、PathoDuet、PLIP、CONCH、UNI)的相关信息。
- 来源(Sources):CTransPath来自TCGA和PAIP;PathoDuet来自TCGA、HyReCo和BCI;PLIP来自Twitter和PathLAION;CONCH来自EDU和PMC OA;UNI来自MGH、BHW和GTEx。
- 全切片图像数量(No. of WSIs):CTransPath有29,763和2457张;PathoDuet约有11,000张,另一来源数据未提供(NA);PLIP、CONCH数据未提供;UNI有100,426张。
- 图像块数量(No. of Patches):CTransPath分别为14,325,848和1,254,414个;PathoDuet分别为13,166,437和21,216对;PLIP有208,414对;CONCH有457,372对;UNI有100,130,900个。
- 染色方式(Staining):CTransPath均为H&E染色;PathoDuet分别为H&E染色以及H&E和IHC染色;PLIP为H&E和IHC染色;CONCH为H&E染色;UNI为H&E染色。
- 癌症类型数量(Cancer types):CTransPath分别涉及32种和6种;PathoDuet分别涉及多种和2种;PLIP和CONCH均涉及多种;UNI涉及20种。
- 数据中心数量(No. of Centers):CTransPath分别为多个和3个;PathoDuet分别为多个和2个;PLIP和CONCH均为多个;UNI为3个。
- 自监督学习策略(SSL Strategy):CTransPath和PathoDuet均采用MoCo v3变体;PLIP采用CLIP模型;CONCH采用CoCa模型;UNI采用DINOv2。
- 亮点(Highlights):CTransPath是混合CNN - Transformer主干架构;PathoDuet是ViT主干,使用H&E - IHC对;PLIP是ViT主干,使用图像 - 文本对;CONCH是ViT主干,使用图像 - 标题对;UNI是ViT主干。
表A.4总结了训练这些FMs所涉及的器官分布。
表格的行表示不同的器官,列表示不同的编码器(特征提取模型),包括ResNet50、CTransPath、PathoDuet、PLIP、CONCH和UNI 。
符号“√”表示相应器官被纳入预训练数据,“×”表示未被纳入,“?”表示未知的纳入状态。
- ResNet50:所有列出的器官均未被纳入预训练数据。
- CTransPath:纳入了女性生殖系统、男性生殖系统、中枢神经系统、肺、肾、肝胆系统、头颈、食管胃、肠、乳腺、皮肤、骨、关节和软组织肿瘤、下尿路、内分泌、外周神经和骨骼肌、淋巴系统等多个器官系统的数据。
- PathoDuet:纳入了女性生殖系统、男性生殖系统、中枢神经系统、肺、肾、头颈、食管胃、肠、乳腺、皮肤、骨、关节和软组织肿瘤、下尿路、内分泌、外周神经和骨骼肌、淋巴系统等器官系统的数据。
- PLIP:所有器官的纳入状态均未知。
- CONCH:纳入了女性生殖系统、男性生殖系统、中枢神经系统、肺、肾、肝胆系统、头颈、食管胃、肠、乳腺、皮肤、骨、关节和软组织肿瘤、下尿路、内分泌、外周神经和骨骼肌、淋巴系统、血管等器官系统的数据。
- UNI:纳入了女性生殖系统、男性生殖系统、中枢神经系统、肺、肾、头颈、食管胃、肠、乳腺、骨、关节和软组织肿瘤、下尿路、内分泌、外周神经和骨骼肌、淋巴系统等器官系统的数据,未纳入血液病理学、胰腺、腹膜的数据。
2-4:不同模型对比
(1) 预训练的ResNet50(He等人,2016)
ResNet50是一个强大且有影响力的CNN模型,以其创新地使用残差连接来促进深度网络的训练而闻名。
作者采用在ImageNet(Deng等人,2009)上预训练的ResNet50模型,并通过自适应平均空间池化将组织学图像块编码为特征向量。选择ResNet50主要是因为它是现有MIL框架中使用最广泛的特征编码器。
最近的FMs(Lu等人,2024;Chen等人,2024b)也将其用作基线特征编码器。
(2) CTransPath(Wang等人,2022)
CTransPath是一个混合模型,集成了CNN和多尺度Swin Transformer架构。CNN通过卷积操作提取局部特征,而Transformer通过CNN生成的标记之间的交互来捕获全局依赖关系。
CTransPath模型在大约1500万个未标记的组织学图像块上进行了预训练。这种预训练是使用一种名为语义相关对比学习(SRCL)的新型半监督学习策略进行的,该策略是基于MoCo V3(Chen等人,2021)开发的。
(3) PathoDuet(Hua等人,2023)
PathoDuet采用Vision Transformer(ViT)主干,并使用基于两个前置任务的SSL框架进行预训练,这两个任务是跨尺度定位和跨染色转换,遵循MoCo V3方法(Chen等人,2021)。
跨尺度定位利用尺度的偏移视图来发现更广泛的语义空间。跨染色转换从苏木精 - 伊红(H&E)模型中学习免疫组织化学(IHC)图像的表示。
PathoDuet在从癌症基因组图谱(TCGA)的WSI生成的超过1300万个图像块上进行了训练。
(4) PLIP(Huang等人,2023)
PLIP是一种用于病理图像分析的通用图像 - 语言FM,它在一组名为OpenPath的208,414个病理图像 - 文本对上进行了训练。
使用了32个病理亚专科特定的主题标签,从2006年11月15日至2022年11月15日检索相关推文,以建立OpenPath。
一个预训练的对比语言 - 图像预训练(CLIP)模型在OpenPath上使用对比学习进行了微调。该模型作为一个通用图像编码器,捕获了针对病理学增强的图像表示。
(5) CONCH(Lu等人,2024)
组织病理学的标题对比学习(CONCH)是一种视觉 - 语言FM,它使用各种来源的组织病理学图像、生物医学文本,特别是通过与任务无关的预训练在超过117万个图像 - 标题对上开发而成。
CONCH由一个图像编码器、一个文本编码器和一个多模态文本解码器组成。图像编码器具有ViT主干。
文本编码器和多模态解码器都是GPT风格的模型。该模型使用图像 - 文本对比损失和字幕损失的等权重组合进行预训练,遵循CoCa方法(Yu等人,2022)。
(6) UNI(Chen等人,2024b)
UNI是一种用于病理学的通用自监督模型,它使用来自20种主要组织类型的超过100,000个诊断性H&E染色的内部WSI中的超过1亿张图像进行预训练。
该模型具有ViT主干,并使用DINOv2(Oquab等人,2023)进行预训练,DINOv2是一种基于学生 - 教师知识蒸馏的当前最优(SOTA)的SSL方法。
2-5:特征聚合器
作者实现并系统地比较了六种具有代表性的特征聚合器。
为了进行公平比较,所有选定的特征聚合器仅应用于来自单一分辨率图像块(即20倍放大)的特征嵌入。
图1(d)从模型大小和聚合策略方面对六种MIL聚合器进行了图形化比较。
(1) ABMIL中的注意力池化(Ilse等人,2018)
如图3(a)所示,给定实例嵌入,注意力池化使用神经网络来学习加权参数,捕获每个实例对包嵌入的贡献。
然后将聚合的包级特征表示输入多层感知器(MLP)头部,以生成患者级预测。
(2) CLAM中的聚类约束注意力(Lu等人,2021b)
它生成注意力分数,并使用ABMIL中的注意力池化(Ilse等人,2018)将实例嵌入聚合成包级表示。
然而,如图3(b)所示,它利用切片级真实标签和神经网络预测的注意力分数,为高度和弱关注的图像块生成伪标签。
这作为额外的监督学习任务,在训练期间增强图像块级特征空间的可分离性。
(3) DTFD中的双层注意力池化(Zhang等人,2022)
如图3©所示,它利用双层注意力池化来应对MIL可用的WSI数量有限所带来的挑战。
使用从WSI的随机分割图像块生成的三个伪包来训练一级ABMIL模型。随后,二级ABMIL模型聚合伪包特征表示以生成包级预测。在训练期间,真实包标签对一级和二级模型进行监督。
(4) TransMIL中的自注意力池化(Shao等人,2021)
图4(a)说明了在TransMIL中使用自注意力机制对实例嵌入之间的相互作用进行建模的过程。
如图4(a)所示,通过连接几个实例嵌入来实现序列的平方,确保特征标记的数量具有整数平方根。然后将特征标记输入Transformer层以学习全局相关性。
在此之后,实例标记被重塑为二维图像空间,并使用不同内核大小的卷积层对空间信息进行编码。最后,融合的特征标记被展平并通过使用另一个Transformer层进行聚合,其中类标记用于特定任务的分类。
请注意,为了克服在对长序列相互作用进行建模时高内存需求和时间复杂性的限制,在TransMIL中应用了Nystrom方法(Xiong等人,2021)来近似softmax函数。
(5) 重新嵌入的区域Transformer(RRT)(Tang等人,2024)
如图4(b)所示,在RRT中,首先使用离线提取器将组织图像块裁剪并嵌入为特征向量。
然后,将特征标记序列划分为几个局部区域。应用带有嵌入位置编码生成器(EPEG)的区域多头自注意力(R - MSA)来学习这些局部区域内的实例交互。
之后,进行跨区域MSA,以对基于上下文的语义特征和跨区域连接的能力进行建模。最后,使用MinMax归一化权重将更新后的代表性特征分配给区域中的每个实例。应用ABMIL方法(Ilse等人,2018)将重新嵌入的实例特征聚合为包级表示,用于MLP分类。
(6) WiKG中的知识感知注意力(Li等人,2024)
如图4©所示,首先使用两个单独的线性投影层将所有嵌入的图像块级标记投影为头部和尾部嵌入。
头部嵌入旨在捕获其他图像块与自身之间的相关性,而尾部嵌入专注于探索它们对其他图像块的贡献。然后,基于实例之间的头部和尾部关系动态构建邻居和有向边嵌入。
通过使用知识感知注意力机制学习每个邻居和边的联合注意力分数来更新头部节点特征。然后通过对更新后的头部节点特征进行全局池化来创建图级嵌入,作为WSI分类的隐式切片级表示。
三、数据集和评估设置
3-1:乳腺癌
自建数据集包含2384张乳腺癌患者的苏木精 - 伊红(H&E)染色全切片图像(WSI),每张切片代表一名患者。
这些WSI是使用高分辨率玻璃切片扫描仪(KF - PRO - 020,KFBIO,中国)在40倍放大(0.2511 um/像素)下扫描的,收集自中国的三家医院,包括山东大学齐鲁医院(QHSU)、山东大学第二医院(SHSU)和青岛中心医院(QCH)。
所有队列在分析时均进行了匿名化处理。图5(a)(b)显示了三个乳腺癌队列中用于分级分类和生物标志物预测任务的患者数量(另见表A.5的左九列)。
使用自建的乳腺癌队列,作者对所有技术方法在四个端到端预测任务上进行了基准测试,每个任务都代表了不同的临床相关问题。
低风险与高风险患者
所有这些乳腺癌患者均被诊断为浸润性导管癌(IDC),并由专家病理学家根据诺丁汉组织学分级系统评为1、2或3级。
该分级系统通过半定量评估三个参数来评估IDC患者:
- 腺体形成比例
- 核多形性
- 有丝分裂计数
这些对IDC患者的预后评估至关重要。
由于1级患者很少(仅3 - 8%),作者将1级和2级合并为低风险患者,与高风险患者(3级)区分开来。
值得注意的是,QHSU、SHSU和QCH三个队列的低风险患者均多于高风险患者(见图5(a))。具体而言,QHSU队列有1606名低风险患者,是高风险患者(621名)的两倍多。
生物标志物状态阳性与阴性
雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(HER2)是三个关键的分子生物标志物,是优化临床决策的基石。
这些生物标志物提供了重要的预后信息,并预测对特定疗法的反应,有助于制定乳腺癌患者的个性化治疗计划(Gamble等人,2021)。在当前实践中,ER、PR和HER2的生物标志物状态通常通过免疫组织化学(IHC)染色组织的组织学检查来确定,每种生物标志物使用单独的IHC染色。
然而,由于IHC染色方法昂贵且涉及额外的病理评估,使用H&E染色的组织学图像预测IHC生物标志物是一种有前景的方法(Naik等人,2020;Lu等人,2022)。考虑到ER、PR和HER2都是与乳腺癌相关的生物标志物,作者创新性地建立了多标签学习模型来同时预测它们的状态,探索生物标志物之间的相关性以提高预测的准确性和效率。
请注意,作者收集的带有生物标志物标签的乳腺癌患者被诊断为IDC或原位癌(CIS)。如图5(b)所示,只有QHSU和SHSU队列有生物标志物标签,并且在这两个队列的所有三个生物标志物预测任务中都存在明显的不平衡数据分布。
3-2:胶质瘤
使用了一个公共的癌症基因组图谱(TCGA)胶质瘤队列,包含来自不同胶质瘤患者的757张H&E染色WSI。这些切片以40倍放大(像素分辨率为0.252 μm/像素)或20倍放大(像素分辨率为0.5015 μm/像素)进行数字化。
尽管部分TCGA胶质瘤患者有多张切片,但仅选取每个患者最具代表性的切片进行处理。如图5©所示,2、3和4级胶质瘤患者数量分别为199、202和356(另见表A.5中间四列)。
此外,从大连医科大学附属第二医院(SAHDMU)收集了136张胶质瘤患者的H&E染色WSI,所有切片均匿名化,并使用Aperio GT 450数字病理切片扫描仪(美国徕卡)在40倍放大(像素分辨率为0.263 μm/像素)下扫描。
如图5©所示,SAHDMU队列中2、3和4级胶质瘤患者数量分别为28、24和84(另见表A.5中间四列)。
3-3:肝癌
为进一步增强研究结果的通用性,从广东省人民医院(GPPH)收集了344张肝癌患者的H&E染色WSI,所有切片均匿名化,并使用Aperio GT 450数字病理切片扫描仪(美国徕卡)在40倍放大(像素分辨率为0.263 μm/像素)下扫描。
根据病理学家评估的组织学特征,这些切片被诊断为1 - 4级四个组织学等级。如图5(d)所示,GPPH队列中1、2、3和4级肝癌患者分别为106、84、131和23名(另见表A.5右侧五列)。
由于数据集不平衡,4级患者数量较少,给分类带来重大挑战。
3-4:结直肠癌
最终使用了一个公共的TCGA队列,包含来自结直肠癌(CRC)患者的383张H&E染色WSI ,该队列用于评估从组织学切片预测微卫星不稳定性(MSI),因为MSI状态对选择可能从免疫治疗中获益的患者至关重要。
如图5(e)所示,TCGA CRC队列包括326名微卫星稳定(MSS)患者和57名MSI患者,是一个严重不平衡的数据集。
3-5:实验设计与配置
为了在多个数据队列上进行基准评估,研究采用了特定的实验设计与配置。
交叉验证实验
首先,在每个数据队列内部进行患者级别的5折交叉验证实验,并报告平均结果。
这种方法通过将数据划分为五个子集,轮流使用其中四个子集作为训练集,一个子集作为测试集,多次训练和评估模型。
最后取平均值,能够更可靠地评估模型在该队列上的性能,减少数据划分带来的偏差 。
独立测试队列实验
基于内部队列构建五个模型,分别在独立测试队列上进行测试,并报告平均结果。
在乳腺癌诊断分类实验中,以QHSU队列为内部队列,SHSU和QCH队列为独立测试队列。不过,由于QCH队列缺少生物标志物标签,因此在评估生物标志物预测时未使用该队列。
在胶质瘤分级实验中,将TCGA胶质瘤切片作为内部队列进行患者级5折交叉验证,SAHDMU队列作为独立测试队列,报告基于TCGA队列训练的五个模型在SAHDMU队列上的平均结果,以进行综合评估。
单一队列实验
对于肝癌分级和结直肠癌MSI预测,由于分别只有一个队列(GPPH肝癌队列和TCGA CRC队列),所以直接在这些队列上进行患者级5折交叉验证实验。
这种针对不同数据情况的实验设计,能够全面、系统地评估模型在不同癌症类型、不同任务下的性能表现,为后续分析和比较不同模型及方法提供了可靠的数据基础。
3-6:模型的训练和评估
-
硬件和软件环境:
- 所有基准模型都是在配备了两块NVIDIA RTX 4090 GPU的服务器上实现的。
- 使用了Python编程语言和PyTorch库(版本1.7.1)。
-
优化器和学习率:
- 使用了AdamW优化器,学习率设置为1e-4。AdamW是Adam优化器的一个变种,通常用于深度学习模型的训练。
-
批量大小:
- 批量大小设置为1,这是考虑到不同包中实例数量的差异。
-
训练和验证集:
- 训练集中20%的样本被随机选作验证集,用于监控训练过程。
-
训练周期和早停:
- 训练最多进行100个周期(epochs)。
- 如果在验证集上的接收者操作特征曲线下面积(AUROC)连续10个周期没有增加,则实施早停(early stopping)。
-
损失函数:
对于多类分类任务,使用了标准的交叉熵损失函数。
在多标签分类中,整体损失函数 ( L i L_{i} Li) 基于交叉熵计算,公式为:
L i = m e a n ( ∑ j = 1 M − w i , j ( y i , j log ( y i , j ∧ ) + ( 1 − y i , j ) log ( 1 − y i , j ∧ ) ) ) L_{i} = mean\left(\sum_{j=1}^{M}-w_{i,j}\left(y_{i,j}\log\left(y_{i,j}^{\wedge}\right)+ \left(1-y_{i,j}\right)\log\left(1-y_{i,j}^{\wedge}\right)\right)\right) Li=mean(j=1∑M−wi,j(yi,jlog(yi,j∧)+(1−yi,j)log(1−yi,j∧)))
其中 (M) 表示IHC生物标志物的数量,( y i , j y_{i,j} yi,j) 和 ( y i , j ∧ y_{i,j}^{\wedge} yi,j∧) 分别表示真实标签和预测标签。参数 ( w i , j w_{i,j} wi,j) 用于仅在具有生物标志物标签的样本上进行二元交叉熵计算。 -
评估指标:
- 报告了AUROC及其标准差,因为它在类别不平衡的情况下仍然全面且不敏感。
- 还报告了精确率-召回率曲线下面积(AUPRC)及其标准差,以更准确地识别少数类。
-
源代码:
- 源代码可以在GitHub上找到:https://github.com/PerrySkywalker/foundMIL。
四、结果
在本节中,作者首先报告了乳腺癌诊断分类的基准测试结果,包括高风险与低风险分级以及生物标志物预测。随后,作者展示了在公共和私有队列上的胶质瘤分级任务的基准测试结果,接着是肝癌分级和结直肠癌微卫星不稳定性(MSI)预测的评价。
4-1:乳腺癌诊断分类
高风险与低风险分级
图6(a)(b)展示了在QHSU队列上,不同特征提取器和聚合器平均AUROC和AUPRC值的条形图。
图6©(d)显示了相应的平均AUROC和AUPRC值的雷达图。如图6所示,使用CONCH和UNI进行切片级编码通常能显著提高AUROC和AUPRC值,与其他基础模型相比。
具体来说,基于CONCH模型的所有聚合器提供的AUROC值均大于84.11%,AUPRC值大于68.98%(见表A.6)。
基于UNI模型的RRT实现了最高的AUROC值86.07%和最高的AUPRC值70.81%。如预期,由于自然图像与病理切片之间的领域差异,使用ImageNet预训练的ResNet50作为切片级编码器在不同聚合器上的整体性能最差。
特别是,TransMIL模型实现了最低的AUROC值78.41%和最低的AUPRC值60.45%(见表A.6)。这些结果提供了证据,表明领域相关的大规模基础模型增强了切片级嵌入,从而提高了基于MIL的乳腺癌分级下游性能。
表1列出了在SHSU和QCH队列上,通过整合各种特征提取器与不同的MIL聚合器进行的乳腺癌分级分类结果,展示了平均AUROC和AUPRC值及其标准差。
粗体字突出了不同编码器不同聚合器的最佳结果,而划线字体突出了不同编码器不同聚合器的最佳结果。蓝色字体突出了所有组合中的最佳结果。与QHSU队列相比(见表A.6),SHSU队列显示了整体提高的AUROC和AUPRC值,所有不同模型组合的AUPRC值提高了超过15%。QCH队列的AUROC值也提高了超过5%,AUPRC值提高了超过10%,与QHSU队列相比。SHSU和QCH队列之间的结果是相当的,QCH队列在不同编码器和聚合器的组合中显示出略高的AUROC值但较低的AUPRC值。
表1还发现,UNI模型(Chen et al., 2024b)在SHSU和QCH队列上不同聚合器中倾向于提供优越的性能。有趣的是,尽管CTransPath模型(Wang et al., 2022)在QHSU队列上的整体性能不如CONCH和UNI(见图6©(d)),但它在SHSU和QCH队列上提供了第二有希望的性能。
特别是,基于CTransPath编码器的CLAM-MB模型在SHSU和QCH队列上实现了最高的AUPRC值,分别为90.29%和85.02%。
相比之下,ImageNet预训练的ResNet50编码器在SHSU和QCH队列上不同聚合器中的整体性能最差,而其他编码器产生了中间结果。
总体而言,像UNI这样在更多样化的数据集上训练的基础模型,对外部测试切片(不包括在训练数据中的医院)展现了强大的泛化能力。
图7展示了在QHSU队列上,使用不同编码器和聚合器进行5折乳腺癌分级分类的训练周期数与早停。
如图7所示,基于CTransPath、CONCH或UNI模型进行切片级编码的MIL模型在训练过程中通常比使用其他基础模型的模型更快收敛。
值得注意的是,TransMIL与ResNet50、CTransPath和UNI的训练周期数变化较小。这一现象发生的原因是,尽管TransMIL在训练过程中表现良好,但它没有很好地泛化到验证集,导致训练周期数较少的早停。
大多数MIL聚合器可以使用UNI模型作为编码器在10个训练周期内有效地训练。这表明强大的基础模型不仅增强了推理性能,而且有助于减少基于MIL的WSI分类的训练时间。
多标签生物标志物预测
图8展示了在QHSU队列上,使用不同编码器和聚合器进行ER、PR和HER2预测的平均AUROC和AUPRC值及其标准差的条形图。
图9显示了相应的ER、PR和HER2预测的平均AUROC和AUPRC值的雷达图。
UNI和CONCH模型在不同聚合器中倾向于提供最有希望的结果。值得注意的是,ER、PR和HER2预测的所有最高AUROC和AUPRC值都是使用UNI编码器实现的(见表A.7)。
通过比较不同的聚合器,作者发现RRT(Tang et al., 2024)在各种编码器中往往是最佳的聚合器,在大多数评估中实现了最高的AUROC或AUPRC值。与ER和PR预测相比,HER2预测更具挑战性,其AUPRC值比大多数ER和PR预测的值低约20%(见表A.7)。
使用ImageNet预训练的ResNet50作为特征编码器,所有聚合器的性能较差,特别是HER2预测的AUPRC值显著较低。总体而言,这些结果表明,使用特定领域的基础模型进行特征编码显著提高了不同聚合器在生物标志物预测方面的性能。
RRT聚合器使用区域和跨区域多尺度自注意力模块重新嵌入实例特征,捕捉精细的局部特征并在不同区域之间建立联系,通常与其他聚合器相比表现出更优的性能。
图10和图11展示了在SHSU队列上进行ER、PR、HER2预测的基准评估。与图8、9所示的结果相似,UNI编码器在不同聚合器中相比其他编码器提供了更优越的性能。
CONCH和CTransPath编码器在某些聚合器的PR或HER2预测中提供了与UNI编码器相当的结果。聚合器在不同编码器和不同生物标志物预测任务中展示了各自的优势。例如,与使用ImageNet预训练的ResNet50作为编码器的其他聚合器相比,RRT聚合器始终表现出最佳性能(见表A.8)。
这强调了对于在自然图像队列上预训练的离线编码器,在线特征重新嵌入的必要性。然而,RRT聚合器并不总是使用其他编码器时表现最佳;相反,不同的聚合器在不同编码器上实现了最高的AUROC或AUPRC值。这表明,对于特定领域基础模型生成的实例表示,特征重新嵌入在细化方面的改进有限。
综上所述,作者的结果突出了选择有效基础模型(如UNI编码器)以增强MIL分类框架的优势。
图12展示了在QHSU队列上进行5折多标签生物标志物分类时,使用不同编码器和聚合器的训练周期数及早期停止情况。
从图12中可以看出,基于CTransPath、CONCH或UNI进行切片级编码的MIL模型在训练过程中通常比使用其他基础模型的模型更快收敛。
与图7所示的发现相似,大多数MIL聚合器可以使用UNI模型作为编码器在10个训练周期内有效地训练。这进一步突出了使用强大基础模型的优势,它们不仅增强了推理性能,而且有助于减少基于MIL的WSI分类的训练时间。
4-2:胶质瘤诊断分类
三级分级分类
表2列出了在TCGA和SAHDMU队列上进行胶质瘤三级分级分类的基准评估结果。
如表2所示,CONCH和UNI编码器在离线实例嵌入方面相较于其他基础模型提供了更优越的性能。在两个队列中,使用这两种编码器的不同聚合器均获得了最高的AUROC和AUPRC值。特别是,与CLAM-MB聚合器结合的CONCH编码器取得了最佳性能,在TCGA队列上达到了91.77%的AUROC和80.74%的AUPRC,在SAHDMU队列上达到了91.51%的AUROC和78.17%的AUPRC。
相比之下,与其他聚合器结合的其他编码器在性能上显著较差,特别是在SAHDMU队列上,其AUROC和AUPRC值比CONCH编码器低超过10%。尽管CTransPath和PathDuet模型是在TCGA切片上训练的,但它们在TCGA胶质瘤分级上的不同MIL聚合器表现优于PLIP和ResNet50编码器,然而与CONCH和UNI编码器相比则表现不佳。
这表明在TCGA数据上预训练CTransPath和PathDuet并未因潜在的数据泄露而导致TCGA胶质瘤分级上的严重分类偏差。作者推测,在MIL框架中实例的重新嵌入以及在训练基础模型时纳入多种癌症类型对于减轻这种分类偏差起着关键作用。
这些结果强调了在选择适当的聚合器的同时,选择有效的切片级编码器的重要性。它们还验证了特定领域的基础模型,如CONCH和UNI,可以在不同的MIL框架下显著提升切片级分类的性能。
4-3:肝癌诊断分类
四级组织学分级分类
图13(a)和图13©分别展示了在GPPH肝癌队列中进行四级组织学分级分类的AUROC和AUPRC值的雷达图。
如图13所示,CONCH和UNI基础模型在不同的MIL聚合器中相较于其他实例级编码器实现了显著更高的AUROC和AUPRC值。
具体来说,使用UNI编码器时,ABMIL提供了最高的AUROC值,达到75.96%,而DTFD则实现了最高的AUROC值,为49.37%(见表A.9)。
相对较低的AUPRC值主要是由于收集的队列中四级患者的数量极为稀少。尽管如此,结果强调了通用基础模型在增强基于MIL的WSI分类以进行肝癌组织学分级方面的优势。
4-4:结直肠癌诊断分类
两类微卫星不稳定性(MSI)预测
图13(b)和图13(d)分别展示了在TCGA-CRC队列中进行两类MSI预测的AUROC和AUPRC值的雷达图。
观察发现,CTransPath、CONCH和UNI基础模型在不同的MIL聚合器中相较于其他实例级编码器实现了显著更高的AUROC和AUPRC值。具体来说,基于UNI的RRT实现了最高的AUROC值,为86.95%,而基于CONCH的ABMIL则实现了最高的AUPRC值,为63.15%(见表A.9)。
尽管CTransPath和PLIP在TCGA切片上进行了预训练,但CONCH和UNI基础模型在TCGA-CRC癌症MSI预测中为各种MIL聚合器一致提供了更优的实例级嵌入。这些经过良好训练的基础模型展示了它们在提取未见组织学切片的更可泛化特征方面的能力。
五、讨论
5-1:关键发现
在本研究中,作者通过探索六种最先进的(SOTA)切片级编码器和六种代表性的切片级聚合器,为MIL模型提供了一个系统的基准测试,这些模型被应用于计算病理学中四种癌症类型的七个临床任务。
与同期基准研究,如Chen等人(2024a)的研究相比,作者的工作包含了对近期基础模型(FMs)和MIL框架的更全面评估,使用了来自六个不同临床中心或公共资源的多样化数据集。
此外,作者的基准测试努力中彻底探讨了多标签学习和多类别分类。通过这种系统的基准测试,作者证明了在选择适当的切片级编码器方面,往往对确定各种MIL框架下下游切片级预测任务的表现起着最关键的作用。
近期基于组织学的基础模型,如CONCH(Lu等人,2024)和UNI(Chen等人,2024b),使用更多样化的组织学图像进行预训练(见表A.3),似乎成为了更强大的特征提取器。
所有使用组织学FMs进行切片级嵌入的MIL模型,与使用ImageNet预训练的ResNet50进行切片级嵌入的模型相比,都实现了显著的性能提升。
此外,研究发现,使用强大的FMs进行切片级嵌入可以加速下游切片级分类任务的训练过程(见图7、12)。所有这些发现强调了在该领域使用特定于组织学的切片级嵌入的必要性。
另一个发现是,切片级聚合器在不同的切片级编码器和分类任务中的表现不同,尽管有些聚合器更可能提供优越的性能。例如,RRT模型在乳腺癌患者的分级分类和生物标志物预测中往往提供比其他聚合器更高的AUROC和AUPRC值。
这主要归功于其有效的特征重新嵌入,该模型通过捕捉细粒度的局部特征并建立不同组织区域之间的联系,创建了切片级表示。
总体而言,作者发现MIL模型可以在不依赖像素级或切片级注释的情况下,为乳腺癌分级分类和生物标志物状态预测提供有前景的结果。
乳腺癌分级的表现因QHSU、SHSU和QCH队列而异,QHSU队列上的最高AUPRC值仅为70.81%,而在SHSU队列上则达到了90.29%。这种较大的差异可能是由于病理学家分配乳腺癌等级的主观性所致。
作者开发的多标签MIL模型在ER和PR预测上取得了优异的表现,独立SHSU测试队列上ER预测的最高AUROC和AUPRC值分别超过91%和97%,PR预测则超过86%和96%。与预测ER和PR状态相比,使用H&E染色切片预测HER2状态更具挑战性。
然而,集成CLAM-MB模型的UNI编码器在独立SHSU测试队列上仍实现了超过85.0%的AUROC和73.0%的AUPRC值。这些结果验证了利用H&E染色切片通过MIL模型估计这些生物标志物状态的显著潜力。
对胶质瘤队列的评价进一步证明了利用最先进的组织学特定FMs进行胶质瘤分级的有效性。集成CLAM-MB聚合器的CONCH编码器在TCGA和SAHDMU队列上提供了超过91.0%的AUROC值,以及在TCGA上超过80.0%和在SAHDMU上超过78.0%的AUPRC值。
此外,作者对包含1412张WSIs的完整TCGA胶质瘤队列进行了评估,无需为胶质瘤分级选择代表性切片。患者级别的五折交叉验证程序与757张代表性切片的一致。对于拥有多张切片的患者,诊断基于同一患者所有切片的平均预测确定。
如表2与表A.10的比较所示,所有模型在胶质瘤分级结果上均取得了相似的表现,证明了代表性切片选择的合理性。对肝癌分级和CRC癌症MSI预测的扩展评价也展示了弱监督WSI诊断分类方法的有效性。
因此,仅使用切片级标签,由组织学特定FMs驱动的MIL模型在组织学诊断和生物标志物预测的临床应用中展现了前景。性能通常与FMs的大小和训练数据量成比例。这些发现为大规模FMs作为推进计算病理学稳健基础提供了证据。
作者的实验是在一台配备Intel i9-13900K CPU、NVIDIA RTX 4090 GPU和Western Digital SN770 SSD的工作站上进行的。作者从GPPH队列中选择了20×放大倍率的肝癌切片,以测量使用各种FMs的嵌入时间。
这些存储在固态硬盘上的切片平均每张包含15,766个贴片,以减轻较慢硬盘读取速度的影响。CONCH具有最高的嵌入时间,平均每WSI为102.2秒,而ResNet50最快,平均每WSI为19.13秒。CTransPath、PathDuet、PLIP和UNI的嵌入时间介于两者之间,平均每WSI分别为23.2秒、25.8秒、42.53秒和38.6秒。
考虑到这些实例嵌入时间和MIL分类性能,UNI相比于CONCH等较慢的模型,成为了一个更实用的选择,有效地平衡了计算效率和准确性。
5-2:本研究的局限性及展望
本研究存在多个局限性。
例如,技术基准测试的性质决定了无法评估所有可能的技术方法和应用。作者选择了计算病理学领域中使用的最先进基础模型(FMs)以及顶级期刊或会议论文中最近提出的代表性MIL流程。
然而,其他较少使用的方法可能比作者测试的方法更优。据作者所知,先前的研究已经开发了双流MIL网络(Li et al., 2021)、图Transformer(GT)(Zheng et al., 2022)、基于图神经网络的MIL(Hou et al., 2022)、分层图像金字塔Transformer(HIPT)(Chen et al., 2022)和异构图边缘属性Transformer(HEAT)(Chan et al., 2023)用于WSI分类。
然而,其中一些方法通过以金字塔方式建模WSI来学习分层表示,这需要处理多分辨率图像贴片。此外,一些方法需要细胞核检测和分类以将贴片分类到不同类型。本研究主要关注使用不同FMs和切片级聚合器对单分辨率贴片进行特征嵌入能力的基准测试。
尽管如此,利用多分辨率组织学图像信息可能会进一步提高WSI分类性能。还有一些新开发的组织学FMs,如Prov-GigaPath(Xu et al., 2024),它在171,189张WSIs中的1.3亿个256 × 256病理图像贴片上进行了预训练。
根据作者的初步测试,Prov-GigaPath的贴片级编码器基于ViT-g,切片级编码器基于LongNet,其计算密集度显著高于其他最先进的组织学FMs。使用作者配备两张RTX4090 GPU卡的工作站,其贴片级嵌入时间大约是UNI模型的五倍。因此,由于有限的计算资源,作者没有将其纳入作者的基准研究。
在临床应用方面,作者研究了四种肿瘤类型中的组织学分级分类和IHC生物标志物状态预测。这包括二分类任务、多分类任务和多标签学习任务。
虽然作者的任务试图涵盖不同的生物医学应用范围,但仍有多种具有挑战性的临床预测任务,如生存风险预测(Xu et al., 2022; Di et al., 2022)和分子亚型分析(Xu et al., 2023; Diao et al., 2021)。有必要在更广泛的癌症类型中的其他预测任务上验证作者的发现。
考虑到使用特定领域FMs的已证实优势,未来的研究将开发更先进、更强大的FMs。这些模型应能够泛化和转移到数字病理学中广泛的诊断挑战性临床任务。基于强大的贴片级编码器,利用在线特征重新嵌入策略的聚合器可能会看到多样化的发展,特别是对于那些缺乏计算资源开发自有FMs的研究团队。
利用空间位置和拓扑结构的动态图表示(Li et al., 2024)以及建模极长序列的缩放Transformer(Ding et al., 2023)是切片级聚合的有前景的技术方向。利用多分辨率组织学成像信息并将病理组学与其他临床变量和基因组学整合,将是有益的,因为多尺度学习和多模态学习通常可以增强切片级诊断分类(Hou et al., 2023; Xu et al., 2023)。
六、结论
综上所述,作者为计算病理学提供了大规模的最先进基础模型(FMs)基准测试,以及几种广泛使用的MIL框架用于切片级分类。
作者使用多个数据队列评估了乳腺癌、胶质瘤、肝癌和结直肠H&E染色WSIs的癌症分级和IHC生物标志物预测任务。作者设计的任务包括二分类、多分类和多标签学习,旨在跨各种策略基准测试基于FMs的MIL模型。
总体而言,作者的发现表明,在来自不同组织类型的组织学图像的广泛队列上预训练的FMs用于贴片级嵌入,倾向于提取更可泛化的特征,显著提高了下游切片级分类的性能。MIL聚合器也助于提升诊断分类,尽管它们在不同临床任务和数据队列中的表现可能有所差异。预计特定于组织病理学的FMs将在推进计算病理学方面发挥关键作用。
结束语
本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!