Nat Med病理AI系列|DEPLOY模型:从病理切片图像预测中枢神经系统肿瘤甲基化状态|顶刊精析·24-11-03
小罗碎碎念
今天分析Nature Medicine病理AI系列的第五篇文章——《Prediction of DNA methylation-based tumor types from histopathology in central nervous system tumors with deep learning》。
这篇文章介绍了一个名为DEPLOY的深度学习模型,能够通过分析组织病理学图像预测脑肿瘤的DNA甲基化类型,从而辅助肿瘤分类。
以下是第一作者和通讯作者及其对应单位的信息:
角色 | 姓名 | 单位名称 |
---|---|---|
第一作者 | Danh-Tai Hoang | 澳大利亚国立大学科学学院生物数据科学研究所 |
第一作者 | Eldad D. Shulman | 美国国家癌症研究所癌症数据科学实验室 |
通讯作者 | Eytan Ruppin | 美国国家癌症研究所癌症数据科学实验室 |
通讯作者 | Kenneth Aldape | 美国国家癌症研究所病理学实验室 |
研究团队开发了一个名为DEPLOY(Deep lEarning from histoPathoLOgy and methYlation)的深度学习模型,该模型能够通过分析脑肿瘤的组织病理学图像来预测DNA甲基化水平,并据此对脑肿瘤进行分类。
研究的关键点包括:
-
精确诊断的重要性:对于中枢神经系统(CNS)肿瘤的多样性,精确诊断对于治疗至关重要。
-
DNA甲基化分析:DNA甲基化分析是一种先进的数据驱动手段,可以提高诊断的准确性,但这种方法耗时且不普遍可用。
-
DEPLOY模型:该模型整合了三个不同的组件:
- 直接模型:直接从幻灯片图像中分类CNS肿瘤。
- 间接模型:首先生成DNA甲基化beta值的预测,然后用于肿瘤分类。
- 人口统计模型:直接从患者的人口统计数据(如年龄、性别和活检位置)中分类肿瘤类型。
-
准确性和验证:使用内部数据集对1,796名患者进行训练,DEPLOY在三个独立的外部测试数据集上预测肿瘤类别,包括2,156名患者,整体准确率达到95%,高置信度样本的平衡准确度达到91%。
-
临床相关性:DEPLOY展示了在短时间内协助病理学家诊断CNS肿瘤的潜力,这对于资源有限地区的脑癌治疗尤为重要。
-
技术细节:文章详细描述了DEPLOY的工作流程,包括图像预处理、特征提取、特征压缩、以及如何使用多种机器学习算法进行肿瘤分类。
-
未来应用:研究结果表明,深度学习可以提高从H&E染色幻灯片的诊断准确性,并可能在未来用于其他癌症类型的高分辨率H&E基础分类器的开发。
总的来说,这项研究利用深度学习技术,通过分析常规的组织病理学图像来预测DNA甲基化状态,从而辅助脑肿瘤的诊断和分类,这对于提高诊断效率和准确性具有重要意义。
一、背景梳理
在正式开始今天的推文介绍前,为了方便不同学科背景的老师/同学快速了解本文的内容,我会对一些关键知识点做一些前期梳理。
1-1:中枢神经系统(CNS)肿瘤概述
中枢神经系统肿瘤,也称为CNS肿瘤,是一组起源于大脑、脊髓和脑膜等中枢神经系统内部组织或结构的疾病。这些肿瘤可以是良性的,也可以是恶性的,它们的生长和扩散方式不同,对患者的影响也各不相同。中枢神经系统肿瘤的病变位置主要集中在颅内(大脑和脑膜)或椎管内(脊髓),它们是中枢神经系统疾病中除了脑血管病、颅脑损伤和感染之外最常见的一种,具有重要的临床意义。
中枢神经系统肿瘤的发病机制复杂,可能与遗传因素、环境因素、生活方式等多种因素有关。这些肿瘤可以影响大脑的功能,导致认知、感觉、运动等功能障碍,严重时甚至危及生命。由于中枢神经系统控制着人体的许多基本功能,因此这类肿瘤的致残率和致死率相对较高。
中枢神经系统肿瘤的临床表现多样,取决于肿瘤的类型、位置、大小以及是否压迫周围的神经结构。常见的症状包括头痛、恶心、呕吐、视力障碍、言语障碍、肢体无力或麻木、平衡障碍、癫痫发作等。这些症状可能会随着肿瘤的生长而逐渐加重,严重影响患者的生活质量。
诊断中枢神经系统肿瘤通常需要综合运用多种检查手段,包括神经系统的体格检查、影像学检查(如CT、MRI)、脑脊液检查以及活组织检查(活检)。这些检查有助于确定肿瘤的性质、位置和侵犯范围,为治疗提供重要依据。
治疗中枢神经系统肿瘤的方法多种多样,包括手术切除、放疗、化疗、靶向治疗和免疫治疗等。治疗方案的选择取决于肿瘤的类型、分级、位置、患者的年龄和整体健康状况等因素。手术切除是治疗许多中枢神经系统肿瘤的首选方法,尤其是对于良性肿瘤和部分低级别恶性肿瘤。对于不能完全切除或对放疗、化疗敏感的肿瘤,可能会采用放疗或化疗来控制肿瘤的生长。近年来,随着医学技术的进步,靶向治疗和免疫治疗等新型治疗方法也在不断发展,为中枢神经系统肿瘤患者提供了更多的治疗选择。
总的来说,中枢神经系统肿瘤是一类严重的疾病,需要多学科团队的合作和综合治疗。随着医学研究的深入,对于这类疾病的认识和治疗手段也在不断进步,为患者带来了更多的希望。
1-2:中枢神经系统(CNS)肿瘤分类
肿瘤是人体细胞异常增殖形成的肿块,根据其生物学行为和对人体健康的影响,主要分为良性和恶性两大类。这两类肿瘤在生长特性、治疗方式和预后方面存在显著差异。
(1)良性肿瘤
通常生长速度较慢,不会侵犯周围正常组织,也很少发生远处转移。它们的主要风险在于压迫周围的正常组织,可能导致功能障碍。
在中枢神经系统中,常见的良性肿瘤包括:
- 脑膜瘤:起源于脑膜的肿瘤,通常生长速度较慢,但有时也会压迫脑组织,引起一系列症状。
- 垂体瘤:发生在垂体的肿瘤,垂体是位于大脑底部的内分泌腺,垂体瘤可能导致内分泌紊乱和视力问题。
- 颅咽管瘤:起源于颅咽管残余的良性肿瘤,可能导致颅内压增高和内分泌障碍。
- 神经鞘瘤:起源于神经鞘的肿瘤,通常生长缓慢,但有时也会压迫神经,引起疼痛或功能障碍。
良性肿瘤的治疗通常以手术切除为主,由于它们具有完整的包膜,手术切除相对容易,预后一般较好。
(2)恶性肿瘤
恶性肿瘤则具有快速生长、侵袭周围组织和远处转移的特点,对人体健康构成严重威胁。
在中枢神经系统中,常见的恶性肿瘤包括:
- 胶质瘤:这是颅内最常见的原发恶性肿瘤,包括星形细胞瘤、少突胶质细胞瘤等,占所有中枢神经系统肿瘤的40%~50%。它们以浸润性生长为特点,与周围脑组织分界不清,治疗较为困难。
- 室管膜瘤:起源于脑室系统的肿瘤,可能导致脑脊液循环障碍。
- 原始神经外胚层肿瘤(PNET):一种罕见的高度恶性的肿瘤,常见于儿童。
- 中枢神经系统淋巴瘤:发生在中枢神经系统的淋巴瘤,较为罕见。
- 生殖细胞肿瘤:包括畸胎瘤、内胚窦瘤等,多见于儿童和青少年。
- 转移瘤:其他部位的恶性肿瘤通过血液或淋巴系统转移到中枢神经系统形成的肿瘤。
恶性肿瘤的治疗较为复杂,可能包括手术、放疗、化疗、靶向治疗和免疫治疗等。由于恶性肿瘤与周围组织分界不清,手术切除可能无法完全去除肿瘤,因此常常需要辅以放疗和化疗来控制肿瘤的生长和扩散。
总的来说,良性和恶性肿瘤在生长特性、治疗和预后方面存在显著差异。良性肿瘤相对容易治疗,预后较好;而恶性肿瘤则需要综合治疗,预后相对较差。随着医学技术的发展,对于这两类肿瘤的诊断和治疗手段也在不断进步,提高了患者的生存率和生活质量。
1-3:中枢神经系统(CNS)肿瘤的检查方式
(1)实验室检查
对于有脑脊液播散倾向的中枢神经系统肿瘤,腰椎穿刺术是一种重要的诊断手段。通过这项技术,医生能够获取脑脊液样本,进而进行生化和细胞学的检查。这些检查有助于评估脑脊液中是否存在异常细胞,这可能是肿瘤细胞扩散到脑脊液的迹象。
脑脊液检查对于诊断、鉴别诊断、观察病情转归及指导治疗具有重要意义。例如,在蛛网膜下腔出血的情况下,腰穿脑脊液呈均匀血性,是确诊蛛网膜下腔出血的重要方法,比头颅CT扫描更可靠。
(2)病理学检查
病理学检查是通过肿瘤切除术或活检术获取的组织标本进行的,这对于确定肿瘤的性质和分级至关重要。
WHO分级系统是常用的恶性程度分类方法,将病变分为I、II、III、IV级,级别越高,表示肿瘤的恶性程度越高。例如,Ⅰ级通常是良性或低度恶性肿瘤,而Ⅳ级则表示恶性程度最高的肿瘤,这些肿瘤往往早期就会出现播散和转移。
(3)影像学检查
影像学检查包括MRI、CT和PET等方法,其中MRI被认为是最具诊断价值的检查方法。
MRI能够提供关于脑内肿瘤的详细信息,包括肿瘤的大小、位置和侵犯范围。典型的影像学表现包括肿瘤在增强显像中的强化表现、瘤周水肿明显以及肿瘤坏死等。患者通常在术后24~72小时内进行增强MRI(或CT)复查,这有助于明确肿瘤切除的范围,残存部位及其与邻近重要组织结构的关系。
CT和PET检查也是重要的辅助手段,CT在对骨性疾病、早期脑出血的显示优于MRI,而PET则在显示生物分子代谢、受体及神经介质活动方面具有独特优势。
1-4:DNA甲基化的概念及作用
DNA甲基化是一种重要的表观遗传修饰机制,它涉及到在不改变DNA序列的前提下,通过化学修饰改变遗传表现。
具体来说,DNA甲基化是指在DNA甲基转移酶(DNA methyltransferase,DNMT)的作用下,S-腺苷甲硫氨酸(SAM)作为甲基供体,将甲基基团共价键结合到基因组CpG二核苷酸中的胞嘧啶5号碳位上,形成5-甲基胞嘧啶(5-mC)。这种修饰主要发生在CpG岛上,尤其是在哺乳动物中,而植物中则存在较大比例的非CpG(如CHH、CHG)甲基化。
DNA甲基化对染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式产生影响,进而控制基因表达。甲基化可以改变染色质的紧密度,影响转录因子和其他DNA结合蛋白的结合,从而调控基因的活性。例如,DNA甲基化通常与基因沉默相关,特别是在CpG岛上的甲基化可以抑制基因的表达。
DNA甲基化在多种生物学过程中扮演着关键角色,包括维持正常细胞功能、X染色体失活、寄生DNA序列的抑制、基因组稳定性、遗传印记、胚胎发育等。此外,异常的DNA甲基化模式与多种疾病的发生发展有关,包括肿瘤和神经退行性疾病等。
在肿瘤学中,DNA甲基化的研究尤为重要。例如,胶质瘤等中枢神经系统肿瘤的发生发展与DNA甲基化状态密切相关,DNA甲基化的改变可能影响肿瘤抑制基因的表达,进而影响肿瘤的进展。因此,DNA甲基化不仅是一个基础的生物学过程,也是一个具有临床意义的生物标志物,对于疾病的诊断、预后评估和治疗响应监测具有潜在的应用价值。
二、数据集和计算工作流程
2-1:患者队列
该模型使用内部(NCI)数据集进行训练和交叉验证,包括具有匹配切片和甲基化特征的1,796名患者。对于外部验证,模型使用了来自DBTA的1,522名患者、来自CBTN的348名患者和来自NCI-前瞻性队列的286名患者的切片。
类别 | 数据集 | 患者数量 |
---|---|---|
训练和交叉验证 | NCI 数据集 | 1,796 患者 |
外部验证 | DBTA 数据集 | 1,522 患者 |
CBTN 数据集 | 348 患者 | |
NCI-前瞻性数据集 | 286 患者 |
2-2:DEPLOY框架
这张图展示了一个用于分析脑肿瘤类型的集成学习模型的流程。整个流程可以分为几个主要步骤:图像预处理、特征提取、特征压缩、回归分析、直接分类和间接分类。
下面是对每个步骤的详细分析:
-
图像预处理(Image preprocessing):
- 将WSIs分割成patch,然后通过使用预训练的ResNet50模型进行特征提取。
- 使用自编码器将2,048个ResNet特征压缩到512个特征的低维表示。
-
特征提取(Feature extraction):
- 在图像预处理之后,从图像中提取出有助于区分不同肿瘤类型的特征。
-
特征压缩(Compression):
- 由于提取的特征可能数量庞大,需要通过特征压缩来减少特征的数量,同时尽量保留最重要的信息。这有助于提高模型的效率和准确性。
-
回归分析(Regression):
- 特征压缩后的数据被用于回归分析,在这里结合DNA甲基化位点进行建模分析。
-
直接分类(Direct classification):
- 对于肿瘤分类,DEPLOY融合了三个模型。直接模型(橙色方块显示)使用MLP分类器,该分类器使用自编码器压缩的特征直接预测肿瘤类型。
-
间接分类(Indirect classification):
- 间接模型(绿色方块)使用四种传统的机器学习算法,基于预测的DNA甲基化水平对肿瘤进行分类。
- 这里提到的模型包括:
- 逻辑回归(Logistic regression)
- 支持向量机(Support vector machine)
- K近邻算法(K-nearest neighbors)
- 随机森林(Random forest)
-
人口统计模型(浅蓝色)
- 使用与间接模型相同的四种分类器,结合年龄、性别和肿瘤位置进行肿瘤类型分类。
-
集成(Integrated):
- 最后,直接分类和间接分类的结果被集成起来,以得到最终的肿瘤类型分类。
补充
- A-IDH,异柠檬酸脱氢酶突变型星形细胞瘤;
- CP,脉络丛;
- EPEN,室管膜瘤;
- GBM,多形性胶质母细胞瘤;
- MB,髓母细胞瘤;
- MEN,脑膜瘤;
- MPE,粘液乳头状室管膜瘤;
- O-IDH,异柠檬酸脱氢酶突变型少突胶质瘤;
- PA,毛细胞型星形细胞瘤;
- SE,下室管膜瘤。
三、DEPLOY在一个诊断具有挑战性的子队列中建议的诊断变更
三个临床类别中肿瘤的比例和数量
诊断变化类型 | 病例数量 | 百分比 |
---|---|---|
临床有影响的诊断变化 | 14 | 5% |
确定诊断 | 205 | 79% |
诊断变化 | 42 | 16% |
DEPLOY建议的诊断变更
这张图是一个桑基图(Sankey Diagram),它展示了不同类型脑肿瘤在初始诊断(Initial)和部署诊断(Deploy)之间的转变情况。
桑基图通过流动的线条连接不同的类别,线条的宽度代表了数量的大小,从而直观地显示了各类别之间的转移和变化。
上图中颜色对应
- 红色:临床有影响的诊断变化
- 紫色:确定诊断
- 绿色:诊断变化
上图中亚型分类
- CP,脉络丛;
- MEN,脑膜瘤;
- MPE,粘液乳头状室管膜瘤;
- SE,下室管膜瘤;
- PXA,多形性黄色星形细胞瘤;
- NOS,未特别指定;
- HGAP,具有毛状特征的高等级星形细胞瘤;
- GG,神经胶质瘤;
- PB,松果体母细胞瘤。
DEPLOY的分类与原始病理学家的诊断对比
下表显示了所有309例DEPLOY预测类别与初始病理学家诊断不同的案例。
这个表格总结了在所有病例和具有挑战性的胶质瘤病例中,诊断结果与DEPLOY top 1和top 2的一致性和不一致性情况。
类别 | 所有病例 | 具有挑战性的胶质瘤 |
---|---|---|
一致的DEPLOY top 1 | 261 (84%) | 126 (80%) |
一致的DEPLOY top 2 | 35 (11%) | 24 (15%) |
不一致的DEPLOY top 1和2 | 13 (4%) | 7 (4%) |
具有挑战性的胶质瘤子集,包括胶质母细胞瘤、毛细胞型星形细胞瘤和异柠檬酸脱氢酶突变型胶质瘤:
四、DEPLOY空间甲基化预测
如下所示通过分析一个双基因型少星形细胞瘤。a, 观察到H&E染色的肿瘤,其中包含少突胶质瘤和星形细胞瘤的组织区域,特定感兴趣区域由框1和框2标记(见下文)。b, DEPLOY的肿瘤类型预测在瓦片级别上表示,蓝色代表少突胶质瘤的预测,红色代表星形细胞瘤的预测。c, 显示胶质瘤中的IDH1-R132H IDH突变免疫组化。d, ATRX的免疫组化;ATRX通常存在于所有细胞中,但在IDH突变型星形细胞瘤中丢失,在少突胶质瘤中保留。
e-h, a-d中框1的高倍放大视图,显示少突胶质形态。e, a中框1的高倍放大。DEPLOY瓦片级别的少突胶质瘤预测(f)、IDH1-R132H阳性(g)和ATRX保留(h)。
i-l, a-d中框2的高倍放大,显示肿瘤形态(i)、DEPLOY对IDH突变型星形细胞瘤的预测(j)、具有星形细胞形态的肿瘤细胞IDH突变阳性(k)以及肿瘤细胞核中ATRX表达的丢失,而非肿瘤元素如内皮细胞中保留(l)。
注意,尽管形态(i)存在一些模糊性,常见于少突胶质瘤的周围核晕和细小血管,但DEPLOY预测为星形细胞瘤(j)。比例尺,a-d中为4毫米,图中所示为a中的比例尺。比例尺,e-l中为20微米,图中所示为e中的比例尺。