TREE用于识别癌症基因
图表示学习已被用于从生物网络中识别癌症基因。然而,可解释性和泛化性不足是巨大限制。TREE被用于解决该挑战,模型通过利用图表示学习以及结合多组学数据中同质和异质生物相互作用网络的拓扑结构,用于准确预测癌症基因。TREE在泛癌症和癌症特定场景中跨生物网络(包括 miRNA 与蛋白质、转录因子与蛋白质以及转录因子与 miRNA 之间的相互作用网络)预测癌症基因方面取得了最先进的性能,并在 8 个泛癌数据集中的 4,729 个未标记基因中预测了 57 个癌症基因候选基因(包括其他模型尚未识别的三个基因)。该模型的可解释性和泛化性可能有助于理解基因相关的调控机制和发现新的癌症基因。
来自:Interpretable identification of cancer genes across biological networks via transformer-powered graph representation learning,Nature Biomedical Engineering,2025
目录
- 背景概述
- TREE概览
- 突变在基因识别中的重要性
- 基于异构网络验证癌症基因的调控机制
背景概述
全面了解人类癌症基因是探究肿瘤致癌机制的重要基础。人们普遍认为,累积性的基因组变异是癌症形成和发展的根本原因。这些恶性基因组变异包括基因单核苷酸变异(SNV)、基因拷贝数变异(CNA)等。根据国际癌症研究机构(IARC)的统计,癌症在2020年已造成全球超过996万人死亡。因此,鉴定癌症基因对于理解各种癌症机制起着至关重要的作用,从而促进癌症的个性化和精准治疗的发展。
高通量技术的发展使得人们对癌症基因变异的调查范围不断扩大,并构建了多个完善的数据库,如癌症基因组图谱 (TCGA) 和国际癌症基因组联盟 (ICGC),以维护大量的人类基因突变数据。由于观察到癌症基因比非癌症基因更容易反复突变,数百种癌症基因已通过系统的基因组学分析得到识别,并由公共存储库进行全面注释,如癌症基因网络 (NCG) 和 COSMIC 癌症基因普查 (CGC) 数据库。然而,已知癌症基因目录 (KCG,known cancer genes) 还远未完成。原因有两个方面。一方面,并非所有癌症基因都具有较高的突变频率。尤其是肺腺癌研究显示,大多数癌症基因的突变频率仅为2%−20%,这与我们对突变频率的一般认识不一致。另一方面,癌症的产生是一个复杂的过程,涉及不同类型的基因组改变以及各种分子之间的相互作用,包括但不限于蛋白质、微小RNA(miRNA)、长链非编码RNA(lncRNA)和转录因子(TF)。
随着人工智能的发展,近年来在有效识别癌症基因方面取得了长足的进步。根据所使用的数据,这些进步大致可分为两类:
- 基于多组学数据或基于网络。
- 第一类计算方法基于基因的原始多组学数据实现识别任务。具体而言,它们倾向于捕捉与在不同类型的基因组癌症数据中观察到的客观事实一致的潜在模式,然后根据这些模式识别癌症基因。然而,它们未能从网络角度对基因之间的交互行为进行建模。
- 为了应对这一挑战,已经开发出基于网络的方法,通过从蛋白质-蛋白质相互作用 (PPI) 网络中提取癌症基因的特征来区分癌症基因。在这个网络中,节点代表基因编码的蛋白质,边代表蛋白质之间的物理或功能相互作用。为了提高识别性能,通常采用基于矩阵分解 (MF) 和基于随机游走 (RW) 的方法将基因映射到低维潜在特征空间上。
- 近年来,图卷积网络(GCN)、图注意力网络(GAT)等图表示学习(GRL)模型因其强大的表达能力而受到广泛关注,并被广泛应用于癌症基因的精准识别。与基于MF和RW的方法相比,采用GRL获取基因嵌入的网络方法在整合基因多组学数据和生物网络信息方面更具有优势,能更好地识别癌症基因。然而,在临床肿瘤学实践中,当前新的基于网络的方法的适用性受到网络分析下可解释性和泛化能力不足的限制。
开发可解释的识别方法对于从计算角度研究癌症基因的分子起源至关重要。在基于网络的方法领域,人们已经进行了多次尝试来整合基因的多组学数据。他们的目标是确定用于识别癌症基因的最具影响力的组学数据类型。该领域最值得注意的工作之一是 EMOGI,它是一种基于网络的可解释的开创性方法。EMOGI 在从多组学角度解释其结果方面取得了长足的进步。然而,仅仅依靠多组学数据和局部网络结构不足以全面了解癌症基因背后的功能机制。更具体地说,癌症基因与其他分子(如 miRNA、lncRNA 和 TF)之间的相互作用在揭示癌症基因的改变如何促进特定癌症的形成和发展方面起着结构性作用。例如,TP53 和 MYC 已被证明在多种类型的癌症中受相同 miRNA miR-34a 调控,而 PI3K/AKT/mTOR 信号通路与许多不同癌症基因的调控有关,包括 TP53、PTEN 和 AKT1。现有的基于网络的癌症基因识别方法未能通过捕捉生物网络中与调控机制相关的结构模式来增强其可解释性。虽然 GAT 在通过注意力权重揭示邻近基因的重要性方面优于其他基于网络的方法,但它主要基于1跳邻域内的局部感受野构建。因此,当涉及到高阶结构模式时,其可解释性有限,而高阶结构模式为在网络通路层面识别癌症基因提供了宝贵的见解。由于能够揭示多个分子之间的高阶相互依赖性,这些模式对于模拟癌症基因识别背后复杂的功能机制具有重要意义。因此,迫切需要开发一种基于网络的方法,其可解释性建立在基因的多组学数据和生物网络的拓扑结构之上。此外,不同类型的分子相互作用的整合带来了另一个挑战。现有的基于网络的方法通常在同质网络上运行识别任务,只有少数方法在应用于异构网络时能够保持准确性。
为了解决上述限制,作者提出基于 Transformer 的图表示学习 (TREE) 框架。Transformer 架构在自然语言处理 (NLP) 和基于序列的任务中得到了广泛的应用。很少有人尝试将 Transformer 架构应用于图结构数据的节点级表示学习任务。这主要是因为它在处理大型图输入时内存消耗高,并且在对输入图的全局结构信息进行建模时存在局限性。将 Transformer 应用于异构、大规模的生物网络的癌症基因识别的可解释性和可推广性并不是很直接。因此,作者提出了一种增强的 Transformer 架构,它整合了基因的多组学数据和生物网络的拓扑信息。
TREE 不仅可以识别出最具影响力的组学类型,还可以检测出参与调节驱动癌症形成和发展的基因的最具代表性的路径。具体来说,作者使用从局部结构中采样的子图来训练 TREE,而不是将完整的big graph输入给 TREE,这样只需消耗少量计算资源即可实现节点级表示学习的目的。对于异构数据,TREE 将节点特征映射到同一空间,从而在不同特征尺度上保持一致性。作者进一步应用 TREE,以端到端的方式在具有学习基因嵌入的同质和异构生物网络上识别癌症基因。实验结果表明,TREE 在所有网络上的表现始终优于五种基于网络的最新 (SOTA) 方法。研究结果表明,在不同类型的组学数据中,突变主要有助于识别癌症基因。
TREE概览
TREE 是基于 transformer 架构修改而来的,它通过考虑各种多组学数据和生物网络来学习基因表征,然后以端到端的方式识别癌症基因。TREE 的整体框架如图 1 所示。
在表征学习过程之前,TREE 通过定义属性图将多组学数据整合到给定的生物网络中,表示为
G
G
G。在
G
G
G的上下文中,节点代表不同的分子,成对节点之间的链接表示相应分子之间的相互作用。与分子相关的多组学数据被视为其各自节点的属性。TREE 可以处理同质和异质生物网络。它们的属性图模型之间的区别主要在于节点集
G
G
G的组成,其由所涉及的分子类型决定,对于同质网络,
G
G
G中只有基因节点,链接是基因编码蛋白质的相互作用。对于异构网络,TREE扩大了分子的范围,包括 TF、miRNA 和 lncRNA 等其他类型,从而能够为异构网络构建属性图,其中分子之间的联系变得更加复杂,因为它们揭示了不同分子类型之间的相互作用。在将属性与
G
G
G 中的节点关联时,作者从 TCGA 收集了 16 种癌症类型的多组学数据,并通过必要的预处理步骤将这些数据转换为计算机可读的格式。
- 图1a:多组学数据收集及同质/异质网络构建。基因和转录因子共收集16种癌症类型的4种组学数据,包括基因突变、表达、甲基化和拷贝数变异,miRNA和lncRNA仅收集表达数据。此外,收集并构建了两类网络,包括由基因组成的同质网络,以及由基因、转录因子和lncRNA/miRNA组成的异质网络。
- 图1b:癌症基因预测图解。对于 target gene,TREE 首先在其局部结构内采样多个子图,然后将子图输入基因表征学习模块,以在每个子图上生成基因表征。基因表征学习中的参数由所有子图共享,该图仅显示了 G i 1 G_i^1 Gi1 的学习过程。在获得每个子图上的基因表征后,创建一个多通道聚合模块来融合并获得最终的基因表征,该表征用于通过激活函数判断目标基因是否致癌。
- 图1c:TREE 基因表征学习层示意图。左图为基因表征学习层的组成,输入为子图,多头注意力机制以协同注意力的方式实现,如右图所示。通过生成 query 结合节点多组学特征将网络局部结构信息编码到 TREE 中,通过生成 key 和 value 结合全局结构信息集成到 TREE 中。
- 图1d:多通道聚合模块示意图。其架构与传统 Transformer 相同,即以 SA 方式实现多头注意力机制。
给定 G G G,节点属性直观地用于 TREE 的多组学特征编码。但为了充分利用 G G G的网络信息,TREE 引入了两个不同的组件来从全局和局部角度增强网络特征编码。人类疾病网络中的重要节点具有更高的度,更有可能与疾病相关。基于这一观察,TREE采用位置编码将基因的度信息整合到编码器中。关于全局网络特征,遵循关联原则,即在与疾病相关的基因中观察到的生物相互作用比随机选择的基因中更频繁。为了检查这种关系,可以采用成对分子之间最短路径的长度作为它们的网络距离。这样做的一个潜在好处是,能够验证几个被突变修饰的基因是否在 G G G 上形成一个密集区域,从而有助于从通路分析的角度确认癌症中的主要调控基因。然后将共同注意 (CA) 编码器集成到 TREE 中,以将最短路径信息编码为全局网络特征。与 SA 机制不同,TREE 采用的 CA 机制能够更准确地捕获图中的空间依赖关系。这种改进的能力可以提高节点级表示学习任务的性能。
突变在基因识别中的重要性
为阐明四种不同类型组学数据(基因突变,甲基化,基因表达,拷贝数变异)的影响,采用模型梯度评估其重要性。这一评估在泛癌情景和特定癌症情景下进行,结果如图3a所示。研究结果表明,突变在识别泛癌基因中起关键作用。而在特定癌症情景中,不同类型的组学数据共同对癌症特异性基因的识别起到重要作用。在研究的16种癌症类型中,有8种的基因识别主要由突变或单核苷酸变异(SNV)驱动。基因表达在6种癌症类型中表现最为重要,而拷贝数变化(CNA)在结肠腺癌(COAD)和直肠腺癌(READ)中占据主导地位。这一发现与生物学知识相一致,COAD和READ均为结直肠癌的主要组织学类型。此外,CNA已被证明是结直肠癌的marker。
进一步分析中,根据组学数据重要性值最大化的类别,探讨了其对癌症基因识别的影响。结果表明,在泛癌和特定癌症情景下,四种组学数据均对基因识别做出了贡献,并在信心分数上表现出一致的高水平(图3b)。这一发现同时有助于理解某些基因被指定为癌症基因的原因。
- 图3a:泛癌症和癌症特定场景下组学数据的重要性。
- 图3b:每种组学数据类型下成功识别的癌症基因数量及其对应的置信度得分。
基于异构网络验证癌症基因的调控机制
除了仅由基因及其相互作用组成的同质生物网络外,TREE还可应用于异质生物网络(如TF–miRNA–Gene(TMG)网络和lncRNA–TF–Gene(LTG)网络)的癌症基因识别,并表现出令人满意的性能。这两个异质网络通过整合多种分子相互作用构建,包括基因–基因、miRNA–基因、TF–miRNA、TF–基因和lncRNA–TF相互作用。
为进一步研究不同基因相关调控机制的影响,作者定义了7种简单和复杂的元路径,用于模拟不同分子相互作用之间的相互依赖性。这些元路径用于指示调控癌症基因的可能功能机制。如图4a所示,通过从原始异质网络中提取其所有实例,构建子网络。通过评估TREE在这些子网络上的性能,探讨了元路径的影响。同质的GG元路径实例与GG网络一致。
- 图4a:上面定义的每个元路径的图示。每个元路径都显示了其路径定义、生物学图示和组成元路径的网络。
为了直观比较TREE在不同元路径生成的子图上的性能,以 box plot 形式展示了AUPRC值(图4b,c)。总体来看,整合所有元路径使TREE在TMG和LTG网络上的性能最佳,AUPRC值分别提升了14.31%和4.345%,这表明仅依赖单一调控机制不足以从整体上识别所有癌症基因。
此外,两个案例研究以进一步说明TREE如何从多种调控机制中获益,如图4d,e所示。如图4d所示,调控通路表明hsa-mir-6796靶向TET2和MAZ,调节MAZ相关基因(PLK1和TUBA1C)及TET2的表达,进而影响MAZ在细胞周期调控中的作用及TET2的肿瘤抑制功能。此外还以另一著名的泛癌基因TP53为例,进一步表明所识别网络模式的有效性。如图4e所示,UBR5在TP53的识别中发挥了重要作用。UBR5与TP53直接相互作用,并通过FOS和EP300间接相互作用。UBR5参与TP53蛋白的泛素化。UBR5介导的泛素化可能影响TP53的稳定性,最终导致其降解。鉴于TP53的失调在癌症中经常被观察到,与UBR5等蛋白的相互作用可能影响TP53的肿瘤抑制功能。
- 图4b-c:由 TMG (b) 和 LTG © 网络的不同元路径生成的网络上的 TREE 的 AUPRC 值。
- 图4d-e:TET2 (d) 和 TP53 (e) 基因的子图结构及其注意力权重矩阵。左:基于所有 (TMG) 元路径从目标基因开始随机游走获得的子图。右:子图中任意两个节点之间累积注意力权重的热图。注意力权重较高的路径被标为粉红色,路径中的关键节点也用粉红色标记不同的形状:圆圈代表基因,正方形代表 miRNA,三角形代表 TF。