预测胶质瘤预后的铜结合蛋白的转录组学特征
今天给同学们分享一篇生信文章“Transcriptomic Characterization of Copper-Binding Proteins for Predicting Prognosis in Glioma”,这篇文章发表在Brain Sci期刊上,影响因子为3.3。
结果解读:
铜结合蛋白的转录组表达
共有85种蛋白质被确认具有结合铜的能力。这些蛋白质主要包括依赖铜的酶,包括细胞色素c氧化酶(CCO),超氧化物歧化酶1(SOD1),氧化酶类酪氨酸酶,赖氨酸氧化酶(LOX),多巴胺β-羟化酶(DBH),铜胺氧化酶等。此外,还包括铜转运蛋白,包括铜转运蛋白1(SLC31A1/CTR1)和铜转运P型ATP酶α和β(ATP7A和ATP7B),以及铜伴侣蛋白,包括超氧化物歧化酶1的铜伴侣(CCS)和抗氧化剂-1(Atox-1),以及其他结合铜的蛋白质如金属硫蛋白等,因为这些因素严密控制着细胞内铜的生物利用度。这些结合铜的蛋白质主要参与铜的稳态调节,如图1所示。
从TCGA-GBM、TCGA-LGG和GTEX正常脑皮层数据集中提取了铜结合蛋白的基因表达情况,共找到了78个匹配的基因。主成分分析和热图显示了这三个数据集之间的明显差异。经过差异分析,作者分别在LGG vs. GTEX比较中鉴定出10个差异表达基因(DEGs),在GBM vs. GTEX比较中鉴定出15个DEGs,在GBM vs. LGG比较中鉴定出9个DEGs(图2A)。总共鉴定出了20个DEGs,如箱线图所示(图2B)。
构建和验证预测模型
为了研究基因表达与总生存时间之间的关系,作者首先分别对这20个差异表达基因进行了单变量Cox回归分析。其中16个基因显示出显著性(p < 0.05),被认为是与OS相关的候选风险因素。然后,作者进行了LASSO回归以通过计算回归系数来优化这些基因(图3A、B),最终得到了12个基因。接着,作者进行了多变量Cox回归分析以进一步优化模型,最终纳入了6个基因(ANG、F5、IL1A、LOXL1、LOXL2、STEAP3)。这6个基因的多变量和单变量Cox回归结果总结如图3C、D所示。在这6个基因中,ANG、IL1A、LOXL1、LOXL2和STEAP3在胶质瘤患者的生存中起到了风险角色(HR > 1),而F5则是一个潜在的保护因子(HR < 1)。这些基因通过单变量Kaplan-Meier生存分析进一步得到了确认(图3E-J)。
作者进一步通过使用Ivy GAP 对这六个基因的解剖转录表达进行了分析(图4)。正如预期的那样,风险因素ANG和IL1A在肿瘤区域的坏死相关区域(PAN和PNZ)中表达最高。其他风险因素LOXL1、LOXL2和STEAP3在几乎所有肿瘤区域(CT、HBVs、MVP、PAN、PNZ、IT)中表达较高,并且在肿瘤周围区域(LE)中表达最低,而保护因素F5在肿瘤和肿瘤周围区域之间没有明显变化。为了进一步验证预后基因的表达情况,作者还进行了免疫组化实验,评估了STEAP3和LOXL1的蛋白质表达情况(图5)。正如预期的那样,与正常脑区相比,STEAP3和LOXL1在肿瘤核心中显著增加。
基于六个基因,作者计算了每个胶质瘤患者的风险评分,高于或低于中位数的风险评分分别定义为高风险或低风险。高风险患者表现出增加的死亡风险和较差的生存结果(图6A)。与低风险组相比,高风险组的基因表达明显增高了ANG、IL1A、LOXL1、LOXL2、STEAP3的水平,而F5的表达水平较低(图6A)。进行了时间依赖的ROC分析,1年的曲线下面积(AUC)值达到0.87,3年达到0.88,5年达到0.82(图6B)。高风险组的总生存时间显著短于低风险组(p < 0.0001)(图6C)。
临床分层分析
如图7A、B所示,可以观察到,在TCGA和CGGA数据集中,高风险评分的患者往往年龄较大(>40岁),且具有较高的WHO分级、未甲基化的MGMT启动子、1p/19q非共删除和野生型IDH1(p < 0.05)。然而,在性别之间的风险评分上没有发现差异。
构建和验证诊断模型
为评估风险评分的独立性,作者使用单变量Cox回归分析(图7C)对上述潜在指标进行了分析。进一步对Cox p < 0.05的单一指标进行了多变量Cox回归分析,排除了VIF > 2的指标以防止多重共线性,因此剩下了五个指标,包括年龄、WHO分级、MGMT启动子状态、1p/19q缺失状态和风险评分(图7D),并将其整合到了示意图模型中(图8A)。C指数为0.852(95% CI = 0.839 − 0.865)。根据示意图,分析了ROC曲线。在TCGA数据集中,1年、3年和5年的生存率的AUC分别达到了0.88、0.94和0.88(图8B)。校准分析显示观察值与优化值之间的拟合良好,分别为1年、3年和5年的生存率。DCA表明示意图在预测生存率方面表现良好。
GSEA
为了探索高风险组和低风险组之间的差异,进行了基因集富集分析(GSEA)。在高风险组中高表达的基因在GO术语中显著富集,如“适应性免疫应答”、“胚胎骨骼系统形态发生”、“发育”、“前/后模式规范”、“区域化”,以及在KEGG通路中富集,如“IgA产生的免疫网络”、“造血细胞系谱系”和“细胞因子-细胞因子受体相互作用”。这些结果表明铜结合蛋白在胶质瘤的免疫应答中可能发挥潜在作用。
高风险评分显示免疫抑制特征
癌症免疫循环是指免疫系统如何识别和杀死癌细胞[17]。作者研究了抑制这一循环的基因表达[18]。作者发现大多数基因在高风险组中高度表达(图9A)。TGFB1、VEGFA、ARG1和IL10是胶质瘤中分泌的免疫抑制因子,而CD70是胶质瘤细胞表面的免疫抑制因子。这些基因似乎都与风险评分呈正相关(图9B-F),并且在高风险组中明显过度表达(图9G)。
免疫检查点抑制免疫系统清除肿瘤的能力[19]。与上述发现类似,与免疫检查点相关的大多数基因在高风险组中上调表达(图10A)。其中,PDCD1(PD-1)和CD274(PD-L1)在肿瘤免疫抑制和免疫治疗中起关键作用,与风险评分明显呈正相关(图10B、C)。高风险组中它们的表达明显高于低风险组(图10D)。
免疫浸润分析和突变景观
作者接下来比较了高风险组和低风险组之间的免疫浸润水平。如图11A所示,高风险组中观察到了更高水平的免疫细胞浸润,包括MDSCs、CD8+ T细胞、调节性T细胞、中性粒细胞、巨噬细胞和NK细胞。为了进一步探索免疫特征,作者使用了ImmuneSubtypeClassifier R软件包对不同的免疫亚型进行分类[14]。作者发现,在高风险组和低风险组中,主要的亚型是C4(淋巴细胞耗竭)和C5(免疫静默),但是与低风险组相比,高风险组中可以找到更多的C4亚型(图11B)。C4亚型的特点是具有更突出的巨噬细胞特征,Th1被抑制,M2反应高,其在肿瘤中的预后比C5免疫亚型更差[14]。这与高风险和低风险的胶质瘤患者的预后一致。
作者还分析了突变情况。在低风险组中,突变发生率为98.38%,最显著的突变基因是IDH1(图12B),而在高风险组中,突变发生率为95.07%,最显著的突变基因是TP53(图12A)。有报道称IDH1突变的星形细胞瘤显示出增加的TP53突变[20]。由于TP53仍然是IDH1突变和野生型胶质瘤中最常见的突变之一,作者认为高IDH1突变不一定总是伴随高TP53突变。在风险评分和TMB之间,TMB与风险评分呈正相关(R = 0.3,p < 0.0001)(图12C),并且在高风险组中显著较高(p < 0.001)(图12D)。
总结
总之,基于TCGA、CGGA和GTEX数据集中铜结合蛋白基因集的综合分析,作者构建了神经胶质瘤的六基因预后模型。利用该模型,作者可以很好地预测神经胶质瘤患者的预后和可能的免疫治疗反应,为未来神经胶质瘤的治疗研究提供了新的方向。