GRN前沿:利用DigNet从scRNA-seq数据中生成基于扩散的基因调控网络
1.论文原名:Diffusion-based generation of gene regulatory network from scRNA-seq data with DigNet
2.出版时间:2024.12.18
3.doi: 10.1101/gr.279551.124
摘要:
基因调控网络(GRN)在细胞内基因的身份和功能之间编码了相互联系,最终塑造了细胞特异性。尽管经过了几十年的努力,从基因表达分析数据中反向工程GRN仍然是一个巨大的挑战,特别是在重建适合精确细胞和遗传环境的细胞特异性GRN方面。为了从数据中替代性地进行网络重建,我们提出了一种离散扩散生成模型,称为DigNet,能够从高通量单细胞RNA测序(scRNA-seq)数据中生成相应的GRN。DigNet将网络生成过程嵌入到具有马尔可夫性质的多步骤恢复过程中。每个中间步骤都有一个特定的模型来恢复一部分基因调控架构。因此,它可以通过独特的多步骤扩散过程确保全局网络结构和调控模块之间的兼容性。此外,通过元细胞整合和非欧几里得离散空间建模,DigNet可以稳健地抵抗scRNA-seq数据的噪声和GRN的稀疏性。与数十种最先进的网络推断方法的基准评估结果表明,DigNet在各种单细胞GRN重建实验中表现出色。此外,DigNet提供了对乳腺癌免疫反应的独特见解,这些见解源于在T细胞中识别的差异基因调控。作为一个开源软件,DigNet为从scRNA-seq数据生成细胞特异性GRN提供了一个强大而有效的工具。
关键词:扩散生成网络模型(DigNet);基因调控网络;非欧图嵌入;乳腺癌生物标志物
DigNet框架
如图 1 所示,DigNet 从 scRNA-seq 数据生成细胞特异性 GRN。总体而言,DigNet 将网络推理任务分解为可逆的、具有马尔可夫性质的多步骤恢复过程,包括特征提取、基于扩散的去噪和反向推理。因此,它允许为每个时间阶段定义一个独特的网络模型,从而增强其以更细粒度辨别和重建网络结构的能力。此外,采用具有自注意力机制的图转换器来学习 scRNA-seq 数据中的复杂数据分布,并解决实验噪声、高维性和可扩展性等挑战(请参阅补充说明 1)。一旦获得完全训练的模型参数,DigNet 可以轻松生成给定任何细胞基因表达谱的 GRN。具体来说,初始阶段涉及优化基因表达数据,以减轻单细胞丢失事件的影响并提高数据质量(图 1A)。随后,DigNet 采用时间步长方法逐步去噪污染的网络,直到实现清洁网络(图 1B)。在训练阶段,DigNet 在“网络污染”和“噪声去除”阶段之间交替进行,直到收敛。DigNet 从随机网络结构开始进行测试,并使用时间步长逐步修正。训练和测试阶段都涉及网络编码和贝叶斯推理过程,这些过程对其性能至关重要(图 1C 和 D)。最后,DigNet 采用集成学习策略来抵消来自随机采样的不稳定性问题(图 1E)。在经过单细胞 GRN 和相应转录组数据训练后,DigNet 可以为新的基因表达谱生成适当的网络,促进各种下游分析任务,如细胞差异基因表达分析和生物标志物发现(图 1F)。
得益于扩散生成框架,DigNet 是少数几个能够直接从 scRNA-seq 数据生成全局网络架构的模型之一(详见补充图 S1A-B 和补充说明 2)。它强调整个架构的整体网络生成过程,特别强调确保全局调控网络结构与基因表达谱之间的兼容性,从而改变理解细胞调控机制的方法。此外,它将传统的单步网络推断范式转变为多步网络生成过程。这使得所提出的方法能够更加关注与基因表达相对应的全局架构中的网络结构的详细动态。此外,网络生成过程的可逆性使 DigNet 能够学习精确的网络架构,这些架构可以灵活应用于重要的反向操作中,强调了其在各种分析环境中的适应性和稳健性。
实验效果
对模拟数据的广泛基准测试证实了DigNet 的效率
DigNet在特定的单细胞中生成可靠的GRN
结论
在本文中,我们介绍了一种名为 DigNet 的网络生成方法,用于从单细胞 RNA 测序(scRNA-seq)数据中推导细胞特异性基因调控网络(GRN)。DigNet 利用贝叶斯推断和图转换器技术,通过迭代优化初始随机网络,构建个体细胞的全面且详细的 GRN。非欧几里得离散扩散建模使 DigNet 能够生成具有丰富结构特征的全局网络架构。同时,渐进式生成过程和可逆性使 DigNet 能够捕捉整个网络中的结构细节,确保生成的网络整体结构与输入的基因表达谱保持一致。DigNet 的独特性可以总结为三个关键方面:使用离散扩散模型从基因表达数据生成 GRN;多时间步扩散技术用于降噪和网络优化;以及与混合模型架构的生成深度学习的整合。通过在不同生物学背景和数据集上的严格基准测试,我们证明了 DigNet 的效率、稳健性和优越性,特别是在再现细胞类型基因调控特异性方面。此外,DigNet 能够从 scRNA-seq 数据中实现单细胞特异性基因调控网络推断,识别导致细胞类型特异性的关键调控网络节点和因果模块。DigNet 引入了一种新颖的 GRN 逆向工程生成网络模型,使其能够通过渐进式去噪过程而非组装孤立的调控信号,以更合适的网络架构响应单细胞基因表达谱。
通过生成模型恢复 GRN 架构提供了一种新颖的逆向工程范式和基因表达数据的替代方案,带来了多重挑战。DigNet 面临的一个关键挑战是,简单的随机采样可能导致同一时间步的输出结果出现轻微变化,这可能会无意中引入由新颖性驱动的重连和不必要的随机性。与常规扩散模型不同,DigNet 没有纳入特定的条件控制器来决定哪些网络更适合,主要是因为缺乏明确的标准或理由来过滤不同细胞环境中的特定网络架构。为解决这一问题,我们的解决方案策略围绕通过统计估计调控事件的概率,通过计算多个网络中调控信号的激活频率来进行,提供了一种简单而有效的学习方法。与其他基于 GNN(图神经网络)的方法相比,DigNet 利用基于扩散模型的生成策略,消除了对预构建初始图的需求(补充说明 9)。这种方法增强了 GRN 推断的适应性和准确性。DigNet 的一个潜在未来发展方向是纳入细胞发育轨迹,以模拟细胞发育过程中的动态 GRN。此外,整合多组学数据(包括基因组序列信息、染色质可及性数据、转录因子活动和蛋白质-蛋白质相互作用网络(Badia-i-Mompel 等人,2023 年))成为提升 DigNet 能力的关键未来方向。通过利用这些多样的多组学数据,我们预见在从复杂数据集中重建动态 GRN 的准确性和精确性将有显著提升。此外,通过这种综合整合,转录因子信息的参与度将大幅提升。有关更详细的扩展和局限性,请参阅补充说明 10。