当前位置: 首页 > article >正文

论文阅读(六):利用基因型信息作为学习基因网络的先验知识

1.论文链接:Utilizing Genotypic Information as a Prior for Learning Gene Networks

摘要:

基因型和全基因组表达数据的组合产生的分离群体提供了一个前所未有的机会来建模和解剖复杂的表型。领先的研究已经用基因型数据增强了贝叶斯网络,为学习和建模因果关系提供了一个强大的框架。然而,这些方法的一个主要缺点是它们通常限于解析最接近基因组基因座的转录物的因果排序。本章回顾了两种方法,其中基因型和基因转录本之间的所有相互作用被认为是集体,以更好地解决基因转录本之间的因果关系。首先描述了Schadt及其合作者的基于似然的因果关系模型选择(LCMS)。然后,描述了随机因果树(SCT)方法。这些方法提供的信息旨在用作贝叶斯网络结构学习的先验,从而增强基因网络重建的性能。

关键词:结构学习,因果模型选择,贝叶斯网络

从分离群体中产生的基因型和全基因组表达数据的结合提供了一个前所未有的机会来建模和剖析复杂表型。领先研究通过基因型数据增强了贝叶斯网络,为学习和建模因果关系提供了一个强大的框架。然而,这些方法的一个主要缺点是它们通常仅限于解决最接近基因位点的转录本之间的因果顺序。本章回顾了两种方法,其中基因型和基因转录之间的所有相互作用被集体考虑,以便更好地解决基因转录之间的因果关系。首先描述了 Schadt 及其合作者的概率因果模型选择(LCMS)。然后描绘了随机因果树(SCT)方法。它允许学习代表从基因位点发出并通过基因转录传递影响的因果层次结构。这些方法提供的信息旨在用作贝叶斯网络结构学习的先验信息,从而提高基因网络重建的性能。

6.1介绍

本章讨论基因网络的概率因果建模方法。特别是,我们描述了为提供基因表达水平和基因型数据的数据集定制的方法。这种性质的研究已被描述为基因表达遗传学(GOGE),因为当串联分析时,基因型和表达数据使研究人员能够对转录变异的遗传基础进行建模。由于在这些研究中应用标准的数量性状基因座(QTL)作图来建立基因组位点和基因转录本之间的关联,因此相应的基因型和表达数据通常被称为表达QTL(eQTL)数据集。虽然本章中所涉及的方法是在GOGE研究的背景下描述的基因转录本之间的因果关系建模,我们强调,他们很容易适用于其他表型,包括疾病状态和生理特征。事实上,关注全基因组基因表达水平的研究的流行反映了获得转录本丰度测量的相对容易性,未来几年将提供代表一般生理表型的数据集,本文提出的方法可以应用于这些表型。

基因型和表达数据的结合,当在群体水平上收集或从近交杂交中产生时,为建模和解剖复杂的表型提供了前所未有的机会。这些数据所带来的巨大潜力源于这样一个事实,即基因型变异可以被假设为直接影响表型,正如我们在本章中所解释的那样,这对图形模型中的结构学习具有重要影响。本文提出的计算方法可以在概念上被视为QTL作图和贝叶斯网络的先行方法之间的协同作用[15]。eQTL作图是一种基于单变量作图的简单程序,用于学习转录本和遗传变异之间的显著关联,而贝叶斯网络长期以来一直被认为是随机变量因果建模的最先进方法。虽然这两种方法本身都特别有用,但理想情况下,这两种方法的贝内可以融合到一种方法中。由于贝叶斯网络被设计为对一组随机变量进行建模,其中没有假设先验结构关系,因此它们自然适合于仅具有基因表达数据的生物学研究。例如,贝叶斯网络结构学习最早由Friedman等人应用于生物网络[8],他们从酿酒酵母细胞周期测量的微阵列数据中建模基因表达网络。自从这项领先的研究发表以来,贝叶斯网络建模已经成功地应用于基因表达数据集。

更先进的建模方法的机会出现在具有基因型和表达数据的eQTL数据集的开始[1]。在一项特别的开创性研究中,Brem等人[1]发表了来自近交杂交的100多种酵母菌株的表达和基因型数据。立即,这样的数据集是服从eQTL定位,其中基因型和转录水平之间的显着关联允许集中,点实验,以更好地阐明相关的分子基础。然而,虽然eQTL协会往往是有用的实验提供线索,他们代表的“点解决方案”,被认为是相互独立的。为了产生更全局、更全面的模型,集体考虑基因型和基因转录本之间的所有相互作用以更好地解决基因转录本之间的因果关系可能是有利的。Schadt及其同事[16]回答了这一需求,他们引入了新的概率建模技术,将基因型-转录本相互作用整合到基因表达网络的建模中。在本章中,我们详细描述了Schadt及其同事的LCMS方法,以及最近发表的原始方法的替代方法。

在介绍这些方法的特性之前,考虑属于这一类的方法本身并不学习因果网络是有指导意义的。相反,它们被设计成学习成对基因转录本之间因果关系的可能性。从LCMS和相关技术中收集的信息作为先验知识被纳入贝叶斯网络结构学习,最终学习因果基因网络。LCMS方法与贝叶斯网络结构学习的集成概述见第6.2.4节。

6.2方法

本节概述了从eQTL数据集构建贝叶斯网络所需的步骤,其中有向边表示基因转录本之间的因果关系。我们专注于建模的eQTL数据集来自有关GOGE的研究,这两个基因表达和DNA变异的特征数据。我们总结了eQTL数据集的重要方面,并详细介绍了这些数据是如何特别适合基因转录的因果建模。为了传达这一研究路线的重要性,我们详细描述了基因转录本因果建模的主要方法,特别是LCMS方法[16]。此外,我们还提供了LCMS方法如何以原则性的方式与贝叶斯网络结构学习相结合的技术细节。最后,我们涵盖了最近发表的因果建模方法,已被激发的LCMS方法。

6.2.1 eQTL数据集

6.2.2用于学习因果关系先验矩阵的LCMS方法

为了生成所有转录本对之间的概率矩阵,将LCMS方法应用于由单个基因座和两个转录本组成的所有可能的三联体,条件是两个转录本均显示与共同基因座的显著关联。在实践中,为了减少计算时间和限制噪声,希望只考虑其中两个转录本与共同基因组位点显著相关的三联体。因此,对于每个基因座,通过应用单变量映射技术来确定显著相关的转录本集,通常是正态分布数据的t检验或非正态分布数据的Wilcoxon秩和检验。最后,使用错误发现率(FDR)确定显着性的实验p值阈值[5]。FDR阈值的选择是任意的,尽管我们注意到利用LCMS方法的出版物通常采用0.05的FDR。在计算出每个基因座的显著相关转录本后,成对因果关系矩阵R可以计算如下:

6.2.3贝叶斯网络结构学习

6.2.4整合先验矩阵

DNA变异、基因转录水平和蛋白质丰度分析技术的快速进步推动了基因组学、转录组学和蛋白质组学的发展。重要的是,随着亲技术成本的下降,具有多种数据类型的数据集变得无处不在。这些进步为异构数据类型建模提供了充足的机会,其目标是构建更全面的生物模型。然而,这种方法要求正式的方法来整合和加权对应于不同数据类型的相对分数。虽然这可能是一个广泛的计算研究领域,但本章的范围主要集中在将外部数据源的知识作为贝叶斯网络结构学习的先验信息进行整合的方法[10,11,14]。Imoto等人[11]介绍了一种将生物网络数据整合到结构学习中的特别重要的方法,该方法基于统计物理学的方法,将可能结构分布的先验公式化为

6.2.5随机因果树方法

随着LCMS方法的广泛成功,已经出版了几种替代方法[2,3]。在本节中,我们描述了奇普曼等人[3]最近发表的随机因果树(SCT)方法。与LCMS方法非常相似,SCT方法产生表示基因转录物对之间的因果关系的先验维度矩阵。SCT方法本质上类似于LCMS方法,因为主要目的是正确对齐节点三元组,并且实际上它还利用成对和三阶相关性的组合。然而,SCT方法的不同之处在于它是在树的背景下这样做的,从而产生了一个更具全局性的解决方案,其覆盖范围更大,可以扩展到相对于基因组位点位于网络中更远的转录本。这些树由基因组位点组成,基因组位点作为它们各自树的根,以及随机添加到生长树中的任意数量的转录物。与LCMS方法非常相似,SCT方法采用双变量和条件正态分布来确保节点与其祖节点和父节点的对齐的完整性。

参考图 6.3,它展示了 SCT 方法,可以看到树是从一个特定的位点作为根开始的,并且根据树的当前结构,该方法的关键在于包含具有最高似然性的节点。在这张图中,当前树包含一个位点(L1,阴影方块)和四个转录本(T_a, T_b, T_c 和 T_d,阴影圆圈)。这五个节点中的每一个都有一个对应的最佳候选节点,由虚线箭头指向未阴影的圆圈表示。在这一点上,SCT 算法将随机选择五个最佳候选节点中的一个,其中任何候选转录本被添加到树中的可能性取决于该候选节点、其父节点和其祖父节点。

6.3结论

在本章中,我们介绍了GOGE的研究,包括eQTL数据集的基本原理,这是有用的,因为它们提供了基因型和基因表达的数据。然后,我们介绍了LCMS方法,这是最广泛部署的技术,用于从eQTL数据集学习基因调控的因果模型。在概述了LCMS方法的细节之后,我们描述了如何将LCMS方法产生的成绩单之间的因果关系矩阵集成到贝叶斯网络结构学习中。最后,我们介绍了最近发表的SCT方法,它可以被看作是LCMS方法的替代方法。

迄今为止,LCMS方法已成功应用于代表不同系统的几个基因组学数据集,包括酵母[21],小鼠[9,13,16,19]和人类[7]。在一项开创性研究中,Schadt等人使用LCMS方法对近交系小鼠群体中基因型、转录组和肥胖相关性状之间的关系进行建模[16]。随后,Zhu等人用代表S.酿酒酵母来自两个亲本菌株[21]。这项研究能够通过实验验证几种因果调节因子及其调节的基因转录本。在一项与骨矿物质密度性状相关的研究中,将LCMS方法应用于可获得基因型、转录组学和骨矿物质密度测量的近交系小鼠群体[9]。有趣的是,通过将他们的LCMS方法应用于由基因型,表达和临床特征组成的小鼠数据,作者证明他们的小鼠模型能够优先考虑与人类骨密度相关的全基因组关联研究(GWAS)研究中艾德的候选基因。换句话说,LCMS方法能够将更高的置信度分配给由中间转录本支持的基因型-骨矿物质密度QTL,该中间转录本通过因果模型的可能性进行定量评估(M1,图6.2)。利用LCMS方法的另一项特别重要的研究涉及大量人类样本,其基因型和转录组学测量值是从脂肪和血细胞中获得的[7]。这项研究特别成功地建立了脂肪组织中基因表达与肥胖相关性状之间的因果关系[7]。最后,我们提到了Yang等人的后续研究。[19]该研究在上述近交系小鼠群体中进行了广泛的分子遗传学实验,目的是确定肥胖相关性状的因果调节因子。使用转基因小鼠,作者通过LCMS方法验证了预测与肥胖相关性状有关的9个基因中的8个[19]。总之,LCMS方法已成功用于广泛的系统和组织类型,为使用综合建模技术指导实验提供了一般验证。

毫不奇怪,这一成功激发了多项旨在扩展和改进这一开创性技术的研究。为了可能帮助这一领域的新研究人员,无论是对建模 eQTL 数据集感兴趣的实验者,还是对进一步改进感兴趣的计算科学家,我们试图提供一些关于该领域方法的客观意见。最近发表的 SCT 方法在模拟 eQTL 数据集上比 LCMS 方法产生了更大的性能提升[3]。然而,这本身并不意味着 SCT 方法会在真实数据集上胜过 LCMS 方法。如前所述,LCMS 方法在应用于各种生物系统的的真实数据集上取得了显著的成功。驱动 LCMS 方法的概率模型提供了非常强大的优势,包括高效计算、严格的正式数学基础以及参数数量有限的简单性。这种简单性有助于理解和实施模型。此外,尽管没有实证证据无法确定,但 LCMS 方法更有可能对真实数据集中潜在的生物系统复杂性具有鲁棒性。实际上,Chipman 等人[3]中使用的理想化基因网络模型,最初由 LCMS 作者在 Zhu 等人[20]中提出,可能在多种方式上与真实生物网络不同。例如,人工基因网络模型不包含循环,尽管真实的基因网络显然包含循环。此外,真实的生物网络几乎肯定比 Chipman 等人[3]中使用的人工基因网络模型更具模块化。SCT 方法采用更多的启发式方法,并携带更多需要调整的参数,似乎更容易对真实网络与理想化模型不同的情况进行敏感。因此,在考虑到这些警告的情况下,应审慎看待 Chipman 等人[3]中报告的 SCT 方法相对于 LCMS 方法的巨大性能提升。

然而,这并不是说SCT方法没有优点,因为它清楚地解决了LCMS方法的最大弱点:缺乏深度。LCMS方法的局限性在于,只有当两个转录本都与基因组位点显著相关时,才能评估转录本之间的因果关系。目前,大多数eQTL数据集由数百个数量级的有限数量的样本组成,并且检测转录本基因座关联的统计能力有限。随着基因组学数据集的样本量增加,这种限制可能会减轻,在这种情况下,单变量映射中更大的统计能力将导致LCMS方法的覆盖范围增加。尽管如此,即使统计能力即将提高,我们相信概率方法论仍有足够的空间,它结合了这两种方法的所有优点,使得底层统计模型是正式的,鲁棒的,并且像LCMS方法一样相对无参数,但同时,具有SCT方法所具有的深度和分辨率。

参考文献


http://www.kler.cn/a/520480.html

相关文章:

  • Ansible自动化运维实战--script、unarchive和shell模块(6/8)
  • 51单片机入门_02_C语言基础0102
  • 基于单片机的智能小区门禁系统设计(论文+源码)
  • 洛谷P1017 [NOIP2000 提高组] 进制转换
  • C语言复习
  • vscode环境中用仓颉语言开发时调出覆盖率的方法
  • 【leetcode100】从前序与中序遍历序列构造二叉树
  • 二级C语言题解:孤独数、找最长子串、返回两数组交集
  • 每日一题-判断是不是完全二叉树
  • 二叉堆--优先级队列和堆排序
  • MySQL(高级特性篇) 12 章——数据库其它调优策略
  • Flink运行时架构
  • Netty框架学习笔记
  • GPU算力平台|在GPU算力平台部署AI虚拟换衣模型(CatVTON)的应用实战教程
  • 模拟电子技术-常用半导体器件
  • RabbitMQ模块新增消息转换器
  • [MySQL]数据库的效率问题与索引的底层原理
  • 人工智能丨Midscene:让UI自动化测试变得更简单
  • 高温环境对电机性能的影响与LabVIEW应用
  • 1.27 保存和加载链表内容
  • 笔试-二维数组2
  • 深入探讨数据库索引类型:B-tree、Hash、GIN与GiST的对比与应用
  • 在AlarmLinux系统中安装KeyDB
  • 01绪论 + 递归+分治+搜索+回溯+原码反码补码+进制+位运算+位图(D2_刷题练习)
  • JVM深入学习(二)
  • Effective C++ 规则50:了解 new 和 delete 的合理替换时机