论文阅读(七):贝叶斯因果表型网络解释遗传变异和生物学知识
1.论文链接:Bayesian Causal Phenotype Network Incorporating Genetic Variation and Biological Knowledge
摘要:
在分离群体中,数量性状基因座(QTL)定位可以确定对表型有因果效应的QTL。这些方法的一个共同特点是QTL定位和表型网络重建是分开进行的。由于这两个任务必须相互贝内,本章提出了一种方法,联合推断因果表型网络和因果QTL。因果表型关系和因果QTL的联合网络被建模为贝叶斯网络。此外,表型网络结构的先验分布调整的生物知识,从而扩展了以前的框架,QTLnet,QTLnet-prior。这种整合的方法可以结合生物学知识的几个来源,如蛋白质-蛋白质相互作用,基因本体注释,转录因子和DNA结合信息。描述了在接受网络结构和接受对应于k种类型的生物知识的k个权重之间迭代的Metropolis-Hastings方案。
关键词:QTL,贝叶斯网络,因果表型
在分离群体中,数量性状基因座(QTL)定位可以确定对表型有因果效应的QTL。文献中的几种方法利用通过QTL作图鉴定的艾德QTL来确定表型之间的因果关系。这些方法的一个共同特点是QTL定位和表型网络重建是分开进行的。由于这两个任务必须相互贝内,本章提出了一种方法,联合推断因果表型网络和因果QTL。因果表型关系和因果QTL的联合网络被建模为贝叶斯网络。此外,表型网络结构的先验分布由生物学知识调整。这种整合的方法可以结合几个生物学知识的来源,如蛋白质-蛋白质相互作用,基因本体论注释,转录因子和DNA结合信息。这个框架允许通过先验知识对各种知识来源的可信度进行灵活的调整。生物知识权重描述了在接受网络结构和接受对应于k种类型的生物知识的k个权重之间迭代的Metropolis-Hastings方案。在蛋白质-蛋白质相互作用的情况下,描述了编码生物学知识的方式,从基因本体论衍生的基于相似性的措施,以及转录因子与DNA的结合。整合的方法,然后应用于重建一个网络参与酵母细胞周期,依赖于转录因子结合的知识。
7.1介绍
分子生物学的一个关键兴趣是了解DNA,RNA,蛋白质和代谢产物如何相互调节。在这方面,人们已经考虑从具有时间序列测量或转录扰动的微阵列表达数据构建调控网络[14,15]。也可以在基因型干扰基因表达、蛋白质和代谢物水平的分离群体中构建调控网络。遗传变异信息可以解释性状的遗传效应,并有助于发现表型之间的因果调节关系。此外,在各种生物数据库中可以获得调控关系的知识,这可以改善因果网络的重建。本章的重点是结合遗传变异在一个隔离的人口和生物学知识,以改善因果网络的推理。
鉴于基因表达表型的数量性质,人们可以进行数量性状基因座(QTL)定位以检测影响表型的基因组位置[29]。一个位置的基因型通常编码为AA、Aa或aa,其中等位基因A和a是遗传基因座的不同变体形式。定量表型/性状是生物体的任何可观察到的物理或生化定量特征,例如体重、血压、基因表达或蛋白质水平。QTL定位的基本思想是检测基因组区域或QTL,其中基因型的变异与表型的数量变异相关。例如,高的父母倾向于有高的孩子,而矮的父母倾向于有矮的孩子。因此,可能存在与株高相关的遗传因子,这些遗传因子可以通过QTL定位进行艾德分析。在基因型随机分配的实验群体中,QTL的遗传变异可以解释为引起感兴趣的表型的后期变化。
在分离群体中,QTL定位可以确定对表型有因果效应的QTL。该因果效应可以是直接从QTL到表型的,也可以是通过其他中间表型间接的。我们只将直接QTL标记为“因果QTL”,认识到它们比间接QTL对表型的影响更近。我们也承认,在QTL和表型之间的通路中可能有许多其他的分子因子在特定的研究中没有测量。间接和直接QTL可用于帮助确定因果表型网络中边的方向(即,由表型节点组成的有向图,其边表示因果关系)。文献中的几种方法利用QTL定位艾德的QTL来确定表型之间的因果关系,包括:结构方程模型[2,34,35]贝叶斯网络的基于分数的方法[56,60,62];基于独立性检验的贝叶斯网络因果算法[8,53];和对表型对的因果关系检验[10,11,32,38,48]。上述方法的一个共同特点是QTL定位和表型网络重建分别进行。不考虑表型网络的QTL定位可能会发现间接QTL。正如[9]所指出的,不正确或间接的QTL可能会影响表型间因果关系的推断。为了解决这个问题,一些研究人员[9,20]提出联合推断因果表型网络和因果QTL。
在表型网络的重建中,各种生物学知识的来源已经与基因表达结合起来,因为使用仅基因表达来确定基因调控的因果方向是困难的。转录因子结合信息被[52]利用,而[40]使用蛋白质-蛋白质相互作用知识构建表型网络。[25]、[55]和[12]提出了整合多种生物学知识的方法。
在本章中,我们提出了一种贝叶斯方法来联合推断因果表型网络和因果QTL,其中表型网络结构的先验分布由生物学知识调整。因果表型关系和因果QTLs的联合网络被建模为贝叶斯网络,其采用了[9],QTLnet。在表型网络的条件下,可以通过QTL定位推断出因果QTL。由于表型网络是未知的,QTLnet遍历表型网络的空间,并使用马尔可夫链蒙特卡洛(MCMC)更新因果QTL。我们通过将生物学知识引入表型网络结构的先验分布来扩展QTLnet的框架。生物学知识的结合有望提高模型估计的准确性,从而增强网络的预测能力[62]。表型网络结构的先验概率是基于吉布斯分布来整合不同来源的生物信息,允许分析师对这一知识的信心进行灵活的调整[55]。由于生物学知识可能是不完整和不准确的,因此考虑生物学知识的可靠性是必要的。虽然[62]提出了一种将遗传变异和生物学知识整合到表型网络中的方法,但他们的方法没有考虑生物学知识的可靠性。我们提出的方法(QTLnet-prior)可以整合表型数据、遗传变异和多种生物学知识源(蛋白质-蛋白质相互作用、基因本体注释、转录因子和DNA结合信息),并在网络重构算法中考虑每种生物学知识源的可靠性。
我们用于因果表型网络和因果QTL的联合推断的集成框架的细节组织如下。第7.2节描述了用于因果网络和因果QTL联合推断的QTLnet方法。第7.3节介绍了拟议的QTLnet-prior,它将生物学知识纳入表型网络结构的先验概率分布。在第7.4节中进行了模拟研究,以比较所提出的方法与几种现有的方法。在第7.5节中,所提出的方法用于重建参与酵母细胞周期的26个基因的网络。最后,在第7.6节中,我们讨论了我们的方法的优点和注意事项,并指出了未来的研究方向。
7.2因果表型网络与因果QTL的联合推断
在第7.2.1小节中,我们首先介绍了一个用于建模表型数据的标准贝叶斯网络。接下来,在7.2.2小节中,我们提出了一个扩展模型QTLnet,它基于齐次条件高斯回归(HCGR)模型,将QTL节点纳入表型网络。标准贝叶斯网络中的有向边可以解释为因果关系。通过扩展具有因果QTL节点的表型网络,我们可以进一步主张因果解释。在7.2.3小节中,我们提出了因果表型网络和因果QTL联合推断的基本原理,在7.2.4小节中,我们描述了以表型网络为条件的QTL定位。最后,我们在第7.2.5小节中概述了表型网络和因果QTL推断的联合方法。
7.2.1标准贝叶斯网络模型
7.2.2 HCGR模型
联合建模表型和QTL基因型的贝叶斯网络的参数族对应于HCGR模型。在QTL基因型和协变量的条件下,表型根据多变量正态分布进行分布,其中QTL和协变量通过平均值进入模型,表型之间的相关结构根据表示表型网络结构的DAG明确建模[9]。图7.1描述了表型和QTL基因型的联合贝叶斯网络的一个例子。
7.2.3系统遗传学和因果推理
系统遗传学旨在从大规模的基因型和表型数据中了解遗传变异和表型之间复杂的相互关系[39]。在这里,我们解释如何系统遗传学方法可以推断因果网络。QTL与表型的因果关系是由基因型对表型的单向影响和基因型对个体的随机分配艾德的。相反,表型之间的因果关系是从条件独立性中推导出来的。系统遗传学的关键思想是,通过将QTL节点纳入表型网络,我们创建了一组新的条件独立关系,用于区分网络结构,否则,属于同一等价类(见表7.1和7.2)。
首先,我们对QTL与表型之间的因果关系进行了较为详细的描述。正如分子生物学中心法则所述,遗传DNA信息被转移到表型。因此,基因型一般影响表型,而不是相反。一个基因型被认为是随机的其他环境因素的独立分离的染色体在减数分裂和随机交配配子之间。这些特殊的特征使我们能够推断QTL对表型的因果效应,因为通过与随机实验类比,我们有:(1)对实验单位的处理(基因型)先于测量结果(表型),(2)对实验单位的随机分配处理保证了其他常见原因的平均值。同一条染色体上的两个基因座在距离较小时高度相关。但是两个基因座之间的交叉仍然可以随机发生,与距离成比例。可以在大样本量下区分真的因果QTL和假的邻近QTL。这种随机分配在回交或互交等实验杂交中是明确的。虽然这一概念可以扩展到自然种群,但必须特别注意混合、亲属关系和其他形式的亲缘关系。
第二,解释表型间的因果推理需要由表型和QTL节点组成的DAG中的条件独立性概念。在接下来的三个段落中,我们提出了一些定义和结果,使我们能够推断表型与表型的因果关系。
现在我们陈述关于系统遗传学中因果推理的四个重要结果:(1)两个DAG是马尔可夫等价的当且仅当它们具有相同的骨架和相同的v-结构集[54];(2)分布等价意味着马尔可夫等价,但匡威不一定是真的[50];(3)对于高斯回归模型,马尔可夫等价意味着分布等价[21];(4)对于齐次条件高斯回归模型,马尔可夫等价蕴含分布等价[9]。
因此,对于HCGR参数族,两个DAG是分布和似然等价的,当且仅当它们是马尔可夫等价的。这意味着我们可以简单地检查任何两个DAG是否具有相同的骨架和相同的v结构集,以确定它们是否是似然等价的,因此不能使用数据进行区分。
7.2.4表型网络结构条件下的QTL定位
注意,如[9]中所指出的,条件LOD得分可以被采用作为表型和QTL之间独立性的正式度量。尽管我们将注意力限制在HCGR模型上,但条件LOD分析是检测连续和离散随机变量之间条件独立性的通用框架。与偏相关相反,条件LOD评分不需要假设数据的多正态性以正式检验独立性,并且它可以通过协变量相互作用来处理QTL。
7.2.5表型网络和因果QTL的联合推断
7.3表征生物学知识的因果表型网络
除了基因型QTL外,生物学知识也是促进表型网络构建的重要信息来源。这些知识可以整合在因果网络之上,以提供基因如何调控的更全面的图景。这种整合的网络可以产生一个新的基因调控假说,与生物学知识具有整体一致性。
在本节中,我们提出了一个网络推理方法,QTLnet-prior,从表型数据与遗传变异,整合生物学知识。QTLnet-prior扩展了第7.2.5小节末尾提到的QTLnet框架。它指定了表型网络结构的先验概率,以整合多个生物学知识来源,并根据知识的可靠性灵活调整参数[55]。生物学知识的加权集成可以产生更具预测性的贝叶斯网络。我们的扩展框架QTLnet-prior的细节在7.3.1小节中介绍。在第7.3.2小节中,我们概述了用于QTLnet先验实现的Metropolis-Hastings MCMC方案,该方案集成了网络结构的采样[19,37],QTL作图和生物知识权重的采样。在7.3.3小节中,我们介绍了如何将生物学知识编码到表型网络结构的先验分布中。
7.3.1模型
扩展模型
表型网络结构
生物学知识权重
引入权值参数控制生物学知识对表型网络的影响。更高的权重值会增加生物知识对网络后验分布的影响。特别地,大的W使表型网络结构与生物学知识B一致的先验概率显著增加。相反,一个小的W会使所有可能的网络的先验概率相当相等。如果生物知识B与生成表达数据的真实网络相似,则后验概率将在高W处达到峰值。相反,如果生物学知识与真实网络有很大的偏差,则后验概率将在小W处达到峰值。这是因为W越小,偏差网络和真实网络的先验概率之比越小。因此,真实网络的后验可以大于偏离网络的后验,这是由于在较小的W下似然比克服了先验比。
因果QTL的先验
在没有任何关于因果QTL的具体信息的情况下,我们将因果QTL的先验设置为均匀分布。在贝叶斯QTL作图中可以找到几个替代的物种,如[59]和[58]。
7.3.2 MCMC示意图
7.3.3生物学知识编码概述
7.4模拟
我们进行了一项模拟研究,将所提出的方法(QTLnet-prior)与其他三种方法进行比较:QTLnet [9],WH-prior [55]和Expression。表7.3提供了这四种方法在使用遗传变异信息和生物学知识方面的总结。QTLnet使用R/QTLnet实现,QTLnet-prior使用R/QTLnet上的先验设置实现,WH-prior如[55]中所述进行编程,修改为使用BIC评分而不是使用BGe评分近似边缘可能性[17]。通过修改R/QTLnet以排除QTL作图来编程表达。
7.5酵母细胞周期基因分析
7.6结论
我们已经开发了一个表型网络推理方法(QTLnet-prior),将遗传变异信息和生物学知识。已知基因型控制表型,而不是相反,因此可以帮助区分表型网络结构。生物学知识可以改善表型之间的聚类和方向性推理。仿真研究表明,在知识与数据一致的前提下,该方法能有效地融合遗传变异信息和生物学知识,提高基因网络的重构效率。当生物知识与数据不一致时,知识的权重控制了生物知识先验概率对数据似然的贡献,在一定程度上降低了缺陷知识的负面影响。我们应用QTLnet-prior通过整合转录因子结合信息来估计具有因果QTL的26个基因的酵母细胞周期网络,并将其性能与QTLnet进行比较。权重的分布表明转录因子结合信息与表达数据不一致。尽管如此,与QTLnet的输出比较显示出相当相似的结果,这表明知识的权重参数在这种情况下有效地控制了不一致知识的负面影响。
当我们解释推断出的网络时,我们需要谨慎。尽管在理论上,引入因果QTL使我们能够区分网络结构,否则可能是等效的,但在实践中,一些检测到的表达间因果关系可能是无效的。可能的解释是,推断的表达网络代表了可能发生在转录调控水平之外的真实的因果关系的投影。例如,真正的因果调节可能是由于转录因子结合,直接蛋白质-蛋白质相互作用,磷酸化,甲基化等,并且可能无法在基因表达水平上得到很好的反映。结合从不同水平的生物调节中挖掘的不同生物学知识,可以潜在地改善基因表达调节网络的重建。在任何情况下,这些网络的推理仍然可以在产生假设可能的因果关系方面发挥重要作用。
有几个因素可以改变QTLnet先验推断。一个是先验分布规范.根据方程(7.4)中的绝对距离测量,我们已经使用吉布斯分布作为方程(7.5)中的网络结构的先验分布,以结合生物学知识。在方程(7.6)中,生物学知识的权重采用指数分布,并采用率参数(见7.3.1小节)。然而,我们可以考虑不同的网络结构分布、信息整合测度、权重分布和超参数的选择。另一个因素是表达式数据的样本大小。随着样本量的增加,生物学知识的贡献将普遍减少。这表明,生物学知识对网络重构的贡献有限,尽管生物学知识B也可以从大量实验中获得,如[55]中所讨论的。第三个因素是生物知识对网络重构的全局控制。通过酵母细胞周期网络可以看出,每个转录因子/靶调控都由相同的权重参数控制。它可能没有导致任何生物学知识的贡献,即使转录因子/靶向调控被推断为与表达数据一致。这意味着在重构网络时通过局部控制参数来结合生物学知识。最后,生物学知识的编码也起着重要角色。我们已经提出使用来自[4]的转录因子及其靶的编码、来自[28]的蛋白质-蛋白质相互作用、以及来自[36]的基因本体注释。这些编码主要是关于在单独的生物调节水平上的直接关系。如前一段所讨论的,这种被丢弃的生物学知识可以改进贝叶斯网络的重构。
贝叶斯网络分析中的一个持续挑战是如何科普大型网络,因为DAG空间大小随着节点数量的超指数增长。已经提出了基于马尔可夫毯的方法,对父节点的数量有限制和没有限制[45,47,49]。在[27]中,作者将贝叶斯网络问题近似为线性规划问题。在[51]中,作者开发了一种并行算法,该算法推断限制在马尔可夫毯上的子网络并合并子网络。类似地,在遗传估计中,已经研究了从小树重建超树[5]。我们认为,严格发展的超级贝叶斯网络方法,以整合小型子网络是一个有前途的方向推理的大型网络,因为推理的小型子网络是计算成本低,多个子网络可以并行计算。在这个生物学数据和各方面知识丰富的时代,大规模地合理整合它们可能是未来研究的一个有趣课题。
参考文献
略