哺乳动物各器官和物种中长链非编码RNA的发育动态
文献名:Developmental dynamics of lncRNAs across mammalian organs and species
摘要:
尽管在人体及其他哺乳动物基因组中已识别出许多长链非编码RNA(lncRNA),但对这些元素的系统功能特征研究仍然有限。特别是,lncRNA在器官发育中的作用仍然大多未被探索。在此,我们分析了七种物种(人类、猕猴、小鼠、大鼠、兔子、负鼠和鸡)在多个发育时间节点中七大主要器官中lncRNA的表达模式,从早期器官发生到成体阶段。我们的分析在每个物种中识别出约15,000到35,000个候选lncRNA,其中大多数呈现物种特异性。我们描绘了lncRNA在发育阶段中的表达模式,发现许多lncRNA在时间轴上表现出动态变化,并具有功能富集的特征。在发育过程中,从广泛表达且保守的lncRNA逐渐过渡到越来越多的谱系和器官特异性lncRNA。我们的研究为候选lncRNA及其在哺乳动物器官发育中的表达模式和进化保守性提供了一个资源。
之前的研究已经在人体和其他哺乳动物中识别出大量lncRNA。然而,分子特征化的案例仍然有限,大多数基因座的功能性仍不明确。跨物种的基因组比较为大规模识别可能具有功能性的lncRNA提供了一个强有力的框架,因为这些lncRNA应当携带进化约束的特征。尽管lncRNA与发育调控因子的物理接近和共表达,再加上个别范式,早已暗示了lncRNA在哺乳动物发育中的作用,但数据限制使得之前的lncRNA进化研究仅限于成年器官。在本研究中,我们使用一个包含七大器官在发育各阶段的全转录组数据集(详见附带出版物18),以研究lncRNA在发育表达程序中的贡献。
发育性lncRNA图谱
为了评估lncRNA在哺乳动物器官发育中的相关性,我们分析了一个RNA测序(RNA-seq)数据集,该数据集涵盖了七大器官(前脑/大脑(以下简称“脑”)、小脑、心脏、肾脏、肝脏、卵巢和睾丸)从早期器官发生到成体阶段的发育过程,涵盖七个物种(人类、猕猴、小鼠、大鼠、兔子、负鼠和鸡;图1a)。使用该数据集,我们将候选lncRNA注释为剪接和长转录本(超过200个核苷酸),且没有可检测的编码蛋白潜力,并基于物种间的序列相似性重建同源lncRNA家族(方法;图1b;扩展数据图1a, b;补充数据1;补充表格1-8)。
我们在每个物种中识别了约15,000到35,000个不同基因组类别的候选lncRNA(扩展数据图2a)。我们从Ensembl19数据库中回收了约50%的人类和小鼠lncRNA及反义转录本,并分别发现了24,951和21,263个新的lncRNA(图1c)。新识别的lncRNA与先前注释的lncRNA在基因组类别分布和空间表达模式上没有显著区别,这表明我们的扩展库是没有偏向性的(扩展数据图2b)。尽管我们的大多数lncRNA是物种特异性的,但我们在人与其他物种之间识别出了8,953个共享lncRNA(图1b)。我们的lncRNA家族检测灵敏度与以往的研究相似8,且基因连锁保守性也相当。
发育动态lncRNA的特征
我们通过回归分析方法(maSigPro;方法)识别出了具有显著差异表达的lncRNA(称为“发育动态”lncRNA)。检测动态表达的能力取决于多个因素,其中一些已与lncRNA的功能相关性增强有关。这些因素包括稳健的表达水平、转录本稳定性、生物学重复之间的可重复性,以及在发育阶段之间表达变化的一致性(扩展数据图3a)。尽管动态表达不足以证明功能性,我们推测它可以帮助我们富集功能相关的lncRNA。由于成年睾丸中lncRNA的表达不成比例6,12,23,与普遍存在的染色质环境相关,这种环境也允许潜在非功能性元素的转录23,因此我们在此估计中排除了青春期后睾丸样本。
大多数蛋白质编码基因(根据物种不同为73-90%)具有发育动态表达,但只有一小部分lncRNA(16-38%)表现出发育动态表达「5887个」(扩展数据图3b)。与lncRNA的总数高度可变性相反,发育动态lncRNA的数量在各物种之间相似(图2a)。值得注意的是,人类(2,998个,占51%)「?存疑」和小鼠(4,188个,占74%)中有大量动态lncRNA没有在Ensembl19数据库中注释。尽管大多数动态lncRNA(51-63%)仅在单一器官中表现出差异表达,但它们的表达水平普遍较广且较高,相较于非动态lncRNA(扩展数据图3c–f)。
发育动态lncRNA在基因组中表现出较高的分布偏向,包括分歧的、下游的正义和反义转录本,这使它们与蛋白质编码基因的距离更近(扩展数据图4a, b)。然而,所有基因组类别对动态lncRNA的总数都有显著贡献(扩展数据图4a),且控制了最大表达后,各类之间的差异基本消失(扩展数据图4c)。动态lncRNA转录本通常较长(图2b)并包含更多外显子(扩展数据图4d),这表明它们在剪接位点上可能经历选择,避免早期的加尾信号,同时具有更高的容量以容纳模块化RNA结构域,促进与蛋白质或其他核酸的相互作用。
进化保守性为lncRNA的功能性提供了有力的证据。我们观察到,较老的lncRNA群体中,发育动态基因的比例显著增加(图2c;P < 0.01,双侧Fisher精确检验)。由于与蛋白质编码基因及调控元素的重叠可能导致lncRNA进化年龄的高估,我们在排除反义和分歧转录本,以及与转录增强子重叠的lncRNA后重复了这一分析,结果相似(扩展数据图4e;P < 0.05,双侧Fisher精确检验)。即使在低表达lncRNA中,动态转录本在较老lncRNA中的富集现象仍然显著,且在控制最大表达量后依然成立(扩展数据图4f, g;P < 0.05,双侧Fisher精确检验)。总体而言,我们的分析表明,发育动态表达与进化保守性之间存在明确的关联。
接下来,我们评估了不同物种之间时空表达的相似性程度。具有动态小鼠同源基因的人类lncRNA更可能也是动态的(扩展数据图4h),并且在人类和小鼠中都表现为动态的lncRNA,其表达的相似性几乎与蛋白质编码基因相同,即使在排除反义和分歧lncRNA后也是如此(图2d;扩展数据图4i)。为了评估进化年龄对lncRNA时空表达保守性的影响,我们分析了在小鼠和大鼠中表现为动态的lncRNA。我们发现,lncRNA的表达相似性随着lncRNA的年龄增加而增强(扩展数据图4j),这与保守的lncRNA的转录和组织特异性的缓慢更替一致7,26。
最后,我们更直接地考察了动态lncRNA的功能相关性。在lncRNAdb参考数据库中一组分子特征化的功能性lncRNA中,动态基因的比例为76%,是所有人类lncRNA的四倍,接近动态蛋白质编码基因的比例(86%,图2c)。即使在控制最大表达后,这一富集现象仍然显著(扩展数据图4f;P = 0.037,双侧Fisher精确检验)。为了考虑到如广泛表达和保守lncRNA的实验偏好等筛选偏倚,我们还基于人类细胞系中无偏CRISPR干扰(CRISPRi)筛选的细胞增殖表型,分析了一组与细胞增殖相关的lncRNA。尽管报告结果的生理背景和细胞系特异性较高,我们发现,筛选库中那些也出现在我们注释中的lncRNA,其表现出细胞增殖表型(“命中”,扩展数据图4k;P = 2.2 × 10⁻¹⁶,双侧Fisher精确检验)的概率较高。此外,我们还观察到,动态lncRNA中有显著但较小的“命中”富集(图2e;扩展数据图4k,l;P = 0.02,双侧Fisher精确检验),进一步支持它们在功能性基因位点上的富集。
动态lncRNA的调控景观
接下来,我们研究了lncRNA的发育动态表达是否也反映了更复杂的转录调控(方法)。正如预期的那样6,28,蛋白质编码基因的启动子含有最多的转录因子(TF)结合位点29(图2f)。然而,动态间隔lncRNA的启动子比非动态lncRNA的启动子结合了更多的转录因子,表明动态lncRNA的转录调控更强且更复杂(图2f;扩展数据图5a)。
为了评估这一转录调控在发育中的相关性,我们估计了每个转录因子结合的动态lncRNA启动子比例(称为“结合频率”)。我们识别出三大类:在神经组织、心脏或肝脏中动态的lncRNA,其启动子被特定转录因子的结合频率较高(图2g;扩展数据图5b)。对于组织特异性转录因子,我们观察到转录因子在最大表达的器官与该器官中动态lncRNA启动子的结合频率之间高度一致(图2g;扩展数据图5c)。尽管这些转录因子在各组织中广泛表达,一些已知的心脏发育调控因子30,如Nkx2-5、Mef2d和Gata4,也主要结合心脏中动态lncRNA的启动子(图2g)。总体而言,这些结果表明,动态lncRNA的增强转录调控与其表达的器官相匹配。
器官发育过程中的表达模式
器官发育通常伴随有大量蛋白质编码基因表达水平的变化,这些变化发生在发育早期器官身份的确立阶段以及出生时器官功能向成熟特定功能的过渡阶段18。值得注意的是,动态lncRNA表现出最大差异表达的阶段与这些大规模转录变化的时期高度重合,即使仅考虑那些距离最近蛋白质编码基因超过100 kb的lncRNA(图3a;扩展数据图6a, b)。尽管我们不能排除近端发育增强子31的贡献,但动态lncRNA富集功能相关特征的现象(图2)反驳了大多数基因座存在非自主表达的普遍性。
受到蛋白质编码基因与lncRNA之间相似的时间动态的启发,我们根据动态lncRNA与蛋白质编码基因的共表达来推测其功能,即通过“关联推断”(guilt by association)6,13。跨器官的共表达簇中,含有最多lncRNA的簇始终表现出相似的发育轨迹,并与发育功能和成体器官生理相关(扩展数据图7;补充表格9, 10)。相比之下,lncRNA对与细胞基础功能相关的簇的贡献最小,这与假设一致,即较少的lncRNA参与必需的细胞功能。
早期与晚期发育的对比
在本研究的发育阶段,不同器官的转录组在最早的阶段共享强烈的共同特征,随后逐渐分化成各自特定的器官发育程序18。与基因表达程序的分化同步,每个器官中表达的动态lncRNA的数量稳步增加(图3b)。相比之下,表现出选择性保守的lncRNA(即那些年龄超过8000万年的lncRNA)比例随着时间的推移而减少(图3c)。一致地,人在发育过程中与小鼠共有动态lncRNA的表达相似性也逐渐下降(扩展数据图8a)。因此,尽管在器官发育的早期阶段表达的lncRNA的绝对数量低于出生后阶段,但这些基因经历了更强的选择性约束。值得注意的是,lncRNA的序列和表达保守性在神经组织中尤其高,而在肝脏和性腺中较低(扩展数据图8b, c),这与蛋白质编码基因的情况相似。
早期表达的蛋白质编码基因也表现出更高的序列和表达保守性,这被认为是由于早期表达基因具有更高的多效性(更广泛的时空表达)以及随之而来的更强的功能约束18。我们的研究一致发现,早期表达的lncRNA在各个器官中的表达范围较广,而晚期表达的lncRNA则表现出较窄的表达范围(图3d;扩展数据图8d)。我们还发现,早期表达的lncRNA更有可能被lncRNAdb27标注为功能性lncRNA,并且在CRISPRi筛选中表现为细胞增殖表型(图3e, f;扩展数据图8e, f)。这种富集现象与我们的“关联推断”分析一致,后者将早期表达的lncRNA与广泛的细胞功能相关联(扩展数据图7)。尽管如此,晚期表达的动态lncRNA与非动态lncRNA相比,仍然保留了功能富集的特征(扩展数据图8g)。它们在特定器官的表达(图3d;扩展数据图8d)表明,这些lncRNA可能参与更专业的功能,因此其功能约束较弱。
综合来看,我们的分析揭示了器官发育中早期与晚期表达的lncRNA之间的差异。尽管在早期阶段表达的lncRNA较少,这些基因却具有更高的多效性,并在序列和表达层面上经历了更强的进化约束,这与它们广泛的功能一致。相比之下,大多数lncRNA是在晚期阶段表达的,它们表现出更高的器官和谱系特异性,表明它们对发育程序和表型的影响较小。
与邻近蛋白质编码基因的共表达
一些经典的lncRNA(如XIST和小鼠的Airn)已知通过cis作用调控其直接邻近基因的表达9。然而,在基因组尺度上,这种效应的程度仍未明确1,2,26,32。我们在器官发育的背景下,使用我们一组动态lncRNA来研究这一问题。我们发现,动态lncRNA与其邻近蛋白质编码基因的表达相关性显著高于mRNA–mRNA对照组(图4a;P = 2.2 × 10−16,双侧Wilcoxon符号秩检验;方法;扩展数据图9a, b)。虽然基因之间的距离会影响它们之间的相关性,但我们发现,lncRNA与mRNA的配对在距离达到100 kb以内时,正相关的比例显著增加(扩展数据图9c, d)。排除双向和反义lncRNA后,我们得到了类似的结果,因为在这种方向上转录的蛋白质编码基因较少(扩展数据图9e;P = 2.2 × 10−16,双侧Wilcoxon符号秩检验)。
与邻近lncRNA显著相关的蛋白质编码基因富集于发育基因(图4b;扩展数据图9f),支持了lncRNA富集于发育调控因子附近的生物学重要性13。与此一致的是,我们的共表达lncRNA集也富含一组“位置保守”的lncRNA,这些lncRNA与染色质组织结构相关,并且在成人主要组织和癌症样本中与其邻近的发育性蛋白质编码基因共表达33(图4c;P < 10…)。
我们在人的和小鼠的转录组中识别出了77个与邻近lncRNA共表达的蛋白质编码基因(图4d),这一发现相对于每个物种中与lncRNA共表达的1:1同源蛋白质编码基因的比例具有显著富集(P = 2.2 × 10−16,超几何检验;补充表格11, 12)。与所有共表达对比,这些在两种物种中都检测到的配对与器官发育的关联性更强(38%的基因参与至少一个器官的发育;P = 0.0002,超几何检验;方法)。因此,发育调控因子与其邻近lncRNA的共表达是物种之间共享的特征。
我们注意到,观察到的相关性不足以推断lncRNA的调控功能,这仍然需要实验验证9。然而,我们的结果与一些研究一致,这些研究表明一些哺乳动物lncRNA通过影响其邻近基因的表达来发挥作用9,33,34。我们识别出了一些lncRNA(例如GAS6-AS2(也叫做GAS6-DT)35、DEANR1(LINC00261)33,36、SSTR5-AS137、EMX2OS38和Dlx1as39),这些lncRNA曾在调控其邻近蛋白质编码基因中发挥作用。共表达的lncRNA–mRNA配对为未来实验性表征lncRNA的cis调控潜力提供了参考集。
结论
我们使用了涵盖七个主要器官和多个发育阶段的转录组数据集,为成千上万的候选lncRNA提供了统一处理的注释和表达谱。这一广泛的资源将为未来的lncRNA生物学研究提供重要支持(http://lncrnas.kaessmannlab.org)。我们还识别了一组具有发展动态性的lncRNA,这些lncRNA显示出多个功能富集的特征。虽然我们不能排除一些关于动态lncRNA的观察可能由近端或重叠的调控序列所解释,但这些序列通常转录为短寿命、未剪接且没有加尾的转录本40,而这些转录本并未包含在我们的注释中。此外,动态lncRNA在转录本较长且结构复杂方面的富集,反驳了它们作为调控序列的转录或剪接副产物的可能性。
我们的分析识别了lncRNA对不同器官发育阶段贡献的显著差异,并将相关动态lncRNA与可能的功能联系起来。未来利用新兴技术,如单细胞RNA-seq41或长读长RNA-seq42,将进一步完善哺乳动物发育过程中动态lncRNA的注释和表达谱。