当前位置: 首页 > article >正文

植物端粒到端粒(T2T)基因组研究进展与展望

鼠鼠跳槽了,因为现在公司发(bu)展(zhang)受(gong)限(zi),只能跳一次,从大兴到昌平了。从二代ivd行业去三代T2T和泛基因组了。在这里我们分享一篇文章。

     摘要:高质量的参考基因组是基因组学研究的基础。目前,大多数的参考基因组仍然是不完整的。随着长读长测序技术的不断发展,完成端粒到端粒基因组组装的物种越来越多。T2T基因组为深入研究着丝粒等复杂区域奠定了基础,对功能基因的挖掘和重要生物机制的研究具有重要意义。本文概述了植物T2T基因组的研究进展,结合实例介绍了相应的组装策略,讨论了T2T基因组的意义和面临的挑战,并对未来的发展前景进行了展望。

1.三代测序

第三代测序技术,又称为长读长测序,标志着植物基因组测序组装的新阶段。当前,主流的两种测序技术是来自Pacific Biosciences(PacBio)的SMRT(single molecule real-time)测序技术和Oxford Nanopore Technologies(ONT)的纳米孔测序技术。

SMRT测序技术

  • 两种读长模式

    • CLR模式(Continuous Long Read):旨在尽可能提高读长,能够测序大于30 kb的DNA片段,但其错误率较高。

    • CCS模式(Circular Consensus Sequencing):生成HiFi reads,虽然读长较短,但准确度可达到99.9%。

纳米孔测序技术

  • 读长优势:理论上不受设备限制,可以产生超长读长的ONT ultralong reads,最高可达100-200 kb。

  • 应用:HiFi测序保障基因组的高质量碱基,而ONT测序能够穿越长而复杂的区域。这两者的优势互补,使它们在T2T基因组组装中不可或缺。

T2T基因组组

  • 组装过程

    1. 首先,使用组装软件将测序reads组装到contig水平。

    2. 然后,采用辅助方法以获得更连续的染色体水平组装。

 辅助组装方法

  • Hi-C技术

    • 定义:高通量染色体构象捕获(high-throughput chromosome conformation capture)。

    • 功能:捕获全基因组染色质之间的相互作用信息,构建高分辨率的染色质互作图谱。

    • 应用:常与HiFi、ONT数据结合生成T2T基因组,同时在杂合二倍体和多倍体的组装中表现良好。

2.组装软件

主要组装软件

  • Canu (Koren et al., 2017)

    • 步骤:将组装过程分为三个主要阶段:

      • 校正:提高碱基准确性。

      • 修剪:去除冗余reads,保留高质量序列。

      • 组装:最终完成contig的组装。

    • 特点:支持HiFi数据的读取,大大提升组装速度和质量。

  • NECAT (Chen et al., 2021)

  • Falcon (Chin et al., 2016)

  • Flye (Kolmogorov et al., 2019)

  • NextDenovo

    • 特点:基于超长ONT数据开发,成为ONT数据组装的常用工具。

    • 能力:能够生成高度连续的contig,成功跨越基因组中大部分难以组装的区域。

  • HiFiASM (Cheng et al., 2021)

    • 特点:针对PacBio HiFi数据的单倍型组装算法。

    • 优势:在组装过程中无损保留单倍型信息,提升对高重复和复杂区域的解析能力。

    • 最新版本:支持超长ONT数据的T2T基因组组装。

  • Verkko (Rautianen et al., 2023)

    • 特点:集成HiFi和超长ONT数据,开发用于T2T组装的混合基因组组装管道。

    • 能力:展示了其组装人类T2T基因组的能力。

3.常规基因组组装策略通常可以分为以下几个步骤:

1. 基因组特征评估

  • 方法:基于k-mer的原理,利用高准确性的二代测序数据。

  • 评估内容

    • 目标物种基因组的大小

    • 杂合度

    • 重复序列的含量

  • 影响:基因组越小、杂合度越低、重复序列含量越少,组装难度越低。

2. 测序reads校正

  • 目的:提高碱基的准确性。

3. Reads拼接

  • 过程:将校正后的reads拼接成contig。

4. 染色体水平组装

  • 方法:利用遗传图谱、Bionano光学图谱、Hi-C等技术构建染色体水平的组装。

4. T2T基因组组装策略

T2T(从头到尾)基因组的组装策略大致可以分为以下三种:

1. HiFi 数据组装策略

  • 步骤

    1. 将HiFi数据组装成contig。

    2. 借助高质量的近缘物种基因组或Hi-C数据将contig提升至染色体水平,生成带有缺口的基因组。

    3. 对ONT数据进行组装校正,然后使用ONT组装填补HiFi组装的缺口。

  • 特点:生成的基因组碱基质量较高,适用于基因组较小且简单的物种。

  • 应用实例:此策略已成功应用于西瓜(Citrullus lanatus)、草莓(Fragaria vesca)、桑树(Morus notabilis)等物种【Deng et al., 2022; Ma et al., 2023; Zhou et al., 2023】。某些物种(如蔗茅 Erianthus rufipilus、猕猴桃 Actinidia latifolia)也可以仅通过HiFi数据完成染色体的T2T组装【Han et al., 2023; Wang et al., 2023b】。

2. ONT 数据组装策略

  • 步骤

    1. 将ONT数据组装成contig。

    2. 进行碱基质量校正和染色体挂载。

    3. 最后用HiFi组装补填缺口。

  • 特点:由于ONT的reads更长,能够跨越基因组中的高度重复区域,从而生成更为连续的序列。通常用于基因组较大且复杂的物种。

  • 应用实例:这种方法已成功完成大尺寸玉米(Zea mays)的T2T组装【Chen et al., 2023】。

3. 混合组装策略

  • 工具:Verkko和HiFiASM等软件支持同时将HiFi数据和ONT数据作为输入,生成T2T级别的组装。

  • 应用实例:这种策略已成功应用于水稻(日本晴)和大豆(Glycine max)的基因组组装【Shang et al., 2023; Zhang et al., 2023a】。另外,可以通过直接将reads比对到基因组的缺口区域来填补缺口,然后再对缺口区域进行碱基校正。

总结

  • T2T基因组的组装策略并不是固定的,而是需要根据物种特性、测序数据类型以及不同软件的组装效果来选择合适的策略。

  • 完全没有人工干预的情况下完成T2T组装仍然具有挑战性,因此在处理复杂基因组区域(如端粒和着丝粒区域)时,通常需要进行手动检查。

5.端粒与着丝粒的鉴定

端粒

  • 结构:端粒结构比较保守,通常分为以下几个部分:

    1. 串联重复的端粒区域

    2. 亚端粒区域

    3. 中间的连接部分

  • 鉴定方法:在植物基因组中,通常使用七碱基端粒重复序列(5′端的 CCCTA AAA 或 3′端的 TTTAGGG)与基因组进行比对,以确定端粒区域。

着丝粒

  • 功能:着丝粒在植物细胞分裂过程中保障染色体的正确分离。

  • 结构特征:着丝粒由高度重复的序列和少量基因构成【Nagaki et al., 2004】。

  • 位置预测

    • 方法:可以通过重复序列密度和基因密度进行着丝粒位置的预测。

    • 实例

      • 在西瓜的T2T组装中,通过对连续串联重复序列的注释预测着丝粒位置【Deng et al., 2022】。

      • 在猕猴桃的T2T组装中,结合串联重复序列、基因密度和Hi-C交互信息来确定着丝粒位置【Han et al., 2023】。

应用范围

  • 其他物种:许多物种基于着丝粒区域的序列特征完成了着丝粒位置的预测工作,如香蕉(Musa spp.)、木薯(Manihot esculenta)、葡萄(Vitis vinifera)等【Huang et al., 2023; Shi et al., 2023; Xu et al., 2023】。

  • 新工具:近期发表的Quartet工具中的CentroMiner功能,可以将基因组与重复序列注释文件作为输入,直接输出着丝粒位置的预测结果【Lin et al., 2023】。

  • 精确定位:通过结合CENH3(着丝粒特异性组蛋白变体)与ChIP-seq测序进行比对,可以完成对着丝粒位置的更精确定位。拟南芥、大麦(Hordeum vulgare)等物种使用ChIP-seq等多种技术完成了着丝粒位置的准确预测【Naish et al., 2021; Navrátilová et al., 2022】。

6.基因组质量评估

随着长读长组装技术的发展,基因组的质量和完整性显著提升,因此对T2T基因组的组装结果进行全面评估变得至关重要。基因组质量评估主要包括连续性、完整性和准确性三个方面。以下是常见的评估指标和工具:

1.N50

  • 定义:N50是评估基因组连续性的指标。

  • 计算方法

    1. 对contig的长度从大到小进行排序。

    2. 逐步累加长度,直到总长度超过基因组一半。

    3. 此时加入的序列长度即为N50长度。

  • 意义:N50值越大,代表基因组组装的连续性越好。

2. BUSCO完整性评估

  • 工具:BUSCO(Benchmarking Universal Single-Copy Orthologs)是一种用于评估基因组完整性的工具【Simão et al., 2015】。

  • 工作原理

    • BUSCO建立了包含多个物种的基准数据库,包括已知的单拷贝基因。

    • 这些基因在不同物种中功能相似且相对保守,用于评估基因组完整性。

  • 评估结果

    • 包括单拷贝比对基因、多拷贝比对基因、部分比对基因和丢失基因。

    • 比对成功的基因越多,代表基因组的完整性越好。

  • 优势:适用于不同物种,广泛应用于基因组学研究。

3.测序数据的比对率与覆盖深度

  • 比对率:指成功将原始测序数据比对到组装结果的比例,反映了组装结果与原始测序数据的一致性。

  • 覆盖深度:指某一基因组区域内的测序覆盖深度。

  • 评估方法

    • 将原始数据比对回基因组,检查reads的覆盖深度分布。

    • 可以判断基因组中是否存在局部的组装错误。

4.基于k-mer的评估

  • 方法:k-mer提供了一种无需参考基因组即可评估组装质量的途径。

  • 工具:Merqury是一种新的评估基因组质量的工具【Rhie et al., 2020】。

  • 工作原理

    • 通过将未组装的高精度测序reads的k-mer集合与基因组组装进行比较,揭示拷贝数错误,计算一致性质量(QV)和k-mer完整性。

    • 当有亲本k-mer可用时,还可以检测分型准确性和单倍型完整性。

  • 应用实例:拟南芥Col-XJTU组装的5条染色体QV值均超过60【Wang et al., 2022】;西瓜基因组QV值从35.22提升至76.97,显示出高可靠性和碱基准确性【Deng et al., 2022】。

5.LAI值

  • 定义:LTR组装指数(LTR Assembly Index,LAI)用于评估基因组组装连贯性的一个指数。

  • 计算方法:根据完整LTR-RTs转座子在所有LTR-RTs中的占比评估。

  • 分类标准

    • Draft级别(0≤LAI<10)

    • Reference级别(10≤LAI<20)

    • Gold级别(20≤LAI)

  • 示例:蔗茅T2T的LAI值为20.87,达到黄金标准,表明重复区域高度完整【Wang et al., 2023b】。

6. SNVs评估碱基准确性

  • 定义:单核苷酸变异(SNVs)用于评估碱基的准确性。

  • 流程

    • 使用bwa软件将二代数据比对到参考基因组,随后使用GATK等工具进行SNP calling和过滤【McKenna et al., 2010】。

    • 统计纯合和杂合SNVs的数量。

  • 意义:纯合SNVs可能代表错误碱基,其占整个基因组长度的比例即为碱基的错误率。基因组质量越高,碱基的错误率越小。

7. T2T基因组的意义与应用

1 正确地识别结构变异

  • 定义与重要性: 结构变异(SVs)是指个体基因组序列中长度大于50 bp的差异,涉及倒位、插入、缺失等类型。这些变异对于理解基因组的功能和个体间的遗传差异至关重要。

  • 应用于结构变异识别: T2T基因组技术能更准确地识别复杂的结构变异,尤其是染色体着丝粒和端粒区域的变异。

    • 实例研究: Zhang等(2022)比较了四个杂交水稻亲本及已发表的水稻基因组,与日本晴基因组对比,发现了大量的结构变异(包括422,858~526,481个InDels和56,817个非冗余SVs)。

    • 更多发现: Song等(2021)研究发现MH63与ZS97在第11号染色体的末端存在大量结构变异,MH63中独特地检测到扩张区域和插入区域,包含更多抗性相关基因。

2 挖掘新的基因

  • 新基因发现: T2T基因组研究为新基因的挖掘提供了可能,尤其是在植物生长发育和抗逆性方面的重要信息。

    • 实例研究: 在T2T香蕉基因组中,发现了1,700个新基因,主要是串联重复基因,构成了基因簇,包括萜类合酶基因家族,对植物风味和环境适应性具有关键作用(Belser et al., 2021)。

3 解析着丝粒等复杂基因组区域

  • 研究复杂区域的挑战: 着丝粒等复杂区域的组装一直是植物基因组研究的难点。T2T基因组提供了强大的工具,促进了对这些区域的理解。

    • 关键发现: Naish等(2021)通过鉴定拟南芥着丝粒上的CEN180序列,发现不同染色体的序列存在显著差异,并讨论了逆转录转座子ATHILA对CEN180序列多样化的影响。

    • 大豆研究: Wang等(2023a)发现大豆13号染色体的着丝粒特异性重复序列GmCent-3,变异较小,可能表明其形成晚于其他染色体。

4 深入研究重复序列

  • 重复序列的重要性: 重复序列在基因组进化中起着重要作用,转座子(TE)影响基因表达和基因组结构。

    • LTR-RT的角色: 长末端重复反转录转座子(LTR-RT)是植物基因组中最常见的重复,其增殖可能导致基因组扩张。

    • 水稻研究: 在高质量水稻T2T基因组MH63的分析中,发现籼稻基因组具有更多的转座子和片段重复(SD),揭示了TE与SD对水稻基因组进化的协同作用(Lie et al., 2021)。

    • 玉米研究: Mo17的T2T基因组鉴定出约88.37%的重复序列,包括75.52%的逆转录转座子和9.78%的DNA转座子(Chen et al., 2023)。此外,Mo17基因组中富含的卫星序列主要由TAG三核苷酸重复组成,形成了超长简单序列富集区。

8. T2T 基因组的挑战

1 高重复序列

  • 重复序列比例高:植物基因组中的重复序列比例显著高于其他生物,如病毒、细菌和动物。例如,黄杨和水青树基因组中重复序列分别占76.4%和78.5%;而蕨类植物基因组中重复序列高达85.2%,其中 LTR-RTs 占67.0%(Chandrabali et al., 2022; Marchant et al., 2022)。

  • 组装难题:富含重复序列的区域通常涉及关键遗传功能区域(如端粒、着丝粒、多拷贝基因等),使得精确组装成为挑战。二代测序在重复序列组装方面通常不够完整。

  • 三代测序的优势:相比于二代测序,三代长读长测序能够越过重复区域,改善组装的连续性和准确性。然而,低准确度的 ONT 测序仍然面临测序错误与微小变异区分的挑战(Kong et al., 2023)。

2 高杂合度

  • 杂合度问题:许多植物基因组由于远缘杂交和自交不亲和性,具有较高的杂合度。组装时常会导致高杂合区域被识别和合并的问题,形成多个独立的 contig,从而增加基因组的大小。

  • 冗余去除:研究人员使用 HaploMerger2 软件从荔枝中分离两套单倍型(Hu et al., 2022)。新的软件如 HiFiasm 也能够直接生成单倍型组装结果,这对高度杂合物种的组装有突破性意义。

  • 单倍型分离与 T2T 组装的挑战:同时实现单倍型分离和 T2T 的组装依然是一项巨大的挑战。

3 高倍性

  • 多倍体的普遍性:多倍体在陆生植物中很常见,包括同源多倍体和异源多倍体。同源多倍体来源于单个物种的全基因组复制,异源多倍体则源自两个或多个不同物种的杂交。

  • 区分亚基因组的难度:对于异源多倍体,区分不同祖先物种的亚基因组相对容易;而同源多倍体因同源染色体之间的高度相似性,导致单倍型之间的同源序列难以准确区分,可能产生多个折叠的 contig,增加了组装的复杂性(Zhuang et al., 2019; Miao et al., 2022)。

4 超大基因组

  • 基因组大小差异:测序的植物基因组大小差异显著,从几兆碱基(Mb)到几十吉碱基(Gb)不等。

  • 数据处理复杂性:超大基因组的组装面临数据处理的复杂性,传统组装算法在处理超大基因组时效率低下。

  • 生成与存储挑战:生成足够的长读长数据需要昂贵的测序成本,同时存储和处理庞大的数据集也需更大的计算资源。


http://www.kler.cn/news/363679.html

相关文章:

  • 【计网】深入理解网络通信:端口号、Socket编程及编程接口
  • PON架构(全光网络)
  • 2024年软件设计师中级(软考中级)详细笔记【11】知识产权基础知识(分值2~3分)
  • 测试一个股票行情API
  • Unity之如何在物体空间中制作马赛克
  • 零售行业的数字化营销转型之路
  • Android 图片相识度比较(pHash)
  • linux-牛刀小试
  • NAND FLASH 与 SPI FLASH
  • Python基于OpenCV的实时疲劳检测
  • AI网关对企业的意义及如何构建 AI 网关
  • [Windows] 很火的开源桌面美化工具 Seelen UI v2.0.2
  • Github 2024-10-18Java开源项目日报Top9
  • 使用 SSH 连接 GitLab 的常见问题及解决方案
  • 摄像机实时接入分析平台LiteAlServer视频智能分析软件抽烟检测算法的应用场景
  • a标签点击页面跳转是-403,回车后正常了
  • MySQL-28.事务-介绍与操作
  • 【每日一题】LeetCode - 反转整数问题
  • 多线程初阶(七):单例模式指令重排序
  • 【Docker技术详解】(一)Docker镜像文件系统的关系和交互
  • Spring Cache Caffeine 高性能缓存库
  • 学习AJAX请求(初步)24.10.21-10.23
  • JAVA应用测试,线上故障排查分析全套路!
  • 数据结构 —— 链式二叉树(C语言讲解)
  • main.ts中引入App.vue报错,提示“Cannot find module ‘./App.vue’ or its corresponding type
  • Webpack安装