当前位置：首页 > article >正文

植物端粒到端粒（Ｔ２Ｔ）基因组研究进展与展望

article 2024/10/25 0:13:55

鼠鼠跳槽了，因为现在公司发(bu)展(zhang)受(gong)限(zi)，只能跳一次，从大兴到昌平了。从二代ivd行业去三代T2T和泛基因组了。在这里我们分享一篇文章。

摘要：高质量的参考基因组是基因组学研究的基础。目前，大多数的参考基因组仍然是不完整的。随着长读长测序技术的不断发展，完成端粒到端粒基因组组装的物种越来越多。Ｔ２Ｔ基因组为深入研究着丝粒等复杂区域奠定了基础，对功能基因的挖掘和重要生物机制的研究具有重要意义。本文概述了植物Ｔ２Ｔ基因组的研究进展，结合实例介绍了相应的组装策略，讨论了Ｔ２Ｔ基因组的意义和面临的挑战，并对未来的发展前景进行了展望。

1.三代测序

第三代测序技术，又称为长读长测序，标志着植物基因组测序组装的新阶段。当前，主流的两种测序技术是来自Pacific Biosciences（PacBio）的SMRT（single molecule real-time）测序技术和Oxford Nanopore Technologies（ONT）的纳米孔测序技术。

SMRT测序技术

两种读长模式：
- CLR模式（Continuous Long Read）：旨在尽可能提高读长，能够测序大于30 kb的DNA片段，但其错误率较高。
- CCS模式（Circular Consensus Sequencing）：生成HiFi reads，虽然读长较短，但准确度可达到99.9%。

纳米孔测序技术

读长优势：理论上不受设备限制，可以产生超长读长的ONT ultralong reads，最高可达100-200 kb。
应用：HiFi测序保障基因组的高质量碱基，而ONT测序能够穿越长而复杂的区域。这两者的优势互补，使它们在T2T基因组组装中不可或缺。

T2T基因组组

组装过程：
1. 首先，使用组装软件将测序reads组装到contig水平。
2. 然后，采用辅助方法以获得更连续的染色体水平组装。

辅助组装方法

Hi-C技术：
- 定义：高通量染色体构象捕获（high-throughput chromosome conformation capture）。
- 功能：捕获全基因组染色质之间的相互作用信息，构建高分辨率的染色质互作图谱。
- 应用：常与HiFi、ONT数据结合生成T2T基因组，同时在杂合二倍体和多倍体的组装中表现良好。

2.组装软件

主要组装软件

Canu (Koren et al., 2017)
- 步骤：将组装过程分为三个主要阶段：
  - 校正：提高碱基准确性。
  - 修剪：去除冗余reads，保留高质量序列。
  - 组装：最终完成contig的组装。
- 特点：支持HiFi数据的读取，大大提升组装速度和质量。
NECAT (Chen et al., 2021)
Falcon (Chin et al., 2016)
Flye (Kolmogorov et al., 2019)
NextDenovo
- 特点：基于超长ONT数据开发，成为ONT数据组装的常用工具。
- 能力：能够生成高度连续的contig，成功跨越基因组中大部分难以组装的区域。
HiFiASM (Cheng et al., 2021)
- 特点：针对PacBio HiFi数据的单倍型组装算法。
- 优势：在组装过程中无损保留单倍型信息，提升对高重复和复杂区域的解析能力。
- 最新版本：支持超长ONT数据的T2T基因组组装。
Verkko (Rautianen et al., 2023)
- 特点：集成HiFi和超长ONT数据，开发用于T2T组装的混合基因组组装管道。
- 能力：展示了其组装人类T2T基因组的能力。

3.常规基因组组装策略通常可以分为以下几个步骤：

1. 基因组特征评估

方法：基于k-mer的原理，利用高准确性的二代测序数据。
评估内容：
- 目标物种基因组的大小
- 杂合度
- 重复序列的含量
影响：基因组越小、杂合度越低、重复序列含量越少，组装难度越低。

2. 测序reads校正

目的：提高碱基的准确性。

3. Reads拼接

过程：将校正后的reads拼接成contig。

4. 染色体水平组装

方法：利用遗传图谱、Bionano光学图谱、Hi-C等技术构建染色体水平的组装。

4. T2T基因组组装策略

T2T（从头到尾）基因组的组装策略大致可以分为以下三种：

1. HiFi 数据组装策略

步骤：
1. 将HiFi数据组装成contig。
2. 借助高质量的近缘物种基因组或Hi-C数据将contig提升至染色体水平，生成带有缺口的基因组。
3. 对ONT数据进行组装校正，然后使用ONT组装填补HiFi组装的缺口。
特点：生成的基因组碱基质量较高，适用于基因组较小且简单的物种。
应用实例：此策略已成功应用于西瓜（Citrullus lanatus）、草莓（Fragaria vesca）、桑树（Morus notabilis）等物种【Deng et al., 2022; Ma et al., 2023; Zhou et al., 2023】。某些物种（如蔗茅 Erianthus rufipilus、猕猴桃 Actinidia latifolia）也可以仅通过HiFi数据完成染色体的T2T组装【Han et al., 2023; Wang et al., 2023b】。

2. ONT 数据组装策略

步骤：
1. 将ONT数据组装成contig。
2. 进行碱基质量校正和染色体挂载。
3. 最后用HiFi组装补填缺口。
特点：由于ONT的reads更长，能够跨越基因组中的高度重复区域，从而生成更为连续的序列。通常用于基因组较大且复杂的物种。
应用实例：这种方法已成功完成大尺寸玉米（Zea mays）的T2T组装【Chen et al., 2023】。

3. 混合组装策略

工具：Verkko和HiFiASM等软件支持同时将HiFi数据和ONT数据作为输入，生成T2T级别的组装。
应用实例：这种策略已成功应用于水稻（日本晴）和大豆（Glycine max）的基因组组装【Shang et al., 2023; Zhang et al., 2023a】。另外，可以通过直接将reads比对到基因组的缺口区域来填补缺口，然后再对缺口区域进行碱基校正。

总结

T2T基因组的组装策略并不是固定的，而是需要根据物种特性、测序数据类型以及不同软件的组装效果来选择合适的策略。
完全没有人工干预的情况下完成T2T组装仍然具有挑战性，因此在处理复杂基因组区域（如端粒和着丝粒区域）时，通常需要进行手动检查。

5.端粒与着丝粒的鉴定

端粒

结构：端粒结构比较保守，通常分为以下几个部分：
1. 串联重复的端粒区域
2. 亚端粒区域
3. 中间的连接部分
鉴定方法：在植物基因组中，通常使用七碱基端粒重复序列（5′端的 CCCTA AAA 或 3′端的 TTTAGGG）与基因组进行比对，以确定端粒区域。

着丝粒

功能：着丝粒在植物细胞分裂过程中保障染色体的正确分离。
结构特征：着丝粒由高度重复的序列和少量基因构成【Nagaki et al., 2004】。
位置预测：
- 方法：可以通过重复序列密度和基因密度进行着丝粒位置的预测。
- 实例：
  - 在西瓜的T2T组装中，通过对连续串联重复序列的注释预测着丝粒位置【Deng et al., 2022】。
  - 在猕猴桃的T2T组装中，结合串联重复序列、基因密度和Hi-C交互信息来确定着丝粒位置【Han et al., 2023】。

应用范围

其他物种：许多物种基于着丝粒区域的序列特征完成了着丝粒位置的预测工作，如香蕉（Musa spp.）、木薯（Manihot esculenta）、葡萄（Vitis vinifera）等【Huang et al., 2023; Shi et al., 2023; Xu et al., 2023】。
新工具：近期发表的Quartet工具中的CentroMiner功能，可以将基因组与重复序列注释文件作为输入，直接输出着丝粒位置的预测结果【Lin et al., 2023】。
精确定位：通过结合CENH3（着丝粒特异性组蛋白变体）与ChIP-seq测序进行比对，可以完成对着丝粒位置的更精确定位。拟南芥、大麦（Hordeum vulgare）等物种使用ChIP-seq等多种技术完成了着丝粒位置的准确预测【Naish et al., 2021; Navrátilová et al., 2022】。

6.基因组质量评估

随着长读长组装技术的发展，基因组的质量和完整性显著提升，因此对T2T基因组的组装结果进行全面评估变得至关重要。基因组质量评估主要包括连续性、完整性和准确性三个方面。以下是常见的评估指标和工具：

1.N50

定义：N50是评估基因组连续性的指标。
计算方法：
1. 对contig的长度从大到小进行排序。
2. 逐步累加长度，直到总长度超过基因组一半。
3. 此时加入的序列长度即为N50长度。
意义：N50值越大，代表基因组组装的连续性越好。

2. BUSCO完整性评估

工具：BUSCO（Benchmarking Universal Single-Copy Orthologs）是一种用于评估基因组完整性的工具【Simão et al., 2015】。
工作原理：
- BUSCO建立了包含多个物种的基准数据库，包括已知的单拷贝基因。
- 这些基因在不同物种中功能相似且相对保守，用于评估基因组完整性。
评估结果：
- 包括单拷贝比对基因、多拷贝比对基因、部分比对基因和丢失基因。
- 比对成功的基因越多，代表基因组的完整性越好。
优势：适用于不同物种，广泛应用于基因组学研究。

3.测序数据的比对率与覆盖深度

比对率：指成功将原始测序数据比对到组装结果的比例，反映了组装结果与原始测序数据的一致性。
覆盖深度：指某一基因组区域内的测序覆盖深度。
评估方法：
- 将原始数据比对回基因组，检查reads的覆盖深度分布。
- 可以判断基因组中是否存在局部的组装错误。

4.基于k-mer的评估

方法：k-mer提供了一种无需参考基因组即可评估组装质量的途径。
工具：Merqury是一种新的评估基因组质量的工具【Rhie et al., 2020】。
工作原理：
- 通过将未组装的高精度测序reads的k-mer集合与基因组组装进行比较，揭示拷贝数错误，计算一致性质量（QV）和k-mer完整性。
- 当有亲本k-mer可用时，还可以检测分型准确性和单倍型完整性。
应用实例：拟南芥Col-XJTU组装的5条染色体QV值均超过60【Wang et al., 2022】；西瓜基因组QV值从35.22提升至76.97，显示出高可靠性和碱基准确性【Deng et al., 2022】。

5.LAI值

定义：LTR组装指数（LTR Assembly Index，LAI）用于评估基因组组装连贯性的一个指数。
计算方法：根据完整LTR-RTs转座子在所有LTR-RTs中的占比评估。
分类标准：
- Draft级别（0≤LAI<10）
- Reference级别（10≤LAI<20）
- Gold级别（20≤LAI）
示例：蔗茅T2T的LAI值为20.87，达到黄金标准，表明重复区域高度完整【Wang et al., 2023b】。

6. SNVs评估碱基准确性

定义：单核苷酸变异（SNVs）用于评估碱基的准确性。
流程：
- 使用bwa软件将二代数据比对到参考基因组，随后使用GATK等工具进行SNP calling和过滤【McKenna et al., 2010】。
- 统计纯合和杂合SNVs的数量。
意义：纯合SNVs可能代表错误碱基，其占整个基因组长度的比例即为碱基的错误率。基因组质量越高，碱基的错误率越小。

7. T2T基因组的意义与应用

1 正确地识别结构变异

定义与重要性: 结构变异（SVs）是指个体基因组序列中长度大于50 bp的差异，涉及倒位、插入、缺失等类型。这些变异对于理解基因组的功能和个体间的遗传差异至关重要。
应用于结构变异识别: T2T基因组技术能更准确地识别复杂的结构变异，尤其是染色体着丝粒和端粒区域的变异。
- 实例研究: Zhang等（2022）比较了四个杂交水稻亲本及已发表的水稻基因组，与日本晴基因组对比，发现了大量的结构变异（包括422,858～526,481个InDels和56,817个非冗余SVs）。
- 更多发现: Song等（2021）研究发现MH63与ZS97在第11号染色体的末端存在大量结构变异，MH63中独特地检测到扩张区域和插入区域，包含更多抗性相关基因。

2 挖掘新的基因

新基因发现: T2T基因组研究为新基因的挖掘提供了可能，尤其是在植物生长发育和抗逆性方面的重要信息。
- 实例研究: 在T2T香蕉基因组中，发现了1,700个新基因，主要是串联重复基因，构成了基因簇，包括萜类合酶基因家族，对植物风味和环境适应性具有关键作用（Belser et al., 2021）。

3 解析着丝粒等复杂基因组区域

研究复杂区域的挑战: 着丝粒等复杂区域的组装一直是植物基因组研究的难点。T2T基因组提供了强大的工具，促进了对这些区域的理解。
- 关键发现: Naish等（2021）通过鉴定拟南芥着丝粒上的CEN180序列，发现不同染色体的序列存在显著差异，并讨论了逆转录转座子ATHILA对CEN180序列多样化的影响。
- 大豆研究: Wang等（2023a）发现大豆13号染色体的着丝粒特异性重复序列GmCent-3，变异较小，可能表明其形成晚于其他染色体。

4 深入研究重复序列

重复序列的重要性: 重复序列在基因组进化中起着重要作用，转座子（TE）影响基因表达和基因组结构。
- LTR-RT的角色: 长末端重复反转录转座子（LTR-RT）是植物基因组中最常见的重复，其增殖可能导致基因组扩张。
- 水稻研究: 在高质量水稻T2T基因组MH63的分析中，发现籼稻基因组具有更多的转座子和片段重复（SD），揭示了TE与SD对水稻基因组进化的协同作用（Lie et al., 2021）。
- 玉米研究: Mo17的T2T基因组鉴定出约88.37%的重复序列，包括75.52%的逆转录转座子和9.78%的DNA转座子（Chen et al., 2023）。此外，Mo17基因组中富含的卫星序列主要由TAG三核苷酸重复组成，形成了超长简单序列富集区。

8. T2T 基因组的挑战

1 高重复序列

重复序列比例高：植物基因组中的重复序列比例显著高于其他生物，如病毒、细菌和动物。例如，黄杨和水青树基因组中重复序列分别占76.4%和78.5%；而蕨类植物基因组中重复序列高达85.2%，其中 LTR-RTs 占67.0%（Chandrabali et al., 2022; Marchant et al., 2022）。
组装难题：富含重复序列的区域通常涉及关键遗传功能区域（如端粒、着丝粒、多拷贝基因等），使得精确组装成为挑战。二代测序在重复序列组装方面通常不够完整。
三代测序的优势：相比于二代测序，三代长读长测序能够越过重复区域，改善组装的连续性和准确性。然而，低准确度的 ONT 测序仍然面临测序错误与微小变异区分的挑战（Kong et al., 2023）。

2 高杂合度

杂合度问题：许多植物基因组由于远缘杂交和自交不亲和性，具有较高的杂合度。组装时常会导致高杂合区域被识别和合并的问题，形成多个独立的 contig，从而增加基因组的大小。
冗余去除：研究人员使用 HaploMerger2 软件从荔枝中分离两套单倍型（Hu et al., 2022）。新的软件如 HiFiasm 也能够直接生成单倍型组装结果，这对高度杂合物种的组装有突破性意义。
单倍型分离与 T2T 组装的挑战：同时实现单倍型分离和 T2T 的组装依然是一项巨大的挑战。

3 高倍性

多倍体的普遍性：多倍体在陆生植物中很常见，包括同源多倍体和异源多倍体。同源多倍体来源于单个物种的全基因组复制，异源多倍体则源自两个或多个不同物种的杂交。
区分亚基因组的难度：对于异源多倍体，区分不同祖先物种的亚基因组相对容易；而同源多倍体因同源染色体之间的高度相似性，导致单倍型之间的同源序列难以准确区分，可能产生多个折叠的 contig，增加了组装的复杂性（Zhuang et al., 2019; Miao et al., 2022）。

4 超大基因组