Trim_Galore_User_Guide
使用 Trim Galore! 对 RRBS 类型或其他 -Seq 应用进行适当的 QC 措施
目录
- 介绍
- 方法
- 质量修剪
- 适配器修剪
- 自动检测
- 手动适配器序列指定
- 删除短序列
- 专业修剪 - 硬修剪和表观遗传时钟修剪
- Trim Galore! 的完整选项列表
- RRBS 特定选项
- 双端特定选项
版本 0.6.4
对于所有高通量测序应用,我们建议对数据进行一些质量控制,因为它通常可以直接指出需要采取的下一步骤(例如使用 FastQC)。彻底的质量控制和采取适当的步骤来解决问题对于几乎所有测序应用的分析都至关重要。对于 RRBS 文库的正确分析,这一点尤为关键,因为它们容易受到各种错误或偏差的影响,而这些错误或偏差在其他测序应用中可能不会造成问题。在我们的 RRBS 简要指南 中,我们讨论了以下几点:
- 低质量 – 影响映射,可能导致错误的甲基化调用和/或错误映射
- 适配器污染 – 可能导致低映射效率,或者如果映射,可能导致错误的甲基化调用和/或错误映射
- 在末端修复过程中填充的位置将推断用于填充反应的胞嘧啶的甲基化状态,而不是真实基因组胞嘧啶的甲基化状态
- 双端 RRBS 文库(特别是长读长)如果读取对重叠,会产生冗余的甲基化信息
- 长读长的 RRBS 文库由于选择的片段尺寸较短,更容易受到上述所有问题的影响
然而,低碱基调用质量或适配器污染对于“正常”的非 RRBS 文库也同样相关。
使用 Trim Galore 进行自适应质量和适配器修剪
我们尝试实现一种方法,以一次性方便地消除 RRBS 文库(或其他类型的测序数据集)中的潜在问题。为此,我们开发了一个包装脚本(trim_galore),它利用了公开可用的适配器修剪工具 Cutadapt 和 FastQC,以便在修剪过程完成后进行可选的质量控制。
尽管 Trim Galore 适用于任何(碱基空间)高通量数据集(例如从 SRA 下载的数据),但本节主要描述其在 RRBS 文库中的使用。
步骤 1:质量修剪
在第一步中,低质量的碱基调用从读取的 3’ 端修剪掉,然后再进行适配器去除。这有效地去除了读取的低质量部分。
[外链图片转存中…(img-8YdllxmJ-1734953639834)] | [外链图片转存中…(img-hRDPJHSP-1734953639835)] |
---|---|
质量修剪前 | 质量修剪后 |
[外链图片转存中…(img-7OY7SbJR-1734953639835)] | [外链图片转存中…(img-ry52ksSU-1734953639835)] |
这是一个从 SRA 下载的数据集的示例,该数据集使用 Phred 分数阈值 20 进行修剪(数据集 DRR001650_1 来自 Kobayashi 等人,2012 年)。
步骤 2:适配器修剪
在下一步中,Cutadapt 查找并从读取的 3’ 端去除适配器序列。
适配器自动检测
如果没有提供序列,Trim Galore 将尝试自动检测使用的适配器。为此,它将分析第一个指定文件的前 100 万条序列,并尝试找到以下标准适配器的前 12 或 13bp:
Illumina: AGATCGGAAGAGC
Small RNA: TGGAATTCTCGG
Nextera: CTGTCTCTTATA
如果在第一个 100 万条序列中未检测到适配器污染,或者在几种不同的适配器之间存在平局,Trim Galore 将默认使用 --illumina
,只要 Illumina 适配器序列是选项之一。如果 Nextera 和小 RNA 适配器之间存在平局,默认值为 --nextera
。自动检测结果将显示在屏幕上,并打印到修剪报告中以供将来参考。
手动适配器序列指定
可以通过手动指定适配器序列或使用 --illumina
、--nextera
或 --small_rna
来覆盖自动检测行为。请注意:标准 Illumina 双端适配器的前 13bp(AGATCGGAAGAGC
)识别并去除大多数标准文库中的适配器,包括 Illumina TruSeq 和 Sanger iTag 适配器。此序列存在于双端序列的两侧,并且在所有适配器中,在唯一索引序列出现之前都存在。因此,对于任何“正常”的测序,您不需要指定任何内容,只需使用 --illumina