当前位置: 首页 > article >正文

Trim_Galore_User_Guide

使用 Trim Galore! 对 RRBS 类型或其他 -Seq 应用进行适当的 QC 措施

目录
  • 介绍
  • 方法
    1. 质量修剪
    2. 适配器修剪
    • 自动检测
    • 手动适配器序列指定
    1. 删除短序列
    2. 专业修剪 - 硬修剪和表观遗传时钟修剪
  • Trim Galore! 的完整选项列表
    • RRBS 特定选项
    • 双端特定选项

版本 0.6.4

对于所有高通量测序应用,我们建议对数据进行一些质量控制,因为它通常可以直接指出需要采取的下一步骤(例如使用 FastQC)。彻底的质量控制和采取适当的步骤来解决问题对于几乎所有测序应用的分析都至关重要。对于 RRBS 文库的正确分析,这一点尤为关键,因为它们容易受到各种错误或偏差的影响,而这些错误或偏差在其他测序应用中可能不会造成问题。在我们的 RRBS 简要指南 中,我们讨论了以下几点:

  • 低质量 – 影响映射,可能导致错误的甲基化调用和/或错误映射
  • 适配器污染 – 可能导致低映射效率,或者如果映射,可能导致错误的甲基化调用和/或错误映射
  • 在末端修复过程中填充的位置将推断用于填充反应的胞嘧啶的甲基化状态,而不是真实基因组胞嘧啶的甲基化状态
  • 双端 RRBS 文库(特别是长读长)如果读取对重叠,会产生冗余的甲基化信息
  • 长读长的 RRBS 文库由于选择的片段尺寸较短,更容易受到上述所有问题的影响

然而,低碱基调用质量或适配器污染对于“正常”的非 RRBS 文库也同样相关。

使用 Trim Galore 进行自适应质量和适配器修剪

我们尝试实现一种方法,以一次性方便地消除 RRBS 文库(或其他类型的测序数据集)中的潜在问题。为此,我们开发了一个包装脚本(trim_galore),它利用了公开可用的适配器修剪工具 Cutadapt 和 FastQC,以便在修剪过程完成后进行可选的质量控制。

尽管 Trim Galore 适用于任何(碱基空间)高通量数据集(例如从 SRA 下载的数据),但本节主要描述其在 RRBS 文库中的使用。

步骤 1:质量修剪

在第一步中,低质量的碱基调用从读取的 3’ 端修剪掉,然后再进行适配器去除。这有效地去除了读取的低质量部分。

[外链图片转存中…(img-8YdllxmJ-1734953639834)] [外链图片转存中…(img-hRDPJHSP-1734953639835)]
质量修剪前 质量修剪后
[外链图片转存中…(img-7OY7SbJR-1734953639835)] [外链图片转存中…(img-ry52ksSU-1734953639835)]

这是一个从 SRA 下载的数据集的示例,该数据集使用 Phred 分数阈值 20 进行修剪(数据集 DRR001650_1 来自 Kobayashi 等人,2012 年)。

步骤 2:适配器修剪

在下一步中,Cutadapt 查找并从读取的 3’ 端去除适配器序列。

适配器自动检测

如果没有提供序列,Trim Galore 将尝试自动检测使用的适配器。为此,它将分析第一个指定文件的前 100 万条序列,并尝试找到以下标准适配器的前 12 或 13bp:

Illumina:   AGATCGGAAGAGC
Small RNA:  TGGAATTCTCGG
Nextera:    CTGTCTCTTATA

如果在第一个 100 万条序列中未检测到适配器污染,或者在几种不同的适配器之间存在平局,Trim Galore 将默认使用 --illumina,只要 Illumina 适配器序列是选项之一。如果 Nextera 和小 RNA 适配器之间存在平局,默认值为 --nextera。自动检测结果将显示在屏幕上,并打印到修剪报告中以供将来参考。

手动适配器序列指定

可以通过手动指定适配器序列或使用 --illumina--nextera--small_rna 来覆盖自动检测行为。请注意:标准 Illumina 双端适配器的前 13bp(AGATCGGAAGAGC)识别并去除大多数标准文库中的适配器,包括 Illumina TruSeq 和 Sanger iTag 适配器。此序列存在于双端序列的两侧,并且在所有适配器中,在唯一索引序列出现之前都存在。因此,对于任何“正常”的测序,您不需要指定任何内容,只需使用 --illumina


http://www.kler.cn/a/449404.html

相关文章:

  • 畅捷通T+13管理员密码任意重置漏洞
  • 模型优化之知识蒸馏
  • 【Qt】对象树(生命周期管理)和字符集(cout打印乱码问题)
  • java后端传时间戳给前端的三种方式
  • Android Studio新建项目在源码中编译
  • KingbaseES(金仓数据库)入门学习
  • 【AI日记】24.12.23 kaggle 比赛 2-11
  • Slate文档编辑器-TS类型扩展与节点类型检查
  • 详细解读sedex验厂
  • 【微信小程序】1|底部图标 | 我的咖啡店-综合实训
  • 搭建Elastic search群集
  • 利用Matlab绘制心性函数
  • ChatGPT生成接口文档实践案例(二)
  • ubuntu开机进入initramfs状态
  • Java基础面试题20:Java语言sendRedirect()和forward()方法有什么区别?
  • linux普通用户使用sudo不需要输密码
  • [创业之路-206]:《华为战略管理法-DSTE实战体系》- 6-关键成功因素法CSF
  • FreeMarker语法
  • 【潜意识Java】深度解析黑马项目《苍穹外卖》与蓝桥杯算法的结合问题
  • Linux下载时出现的错误(配置阿里云镜像解决)
  • Vue之版本演进
  • HashMap源码深度解析
  • 10_HTML5 MathML --[HTML5 API 学习之旅]
  • 事务、管道
  • CDGA|数据治理如何为企业数字化转型提供有力支撑?
  • 回顾 python3中字符串