BWA-mem Smith-Waterman 算法
Smith-Waterman 算法简介
Smith-Waterman 算法 是一种用于局部序列比对的动态规划算法,它可以在两个序列中找到最优的局部比对,允许处理序列中的插入、缺失(indels) 和 错配。该算法最早由 Temple F. Smith 和 Michael S. Waterman 于 1981 年提出,因此得名 Smith-Waterman。
核心思想
Smith-Waterman 算法通过构建一个得分矩阵,从两个序列中找到得分最高的局部比对,即找到序列中最相似的子序列,哪怕这些序列之间存在错配或 indels(插入和缺失)。
应用场景
该算法通常用于:
- 局部比对:寻找两个序列中最相似的片段。
- 比对短序列和长参考序列:如在基因组比对中,BWA-MEM 就使用 Smith-Waterman 算法扩展比对。
- 序列相似性分析:用来识别基因或蛋白质序列中的相似区域。
与全局比对(如 Needleman-Wunsch 算法)的区别
- 局部比对:Smith-Waterman 专注于找到两个序列中最相似的一部分,而不是从头到尾的全局比对。这特别有用,当你关心的是局部的相似性,而不是整个序列的相似性。
- 允许 indels 和错配:在比对过程中,Smith-Waterman 允许插入、缺失和错配,但会根据这些事件给出相应的惩罚分数。
算法步骤
- 初始化得分矩阵:构建一个二维得分矩阵,序列 A 作为行,序列 B 作为列。矩阵的每个元素表示当前子序列的比对得分。
- 填充得分矩阵:根据相似性(匹配得分)和惩罚(错配或 indels)来填充得分矩阵。计算方式如下:
- 匹配:如果两个字符匹配,增加匹配得分。
- 错配:如果两个字符不匹配,扣除错配罚分。
- 插入或缺失:如果在一个序列中存在插入或缺失,扣除 indel 罚分。
- 寻找最大得分:找到得分矩阵中的最大值,这表示局部比对的最优解。
- 回溯路径:从最大值开始,沿着得分矩阵回溯,找到局部比对的路径(即序列片段)。
示例:
假设有两个序列:
- 序列 A:
GACTTAC
- 序列 B:
CGTGAATTCAT
构建一个得分矩阵,按照上述步骤进行比对。Smith-Waterman 算法将会找到最相似的局部子序列,并返回局部比对结果。
优点:
- 局部比对:能够准确找到最相似的片段,即使序列中有较长的不匹配部分。
- 灵活处理 indels:适合处理带有插入和缺失的序列。
缺点:
- 时间复杂度较高:Smith-Waterman 的时间复杂度为 O(m*n),其中 m 和 n 分别是两个序列的长度,因此对长序列的比对效率较低。
总结
Smith-Waterman 算法是一种强大的局部序列比对工具,它通过动态规划方法找到最优的局部比对区域,允许插入、缺失和错配。这使得它在基因比对、蛋白质序列分析等领域非常有用。
让我们通过这个矩阵来演示 Smith-Waterman 算法的整个比对过程。我们会逐步填写这个矩阵,并通过这个例子理解算法的流程。
输入序列
序列 A:GACTTAC
序列 B:CGTGAATTCAT
我们将通过填充比对网格,找到它们之间的最优局部比对。
步骤 1:初始化矩阵
首先,我们创建一个大小为 8 x 12 的矩阵(包括初始行和列,行列代表序列的字符)。矩阵的每个格子将存储两个字符之间的得分。
在 Smith-Waterman 算法中,矩阵的第一行和第一列初始化为 0。这是因为比对可以从任何位置开始,不必从头比到尾。
整个 Smith-Waterman 算法的比对过程。接下来,我们将继续基于序列 A (GACTTAC
) 和 B (CGTGAATTCAT
) 填充矩阵,找出最优的局部比对。
1. 初始化矩阵
首先,初始化矩阵第一行和第一列为 0:
C G T G A A T T C A T
+------------------------------------------
G 0 0 0 0 0 0 0 0 0 0 0
A 0
C 0
T 0
T 0
A 0
C 0
2. 定义打分规则
- 匹配得分:+1
- 错配罚分:-1
- 插入/缺失(indel)罚分:-1
3. 填充矩阵
我们继续按照之前的示例填充剩下的部分。
第 1 行(序列 G 与 C, G, T, G, A, A, T, T, C, A, T)
- (G, C):错配,得分 0。
- (G, G):匹配,得分 1。
- (G, T):错配,得分 0。
- (G, G):匹配,得分 1。
- (G, A):错配,得分 0。
- (G, A):错配,得分 0。
- (G, T):错配,得分 0。
- (G, T):错配,得分 0。
- (G, C):错配,得分 0。
- (G, A):错配,得分 0。
- (G, T):错配,得分 0。
因此,第 1 行填充如下:
C G T G A A T T C A T
+------------------------------------------
G 0 0 1 0 1 0 0 0 0 0 0
A 0
C 0
T 0
T 0
A 0
C 0
第 2 行(序列 A 与 C, G, T, G, A, A, T, T, C, A, T)
- (A, C):错配,得分 0。
- (A, G):错配,得分 0。
- (A, T):错配,得分 0。
- (A, G):错配,得分 0。
- (A, A):匹配,得分 1。
- (A, A):匹配,得分 1。
- (A, T):错配,得分 0。
- (A, T):错配,得分 0。
- (A, C):错配,得分 0。
- (A, A):匹配,得分 1。
- (A, T):错配,得分 0。
因此,第 2 行填充如下:
C G T G A A T T C A T
+------------------------------------------
G 0 0 1 0 1 0 0 0 0 0 0
A 0 0 0 0 0 1 1 0 0 0 1
C 0
T 0
T 0
A 0
C 0
第 3 行(序列 C 与 C, G, T, G, A, A, T, T, C, A, T)
- (C, C):匹配,得分 1。
- (C, G):错配,得分 0。
- (C, T):错配,得分 0。
- (C, G):错配,得分 0。
- (C, A):错配,得分 0。
- (C, A):错配,得分 0。
- (C, T):错配,得分 0。
- (C, T):错配,得分 0。
- (C, C):匹配,得分 1。
- (C, A):错配,得分 0。
- (C, T):错配,得分 0。
因此,第 3 行填充如下:
C G T G A A T T C A T
+------------------------------------------
G 0 0 1 0 1 0 0 0 0 0 0
A 0 0 0 0 0 1 1 0 0 0 1
C 0 1 0 0 0 0 0 0 1 0 0
T 0
T 0
A 0
C 0
继续填充剩余行
通过类似的步骤,我们可以逐步完成整个矩阵的填充。
4. 回溯路径
通过矩阵得分最高的区域,我们可以回溯找到局部最优的比对区域。
这就是 Smith-Waterman 算法的完整流程。你对这个过程有疑问或需要进一步的详细说明吗?