当前位置：首页 > article >正文

Google BERT入门（3）Transformer的自注意力机制的理解（上）

article 2025/2/28 19:42:26

文章目录

4.自注意力机制的理解
- 步骤 1
- 步骤 2
- 步骤 3

4.自注意力机制的理解

我们学习了如何计算查询矩阵Q、键矩阵K和值矩阵V，并且我们还了解到它们是从输入矩阵X中获得的。现在，让我们看看查询、键和值矩阵在自注意力机制中是如何被使用的。

我们了解到，为了计算一个单词的表示，自注意力机制将该单词与给定句子中的所有单词联系起来。考虑句子“I love learning”。为了计算单词“I”的表示（representation），我们将单词“I”与句子中的所有单词联系起来，如下所示：

在这里插入图片描述

图1.8 - 自注意力示例

但我们为什么要这样做呢？理解一个单词如何与句子中的所有单词相关联有助于我们学习更好的表示（representation）。现在，让我们学习自注意力机制如何使用查询、键和值矩阵将一个单词与句子中的所有单词联系起来。自注意力机制包括四个步骤；接下来我们来考察每个步骤。

步骤 1

自注意力机制的第一步是计算查询矩阵Q和键矩阵K^T的点积：

在这里插入图片描述

图1.9 - 查询和键矩阵

以下展示了查询矩阵Q和键矩阵K^T的点积结果：

在这里插入图片描述

图1.10 - 计算查询矩阵和键矩阵的点积

但是，计算查询矩阵和键矩阵之间的点积有什么用？究竟是什么意思？让我们通过详细查看Q﹒K^T的结果来理解这一点。

让我们看看Q﹒K^T矩阵的第一行，如下所示。我们可以观察到，我们正在计算查询向量q1（I）和所有键向量——k1（I）、k2（love）和k3（learning）之间的点积。两个向量的点积的意义是它们的相似性。

因此，计算查询向量（q1）和键向量（k1、k2和k3）之间的点积可以告诉我们查询向量q1（I）与所有键向量——k1（I）、k2（love）和k3（learning）有多么相似。通过查看Q﹒K^T矩阵的第一行，我们可以理解单词“I”与单词“love”和“learning”相比，与自己更为相关，因为q1.k1比q1.k2和q1.k3的点积值更高：

在这里插入图片描述

图1.11 - 计算查询向量（q 1）和键向量（k 1 、k 2 和 k 3）之间的点积

请注意，本章中使用的值是任意的，只是为了让我们更好地理解。

现在，让我们看看矩阵Q﹒K^T的第二行。如下图所示，我们可以观察到我们正在计算查询向量q2（love）和所有键向量——k1（I）、k2（love）和k3（learning）之间的点积。这告诉我们查询向量q2（love）与键向量——k1（I）、k2（love）和k3（learning）有多么相似。

通过查看矩阵的第二行，我们可以理解单词“love”与单词“I”和“learning”相比，与自己更为相关，因为q2.k2比q2.k1和q2.k3的点积值更高：

在这里插入图片描述

图1.12 - 计算查询向量（q 2）和键向量（k 1 、k 2 和 k 3）之间的点积

同样，让我们看看矩阵Q﹒K^T的第三行。如下图所示，我们可以观察到我们正在计算查询向量q3（learning）和所有键向量——k1（I）、k2（love）和k3（learning）之间的点积。这告诉我们查询向量（learning）与所有键向量——k1（I）、k2（love）和k3（learning）有多么相似。

通过查看矩阵的第三行，我们可以理解单词“learning”在句子中与单词“I”和“love”相比，与自己更为相关，因为q3.k3比q3.k1和q3.k2的点积值更高：

在这里插入图片描述