Attention计算中的各个矩阵的维度都是如何一步步变化的?
在Transformer模型中,各个矩阵的维度变化是一个关键的过程,涉及到输入、编码器、解码器和输出等多个阶段。以下是详细的维度变化过程:
输入阶段
- 输入序列:假设输入序列的长度为
seq_len
,每个单词或标记通过词嵌入(word embedding)转换为一个固定维度的向量,维度为d_model
。因此,输入矩阵的维度为(seq_len, d_model)
。 - 位置编码:位置编码(Positional Encoding)通常与词嵌入向量相加,以提供序列中每个单词的位置信息。位置编码的维度与词嵌入相同,即
(seq_len, d_model)
。
编码器(Encoder)阶段
-
多头注意力机制(Multi-Head Attention):
- 查询(Q)、键(K)、值(V)矩阵:输入矩阵与权重矩阵相乘得到Q、K、V矩阵。假设每个头的维度为
d_k
(通常d_k = d_model / num_heads
),则Q、K、V的维度为(seq_len, d_k)
。 - 注意力计算:Q与K的转置相乘,得到一个注意力得分矩阵,维度为
(seq_len, seq_len)
。经过softmax处理后,再与V相乘,得到输出矩阵,维度为(seq_len, d_k)
。 - 多头拼接:将所有头的输出拼接或平均,得到最终的输出矩阵,维度为
(seq_len, d_model)
。
- 查询(Q)、键(K)、值(V)矩阵:输入矩阵与权重矩阵相乘得到Q、K、V矩阵。假设每个头的维度为
-
前馈神经网络(Feed-Forward Network):
- 输入矩阵经过两个线性变换和非线性激活函数,最终输出的维度保持为
(seq_len, d_model)
。
- 输入矩阵经过两个线性变换和非线性激活函数,最终输出的维度保持为
解码器(Decoder)阶段
-
掩码多头注意力机制(Masked Multi-Head Attention):
- 类似于编码器中的多头注意力机制,但使用了掩码来防止解码器在生成时“偷看”未来的信息。输出矩阵的维度为
(seq_len, d_model)
。
- 类似于编码器中的多头注意力机制,但使用了掩码来防止解码器在生成时“偷看”未来的信息。输出矩阵的维度为
-
编码器-解码器注意力机制:
- 解码器的查询(Q)与编码器的键(K)和值(V)进行注意力计算,输出矩阵的维度为
(seq_len, d_model)
。
- 解码器的查询(Q)与编码器的键(K)和值(V)进行注意力计算,输出矩阵的维度为
输出阶段
- 线性层和Softmax:
- 解码器的输出经过一个线性层,将维度从
(seq_len, d_model)
转换为(seq_len, vocab_size)
,其中vocab_size
是词汇表的大小。 - 最后通过Softmax层,得到每个单词的概率分布,用于预测下一个单词。
- 解码器的输出经过一个线性层,将维度从
这些维度变化确保了Transformer模型能够有效地处理序列数据,并在各个层之间传递和转换信息。