当前位置：首页 > article >正文

【王树森】Transformer模型(1/2): 剥离RNN，保留Attention（个人向笔记）

article 2025/2/21 3:10:27

Transformer简介

这节课讲的attention相对比于前两节课多了一个 $v_i$ ，之前是用权重直接乘 $h$ ，而在这里是乘以 $v$ 。最后得到向量 $c$
在这里插入图片描述

Seq2Seq模型有一个encoder和一个decoder
encoder接受 $m$ 个词向量的输入
decoder接受 $t$ 个词向量的输入，来生成下一个单词
对于encoder的输入向量，我们用两个个矩阵 $W_K$ 和 $W_V$ 将其变换为上面的 $k$ 向量和 $v$ 向量：
对于decoder的输入向量，我们用一个矩阵 $W_Q$ 将其变换为上面的 $q$ 向量
$K$ 为 $m$ 个 $k$ 向量叠在一起的矩阵，用 $q$ 和 $K$ 算出相关性，其中 $\alpha$ 是 $m$ 维的向量，元素及总和为1，代表着 $m$ 个 $k$ 向量和 $q$ 的相关性
利用得到的相关性和 $v$ 计算 context vector $c$ ，其中这一系列运算可以简化为 $V\alpha$
对所有的 $q$ 用类似的方法计算出所有 context vector $c$ ，这样attenion层的输出就是一个 $C$ 矩阵
对于一个 $c_i$ 来说，它依赖于decoder的当前输入 $x'_i$ ，还有所有encoder的输入 $x_1,x_2...,x_m$
以英译德为例：利用decoder的 $x'_2$ 和所有encoder的输入 $x_1,x_2...,x_m$ ，我们可以生成 $c_2$ ，然后把 $c_2$ 丢进一个softmax里面产生概率来预测下一个德语单词。 $c_2$ 是知道整句英语的，所以可以很好的避免遗忘问题
总结Attenion层：接受encoder的输入 $X=[x_1,x_2,...,x_m]$ 和decoder的输入 $X'=[x'_1,x'_2,...,x'_t]$ ，输出一个context vector矩阵 $C=[c_1,c_2,...,c_t]$ ，其中参数有三个矩阵： $W_K,W_Q,W_V$ ，它们需要从数据中学习