当前位置: 首页 > article >正文

Transformer学习笔记(一)

Transformer学习笔记

基于 3B1B 可视化视频

自注意力机制

1.每个词的初始嵌入是一个高维向量,只编码该单词含义,与上下文没有关联

2.对初始向量进行位置编码,在高维向量中编码进位置信息(单词在语言序列中的位置信息),称此时的向量为E(GPT3中为12288维)

3.每个向量E,配有一个查询向量Q,用于向自身前面的向量序列查询信息(比如一个名词的查询向量中可能就蕴含着下面的问题:我的前面有没有对我的形容词?),每个向量的查询向量通过查询矩阵Wq生成: E·Wq -> Q. 因此,Wq的横向维度会与词向量的维度相match,纵向维度未要求(GPT-3中是128维)。所以E·Wq -> Q这个过程相当于把一个较高维的词向量映射到了一个低维空间。Wq矩阵在一个模型中是固定的,其中的参数是通过训练得到的。

4.每个向量E,同时配有一个键向量,用于回应查询向量的提问(比如后方有个词向量的查询向量问到:我的前方有没有形容我的形容词?键向量就用于回应这个查询向量),每个词向量的键向量通过键矩阵Wk生成:E·Wk -> K. 因此这个过程也是会把原本较高维度的词向量映射到一个低维空间(GPT-3中是128维)中。具体回应过程可以看成是在对比Q和K的匹配程度,匹配程度越高,说明该向量E与发出查询向量Q的E的关联性也就越大。这里用点积来衡量两个向量的匹配程度,点积结果越大,二者间的匹配程度越高,于是我们说,这个词E“注意到了”后面的词的嵌入。

在这里插入图片描述

5.如上图,在求出上述匹配度矩阵后,以匹配度作为权重,对每一列进行加权求和。因此我们想要把权重调整为在0-1之间的值并且其权重总和为1。因此,对每列权重数据做一次softmax()

在这里插入图片描述

将得到的矩阵称为Attention Pattern。

在一些模型中,我们往往会看到Cross-Attention,在Cross-Attention中,Wq和Wk会作用在不同的数据集上,如下图:

回到Self-Attention上,可以看见Transformer的原始论文中对Attention Pattern的表现形式:

在这里插入图片描述


从以上可以看出,每个词向量既接收来自身后的询问Q也接收来自词向量之前的询问Q。这样的做法会产生以下的效果:

训练时输入,“a fluffy blue creature roamed the verdant forest”,最终经过上述一系列计算根据forest的向量值输出下一个预测词,再根据输出与原本结果对模型参数进行调整,这样的过程固然可以,但效率太低。这一长串的文本只能对模型进行一次训练。由此我们提出一个方法:每输入一个词便进行一次预测训练。即达到以下效果:

a -预测下一个词                     
a fluffy -预测下一个词
a fluffy blue -预测下一个词
a fluffy blue creature -预测下一个词
a fluffy blue creature roamed -预测下一个词
a fluffy blue creature roamed the -预测下一个词
a fluffy blue creature roamed the verdant forest -预测下一个词

为了能使运算同步进行,每个词向量只对自己身后的词向量的查询进行匹配度回应,而不对自己之前的词向量发出的查询进行回应。或者说,每个向量只对自己之前的词向量发出查询请求,而不对自己身后的词向量发出查询请求(体现了自回归特性)。不然的话,比如此时训练序列为a fluffy blue creature roamed the此时forest收到了来自其前面词向量的查询并进行了回应,那就相当于透露了答案信息。

所以,在此,我们希望在Attention Pattern矩阵中主对角线的下半部分的值都为0。为了实现这一效果,在softmax之前将主对角线以下的值全部设为负无穷。这个步骤被称为Masking。(并不是所有的注意力机制都会运用此方法)

Masking这一步骤不仅在GPT的训练中用到,在使用GPT作为工具的时候也同样在运用。

从这也可以发现,随着文本输入越来越长,其Attention Pattern呈现平方指数级增长,因此这也成为了大语言模型的一个瓶颈,为解决这一瓶颈,有很多新的研究在进行中。


得到Attention Pattern过后,接下来介绍值向量V。每个词向量E配有一个值向量V,用于衡量自身的动量(例如:red hat,对于hat来说在高维空间指向的是初始embeding的位置,而加上red的值向量后,hat在高维空间中将指向红色帽子的位置)。每个词向量的值向量V通过值矩阵生成:Wv·E -> V。由于V最终要作为动量与词向量相加,所以V的维度要与词向量的维度一致,也因此Wv的纵向维度要与E一致(12288*12288)。Wv在模型中是固定的,其参数通过训练得到。在得到每个向量的值向量后,根据Attention Pattern中的响应程度,对每个词向量更新:
E j = E j + ∑ i = 1 j V i ∗ a t t e n t i o n S c o r e Ej=Ej+\sum_{i=1}^j Vi*attentionScore Ej=Ej+i=1jViattentionScore
以上为Single-Head Attention的工作流程。

对于Multi-Head Attention,即模型中有多个Wq、Wk、Wv矩阵,即每个词向量有多个查询向量V、键向量K,值向量V。可以将一幅Wq、Wk、Wv理解为一个Head(GPT3中有96个头),最终词向量的改变量为每个Head中的改变量相加。

在Transformer相关论文中Value矩阵通常会被转换为Wv↑和Wv↓两个矩阵相乘,此时Value矩阵特指Wv↓,这样做的目的是为了实现并行计算,但原理是相同的。


MLP多层感知器

我们对LLM输入Michael Jordan plays,大语言模型会输出basketball。对于一个不认识Michael Jordan的人来说,他能理解这句话的每个单词的含义,但是无法确定plays应该输出什么。所以,这个LLM一定存储了一个记忆,这个记忆就是Michael Jordan是打篮球的,这也是一个事实。LLM是如何记住这一事实的,即是我们要讨论的问题。

回想下手写数字识别的Neural Network,它的网络中也存储了一些记忆,能够识别输入图像的图形特征。带着这个思维,将能更好的理解Transformer中记忆的存储过程和结构。

在经过Self-Attention后,我们得到更新后的词向量序列。相较于初始的单词Embeding,此时的词向量序列embeded了更多的context信息。

MLP的结构如下图:

在这里插入图片描述

经过MLP时,各个词向量间不再相互影响,每个词向量并行的经过相同的运算。因此,关注一个词向量的运算过程就可以知道所有词的运算过程。

1.第一层映射

由于MLP的第一个矩阵会把词向量映射到更高的维度,所以称此矩阵为W↑。可以看成将矩阵W↑的行向量与词向量做点积,还记得Self-Attention中查询向量Q和键向量V吗?查询向量Q和键向量V做点积,从而计算出二者间的响应度(匹配度),这里也可以这样理解。可以把W↑的行向量看做一个个询问向量,向词向量询问各种问题,由此得出一个响应匹配度。在GPT3中W↑的纵向维度为4*12288。

之后加上一个Bias(用于增加参数调节的灵活度)。于是上述过程可用公式表示为:

接下来将蕴含响应度的向量通过一个激活函数,这里采用的是ReLU函数(很多模型会使用一个稍作修改的函数GELU)。

在经过激活函数后,我们得到类似于AttentionScore的向量,在Self-Attention中将值矩阵Wv乘以AttentionScore作为词向量的改变量。这里将该向量乘以W↓获得该词向量的补充信息(也要加上一个Bias向量),可以发现只有在第一轮映射中值大于0的地方(通过ReLU后被激活,这里没有考虑Bias对第一轮映射结果的改变),才会在第二轮映射中添加响应位置的向量。过程如下:

最后将获得的补充信息添加到词向量中得到一层MLP的完整运算过程:


http://www.kler.cn/a/398534.html

相关文章:

  • git push时报错! [rejected] master -> master (fetch first)error: ...
  • python 多进程,程序运行越来越慢踩坑
  • 遇到 mysql_config not found 错误
  • 023、ELK 从入门到实践
  • c# 调用c++ 的dll 出现找不到函数入口点
  • React Native 全栈开发实战班 - 网络与数据之网络请求基础
  • 机器学习基础03
  • Android 关于使用videocompressor库压缩没有声音和异常的问题
  • 专题二十_动态规划_简单多状态dp问题_买卖股票系列问题_算法专题详细总结
  • 「Qt Widget中文示例指南」如何创建一个窗口标志?(二)
  • Android Framework层介绍
  • 半导体器件与物理篇3 P-N结
  • Redis的Zset在排行榜中应用
  • 【数据结构】树——顺序存储二叉树
  • 面试题1111
  • 使用Kafka实现大规模数据流处理的最佳实践
  • 用哈希表封装myunordered_map/_set--C++
  • LeetCode100之回文链表(234)--Java
  • 药方新解:Spring Boot中药实验管理系统设计
  • 比较TCP/IP和OSI/RM的区别
  • Maven常用打包方式
  • 对接钉钉审批详情
  • FMEA 在新兴技术领域(如量子计算、人工智能芯片等)的应用挑战与机遇
  • linux内核中如何向slab内存分配器申请内存
  • 操作系统启动实验
  • 引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力