Transformer 架构简单理解;GPT-3.5 的架构,向量长度为 :12288;Transformer架构改进:BERT和GPT
目录
Transformer 架构简单理解
GPT-3.5 的架构,向量长度为 :12288
Transformer工作原理:在多头注意力机制(Multi - Head Attention)的标准操作中,每个头(head)的输入数据是相同的
Transformer架构改进:BERT
BERT:BERT是一种基于Transformer的预训练语言模型,它的最大创新之处在于引入了双向Transformer编码器,这使得模型可以同时考虑输入序列的前后上下文信息。
GPT
-
Transformer 架构简单理解
- Transformer 是一种基于自注意力机制(Self - Attention)的深度学习架构,主要用于处理序列数据,如自然语言文本。它摒弃了传统的循环神经网络(RNN)的顺序处理方式,能够并行计算序列中的元素,有效提高处理效率,并且在长序列数据处理上表现出色,能够很好地捕捉序列元素之间的语义关系。
- 查询向量(Query)、键向量(Key)和值向量(Value)的作用
- 查询向量(Query):可以理解为是当前位置元素发出的 “询问信号”,用于寻找序列中与之相关的其他元素。例如,在一个句子中,一个单词通过查询向量来寻找句子里和它语义相关的其他单词。
- 键向量(Key):相当于其他元素的 “标签” 或