LLM的原理理解1-5:1、词向量2、词的意义取决于上下文3、将词向量转化为词预测4、注意力机制
目录
LLM的原理理解1-5
1、词向量
2、词的意义取决于上下文
3、将词向量转化为词预测
4、注意力机制
Q查询向量:描述它寻找的词的特征。
K关键向量:描述它自己的特征。
多注意头:一词多义的含义
5、一个真实世界的例子
移动头(Name Mover Head)
主语抑制头
LLM的原理理解1-5
1、词向量
要了解语言模型的工作原理,首先需要了解它们如何表示单词。人类用字母序列来表示英文单词,比如C-A-T表示猫。语言模型使用的是一个叫做词向量的长串数字列表。例如,这是一种将猫表示为向量的方式:
[0.0074, 0.0030, -0.0105, 0.0742, 0.0765, -0.0011, 0.0265, 0.0106, 0.0191, 0.0038, -0.0468, -0.0212, 0.0091, 0.0030, -0.0563, -0.0396, -0.0998, -0.0796, …, 0.0002]
(注:完整的有300个数字)