Tiny-universe-taks1-LLama3模型原理
LLama3模型原理-学习打卡
- 大模型相关知识笔记
- transformers
- Self-Attention(自注意力机制)
- Multi-Head-Attention(多头注意力机制)
- LLama梳理
大模型相关知识笔记
transformers
目前市面上主流的大模型算法都给予Transformers架构,如下图所示,整个transformers建构大致可以分为两个部分:编码器(Encoder)和解码器(Decoder)。
编码器(Encoder)组成:
- Self-Attention(自注意力机制):它使每个输入的词能够关注序列中的其他词,通过计算词与词之间的注意力权重,提取全局信息。
- 残差链接(Residual Connection, Add):为了避免信息在深层网络中逐渐丢失,残差链接可以将输入直接传递到后续层,缓解梯度消失问题。
- 标准化(Layer Normalization):用于在每一层中标准化数据分布,帮助网络更快收敛。
- Feed-Forward(前馈神经网络):通过一个两层的全连接网络来进行进一步的特征提取和转换。
解码器(Decoder)组成:
- Self-Attention(自注意力机制):类似编码器中的自注意力机制,但在解码阶段通常会有masking机制,以确保模型不会看到未来的词(预测时只关注已生成的词)。
- Encoder-Decoder Attention(编码器-解码器注意力):解码器还会通过一个交互的注意力层,将编码器中的输出信息与解码器的中间层信息结合,用于生成更合适的输出。
- Feed-Forward(前馈神经网络):和编码器一样,通过全连接层进一步处理数据。
这部分其实大模型还可以根据transformer的具体情况分为三类:
自编码模型:只含有编码器模型,代表:Bert
自回归模型:只含有解码器,代表:Gpt
序列到序列(编码器-解码器模型 ):即含有编码器又含有解码器模型,代表:T5、Glm
Self-Attention(自注意力机制)
自注意力机制其实可以把他看作为算权重,然后平均回原始数据,这个其实在图像里面更容易理解,就是让模型更关注某些更重要的位置。如下图,根据原始的输入计算三个矩阵分别是Q、K、V,让不同通道间的Q、K计算内积,得到的结构在进行softmax得到一个注意力得分,在乘上V,就得到了注意力加权后的模型。
Multi-Head-Attention(多头注意力机制)
可以把 Multi-Head-Attention看作为多个Self-Attention
- 多个不同的Self-Attention分别计算不同的Wq、Wk、Wv
- 每个头都计算权重;多个头同时进行
- 把每个头拼接到一起
- 通过一个先行层,(输出线性变化)映射成原始维度
LLama梳理
这部分我这两天会尽快完成,最近加班实在没什么时间