当前位置：首页 > article >正文

Tiny-universe-taks1-LLama3模型原理

article 2025/2/21 3:31:39

LLama3模型原理-学习打卡

大模型相关知识笔记
- transformers
- Self-Attention(自注意力机制)
- Multi-Head-Attention（多头注意力机制）
LLama梳理

大模型相关知识笔记

transformers

目前市面上主流的大模型算法都给予Transformers架构，如下图所示，整个transformers建构大致可以分为两个部分：编码器（Encoder）和解码器（Decoder）。
编码器（Encoder）组成：

Self-Attention（自注意力机制）：它使每个输入的词能够关注序列中的其他词，通过计算词与词之间的注意力权重，提取全局信息。
残差链接（Residual Connection, Add）：为了避免信息在深层网络中逐渐丢失，残差链接可以将输入直接传递到后续层，缓解梯度消失问题。
标准化（Layer Normalization）：用于在每一层中标准化数据分布，帮助网络更快收敛。
Feed-Forward（前馈神经网络）：通过一个两层的全连接网络来进行进一步的特征提取和转换。

解码器（Decoder）组成：

Self-Attention（自注意力机制）：类似编码器中的自注意力机制，但在解码阶段通常会有masking机制，以确保模型不会看到未来的词（预测时只关注已生成的词）。
Encoder-Decoder Attention（编码器-解码器注意力）：解码器还会通过一个交互的注意力层，将编码器中的输出信息与解码器的中间层信息结合，用于生成更合适的输出。
Feed-Forward（前馈神经网络）：和编码器一样，通过全连接层进一步处理数据。

在这里插入图片描述
这部分其实大模型还可以根据transformer的具体情况分为三类：
自编码模型：只含有编码器模型，代表：Bert
自回归模型：只含有解码器，代表：Gpt
序列到序列（编码器-解码器模型）：即含有编码器又含有解码器模型，代表：T5、Glm

Self-Attention(自注意力机制)

自注意力机制其实可以把他看作为算权重，然后平均回原始数据，这个其实在图像里面更容易理解，就是让模型更关注某些更重要的位置。如下图，根据原始的输入计算三个矩阵分别是Q、K、V，让不同通道间的Q、K计算内积，得到的结构在进行softmax得到一个注意力得分，在乘上V，就得到了注意力加权后的模型。
在这里插入图片描述