<论文>聊聊初代LLaMA
一、摘要
本文介绍来自Meta的论文《LLaMA: Open and Efficient Foundation Language Models》,这篇2023年的研究发布了开源的LLaMA系列大模型,轰动一时。
译文:
我们推出了 LLaMA,一系列参数规模从 70 亿到 650 亿的基础语言模型。我们使用数万亿的标记对模型进行训练,并证明仅使用公开可用的数据集就能训练出最先进的模型,而无需依赖专有和难以获取的数据集。特别是,LLaMA - 13B 在大多数基准测试中优于 GPT - 3(1750 亿参数),而 LLaMA - 65B 与最好的模型 Chinchilla - 70B 和 PaLM - 540B 具有竞争力。我们将所有模型向研究社区开源。
二、核心创新点
正如论文摘要中说的,仅使用公开可用的数据集就能训练出最先进的大模型,因此作者使用了多个数据集混合进行模型预训练,此外就是一些架构上的小调整。
1、预归一化(Pre-normalization)
LLaMA系列模型依然是基于Transformer架构所搭建,但为了提高训练的稳定性,作者对每个Transformer子层的输入进行了归一化而不是对输出进行归一化,归一化函数则采用了常用于Transformer架构模型的RMSNorm函数,通过计算输入向量的均方根,对其进行归一化处理。
首先计算均方根RMS,再进行归一化计算,下式中x为输入向量,d为特征维度:
2、SwiGLU激活函数
在LLaMA中,作者引入SwiGLU激活函数来替代ReLU。SwiGLU(Swish Gated Linear Unit)是一种结合了Swish激活函数和GLU(Gated Linear Unit)的激活函数。GLU引入了两个不同的线性层,其中一个首先经过sigmoid函数,其结果将和另一个线性层的输出进行逐元素相乘作为最终的输出,SwiGLU则将GLU中的sigmoid激活函数替换为Swish激活函数:
其中,W、V、b、c都是线性层的参数,而,是sigmoid函数,则是一个可学习的参数。
3、旋转嵌入(Rotary Embeddings)
作者还去除了绝对位置嵌入,在网络的每一层都添加旋转位置嵌入(RoPE)。RoPE的核心思想是通过旋转矩阵将位置信息嵌入到Token向量中。具体来说,RoPE将每个Token向量分解为多个二维子空间,每个子空间中的两个分量分别应用旋转操作。对于一个二维子空间的向量,通过旋转角度进行编码:
其中,旋转角度,由Token在序列中的位置和频率共同决定。
4、训练提效
为了提高模型的训练速度,作者使用了因果多头注意力来减少内存和时间的使用,这种注意力机制通过不存储注意力权重并且不计算由于语言建模任务的因果性质而被Masked的key/query得分来实现。