LLM 概述
LLM 概述
- 语言模型
- 发展阶段
- 技术发展
- N-Gram
- 神经网络语言模型
- 预训练语言模型
- 大语言模型
大语言模型 (Large Language Model , LLM) : 一种人工智能模型, 并理解和生成人类语言
- 处理多种自然语言任务, 如 : 文本分类 , 问答 , 翻译 , 对话
-
10B 参数的语言模型
- 业界模型 , 如 : GPT-3、ChatGPT、GLM、BLOOM、LLaMA
语言模型
语言模型(Language Model) : 在建模词汇序列的生成概率, 提升机器的语言智能水平, 使机器能够模拟人类说话、 写作的模式进行自动文本输出
- 对于某个句子序列 , 计算该序列发生的概率 , 则给出高概率 , 否则给出低概率
发展阶段
语言模型发展 3 个阶段 :
- 自监督训练目标 : 设计新颖的模型架构(Transformer) , 遵循 Pretraining 和 Fine-tuning 范式 . 代表 : BERT , GPT , XLNet
- 扩大模型参数和训练语料规模 : 探索不同类型的架构。 代表 : BART , T5 , GPT-3
- AIGC(Artificial Intelligent Generated Content) : 模型参数规模步入千万亿, 模型架构为自回归架构, 大模型走向对话式、 生成式、多模态时代, 更加注重与人类交互进行对齐, 实现可靠 、 安全 、 无毒的模型 . 代表 : InstructionGPT , ChatGPT , Bard , GPT-4
技术发展
语言模型技术的发展 :
- 基于规则和统计的语言模型 : 人工设计特征 , 并用统计方法对固定长度的文本窗口序列进行建模分析 (N-gram语言模型)
- 神经语言模型 : 用神经网络来建立语言模型
- 预训练语言模型 : 基于 Transformer 的预训练模型,从大规模通用文本数据中学习语言表示,并运用到下游任务中,如 GPT、BERT、T5
- 大语言模型 : 对预训练模型参数的指数级提升,让语言模型性能线性上升。如 : OpenAI 的 1750亿的 GPT-3
N-Gram
N-Gram 语言模型 : 基于统计方法,预测文本中下个词的出现概率
变种 :
- Unigram (一元语言模型) : 当一个词的出现与它周围的词是独立
- Bigram : 当一个词的出现仅依赖于它前面出现的一个词
- Trigram : 当一个词的出现仅依赖于它前面出现的两个词
- N-Gram : 当前词的出现概率只与它前面的 N-1个词有关
Bigram 工作原理 :
- 准备一个语料库 (模型学习的数据集)
- 计算对应的二元模型的参数,即 P(W_i|W_{i-1})
- 先计数 , 即 C(Wi-1, Wi) ,再计数 C(Wi-1) ,再用除法可得到概率
特点 :
- 优点 : 采用极大似然估计, 参数易训练 ; 完全包含了前 n-1 个词的全部信息 ; 可解释性强,直观易理解
- 缺点 : 只能建模到前 n-1个词 ; 随 n 增大 , 参数空间呈指数增长 ; 数据稀疏 , 会出现OOV (Out of Vocabulary) ; 泛化能力差
神经网络语言模型
模型结构
- 输入层 : 前 n-1 个词的词向量
- 网络第一层 : 将 n -1 个向量首尾拼成 (n-1)*m 的向量 (x)
- 网络第二层 : 通过全连接层连接 , 用 tanh 激活函数处理
- 输出层 : 输出 V 个节点 (V : 语料的词汇总数) 。每个输出节点 y_i (下个词语的未归一化 logits )。最后用 softmax 激活函数对 y 进行归一化 , 得到最大概率值并输出
特点 :
- 优点 : 比 n-gram 有更好的泛化能力; 降低数据稀疏的问题
- 缺点 : 对长序列的建模能力有限 ; 可能有梯度消失
预训练语言模型
基于 Transformer 的预训练的代表模型 : GPT , BERT , T5
使用方式 :
- 预训练 : 用大规模数据集先训练神经网络模型 , 学习通用知识
- 微调:对下游具体任务用模型进行迁移学习,得到更好的泛化效果
特点 :
- 优点 : 更强大的泛化能力 ; 丰富的语义表示 ; 能有效防止过拟合
- 缺点 : 计算资源需求大 ; 可解释性差
大语言模型
大模型的特点 :
- 优点 : 与人类沟通聊天的能力 ; 多插件进行自动信息检索的能力
- 缺点 : 计算资源需求大 ; 训练时间长 ; 可能有害的、有偏见的内容
大模型代表 : DeepSeek (幻⽅量化) ; GPT-3 (参数量高达1750亿) ; LLaMA-13B (Meta公司) ; PaLM-540B (谷歌公司) ; 文心一言ERNIE系列 (百度) ; GLM系列 (清华大学团队) ;