当前位置: 首页 > article >正文

LLM 概述

LLM 概述

  • 语言模型
  • 发展阶段
  • 技术发展
    • N-Gram
    • 神经网络语言模型
    • 预训练语言模型
    • 大语言模型

大语言模型 (Large Language Model , LLM) : 一种人工智能模型, 并理解和生成人类语言

  • 处理多种自然语言任务, 如 : 文本分类 , 问答 , 翻译 , 对话
  • 10B 参数的语言模型

  • 业界模型 , 如 : GPT-3、ChatGPT、GLM、BLOOM、LLaMA

语言模型

语言模型(Language Model) : 在建模词汇序列的生成概率, 提升机器的语言智能水平, 使机器能够模拟人类说话、 写作的模式进行自动文本输出

  • 对于某个句子序列 , 计算该序列发生的概率 , 则给出高概率 , 否则给出低概率

发展阶段

语言模型发展 3 个阶段 :

  1. 自监督训练目标 : 设计新颖的模型架构(Transformer) , 遵循 Pretraining 和 Fine-tuning 范式 . 代表 : BERT , GPT , XLNet
  2. 扩大模型参数和训练语料规模 : 探索不同类型的架构。 代表 : BART , T5 , GPT-3
  3. AIGC(Artificial Intelligent Generated Content) : 模型参数规模步入千万亿, 模型架构为自回归架构, 大模型走向对话式、 生成式、多模态时代, 更加注重与人类交互进行对齐, 实现可靠 、 安全 、 无毒的模型 . 代表 : InstructionGPT , ChatGPT , Bard , GPT-4

技术发展

语言模型技术的发展 :

  1. 基于规则和统计的语言模型 : 人工设计特征 , 并用统计方法对固定长度的文本窗口序列进行建模分析 (N-gram语言模型)
  2. 神经语言模型 : 用神经网络来建立语言模型
  3. 预训练语言模型 : 基于 Transformer 的预训练模型,从大规模通用文本数据中学习语言表示,并运用到下游任务中,如 GPT、BERT、T5
  4. 大语言模型 : 对预训练模型参数的指数级提升,让语言模型性能线性上升。如 : OpenAI 的 1750亿的 GPT-3

N-Gram

N-Gram 语言模型 : 基于统计方法,预测文本中下个词的出现概率

变种 :

  • Unigram (一元语言模型) : 当一个词的出现与它周围的词是独立
  • Bigram : 当一个词的出现仅依赖于它前面出现的一个词
  • Trigram : 当一个词的出现仅依赖于它前面出现的两个词
  • N-Gram : 当前词的出现概率只与它前面的 N-1个词有关

Bigram 工作原理 :

  1. 准备一个语料库 (模型学习的数据集)
  2. 计算对应的二元模型的参数,即 P(W_i|W_{i-1})
  3. 先计数 , 即 C(Wi-1, Wi) ,再计数 C(Wi-1) ,再用除法可得到概率

特点 :

  • 优点 : 采用极大似然估计, 参数易训练 ; 完全包含了前 n-1 个词的全部信息 ; 可解释性强,直观易理解
  • 缺点 : 只能建模到前 n-1个词 ; 随 n 增大 , 参数空间呈指数增长 ; 数据稀疏 , 会出现OOV (Out of Vocabulary) ; 泛化能力差

神经网络语言模型

模型结构

  1. 输入层 : 前 n-1 个词的词向量
  2. 网络第一层 : 将 n -1 个向量首尾拼成 (n-1)*m 的向量 (x)
  3. 网络第二层 : 通过全连接层连接 , 用 tanh 激活函数处理
  4. 输出层 : 输出 V 个节点 (V : 语料的词汇总数) 。每个输出节点 y_i (下个词语的未归一化 logits )。最后用 softmax 激活函数对 y 进行归一化 , 得到最大概率值并输出

特点 :

  • 优点 : 比 n-gram 有更好的泛化能力; 降低数据稀疏的问题
  • 缺点 : 对长序列的建模能力有限 ; 可能有梯度消失

预训练语言模型

基于 Transformer 的预训练的代表模型 : GPT , BERT , T5

使用方式 :

  • 预训练 : 用大规模数据集先训练神经网络模型 , 学习通用知识
  • 微调:对下游具体任务用模型进行迁移学习,得到更好的泛化效果

特点 :

  • 优点 : 更强大的泛化能力 ; 丰富的语义表示 ; 能有效防止过拟合
  • 缺点 : 计算资源需求大 ; 可解释性差

大语言模型

大模型的特点 :

  • 优点 : 与人类沟通聊天的能力 ; 多插件进行自动信息检索的能力
  • 缺点 : 计算资源需求大 ; 训练时间长 ; 可能有害的、有偏见的内容

大模型代表 : DeepSeek (幻⽅量化) ; GPT-3 (参数量高达1750亿) ; LLaMA-13B (Meta公司) ; PaLM-540B (谷歌公司) ; 文心一言ERNIE系列 (百度) ; GLM系列 (清华大学团队) ;


http://www.kler.cn/a/552447.html

相关文章:

  • 轨迹流动,实现语音转文字
  • tailwindcss学习01
  • 【图像加密解密】空间混沌序列的图像加密解密算法复现(含相关性检验)【Matlab完整源码 2期】
  • 夜莺监控发布 v8.beta5 版本,优化 UI,新增接口认证方式便于鉴权
  • 公牛充电桩协议对接单车汽车平台交互协议外发版
  • FFmpeg + Nginx + HLS流媒体播放方案
  • 深入理解TT无人机曲线飞行和挑战卡飞行+EP机甲全面运动
  • 【Windows软件 - HeidiSQL】导出数据库
  • Linux系统资源监控:全面掌握目录、文件、内存和硬盘使用情况
  • C++基础知识学习记录—string类
  • lwip和tcp/ip区别
  • 鸿蒙NEXT开发-沉浸式导航和键盘避让模式
  • Ubuntu 20 掉显卡驱动的解决办法
  • 利用 UniApp 实现带有渐变背景的盒子
  • mysql和minio
  • SpringCloud面试题----什么是Zuul微服务网关
  • 【网络基本知识--2】
  • Qt QListWidget 总结
  • 【Python爬虫(15)】从0到1:Python爬虫实战攻克电商网站动态数据堡垒
  • Unity Shader学习6:多盏平行光+点光源 ( 逐像素 ) 前向渲染 (Built-In)