当前位置：首页 > article >正文

LLM 概述

article 2025/2/23 4:06:01

LLM 概述

语言模型
发展阶段
技术发展
- N-Gram
- 神经网络语言模型
- 预训练语言模型
- 大语言模型

大语言模型 (Large Language Model , LLM) : 一种人工智能模型, 并理解和生成人类语言

处理多种自然语言任务，如 : 文本分类 , 问答 , 翻译 , 对话
10B 参数的语言模型
业界模型 , 如 : GPT-3、ChatGPT、GLM、BLOOM、LLaMA

语言模型

语言模型（Language Model) : 在建模词汇序列的生成概率，提升机器的语言智能水平, 使机器能够模拟人类说话、写作的模式进行自动文本输出

对于某个句子序列 , 计算该序列发生的概率 , 则给出高概率 , 否则给出低概率

发展阶段

语言模型发展 3 个阶段 :

自监督训练目标 : 设计新颖的模型架构（Transformer) , 遵循 Pretraining 和 Fine-tuning 范式 . 代表 : BERT , GPT , XLNet
扩大模型参数和训练语料规模 : 探索不同类型的架构。代表 : BART , T5 , GPT-3
AIGC（Artificial Intelligent Generated Content) : 模型参数规模步入千万亿, 模型架构为自回归架构, 大模型走向对话式、生成式、多模态时代，更加注重与人类交互进行对齐，实现可靠、安全、无毒的模型 . 代表 : InstructionGPT , ChatGPT , Bard , GPT-4

技术发展

语言模型技术的发展 :

基于规则和统计的语言模型 : 人工设计特征 , 并用统计方法对固定长度的文本窗口序列进行建模分析 (N-gram语言模型)
神经语言模型 : 用神经网络来建立语言模型
预训练语言模型 : 基于 Transformer 的预训练模型，从大规模通用文本数据中学习语言表示，并运用到下游任务中，如 GPT、BERT、T5
大语言模型 : 对预训练模型参数的指数级提升，让语言模型性能线性上升。如 : OpenAI 的 1750亿的 GPT-3

N-Gram

N-Gram 语言模型 : 基于统计方法，预测文本中下个词的出现概率

变种 :

Unigram (一元语言模型) : 当一个词的出现与它周围的词是独立
Bigram : 当一个词的出现仅依赖于它前面出现的一个词
Trigram : 当一个词的出现仅依赖于它前面出现的两个词
N-Gram : 当前词的出现概率只与它前面的 N-1个词有关

Bigram 工作原理 :

准备一个语料库 (模型学习的数据集)
计算对应的二元模型的参数，即 P(W_i|W_{i-1})
先计数 , 即 C(W_i-1, W_i) ，再计数 C(W_i-1) ，再用除法可得到概率

特点 :

优点 : 采用极大似然估计, 参数易训练 ; 完全包含了前 n-1 个词的全部信息 ; 可解释性强，直观易理解
缺点 : 只能建模到前 n-1个词 ; 随 n 增大 , 参数空间呈指数增长 ; 数据稀疏 , 会出现OOV (Out of Vocabulary) ; 泛化能力差

神经网络语言模型

模型结构

输入层 : 前 n-1 个词的词向量
网络第一层 : 将 n -1 个向量首尾拼成 (n-1)*m 的向量 (x)
网络第二层 : 通过全连接层连接 , 用 tanh 激活函数处理
输出层 : 输出 V 个节点 (V : 语料的词汇总数) 。每个输出节点 y_i (下个词语的未归一化 logits )。最后用 softmax 激活函数对 y 进行归一化 , 得到最大概率值并输出

特点 :

优点 : 比 n-gram 有更好的泛化能力; 降低数据稀疏的问题
缺点 : 对长序列的建模能力有限 ; 可能有梯度消失

预训练语言模型

基于 Transformer 的预训练的代表模型 : GPT , BERT , T5

使用方式 :

预训练 : 用大规模数据集先训练神经网络模型 , 学习通用知识
微调：对下游具体任务用模型进行迁移学习，得到更好的泛化效果

特点 :

优点 : 更强大的泛化能力 ; 丰富的语义表示 ; 能有效防止过拟合
缺点 : 计算资源需求大 ; 可解释性差

大语言模型

大模型的特点 :

优点 : 与人类沟通聊天的能力 ; 多插件进行自动信息检索的能力
缺点 : 计算资源需求大 ; 训练时间长 ; 可能有害的、有偏见的内容

大模型代表 : DeepSeek (幻⽅量化) ; GPT-3 (参数量高达1750亿) ; LLaMA-13B (Meta公司) ; PaLM-540B (谷歌公司) ; 文心一言ERNIE系列 (百度) ; GLM系列 (清华大学团队) ;

http://www.kler.cn/a/552447.html

相关文章：

轨迹流动，实现语音转文字

tailwindcss学习01

【图像加密解密】空间混沌序列的图像加密解密算法复现（含相关性检验）【Matlab完整源码 2期】

夜莺监控发布 v8.beta5 版本，优化 UI，新增接口认证方式便于鉴权

公牛充电桩协议对接单车汽车平台交互协议外发版

FFmpeg + Nginx + HLS流媒体播放方案

深入理解TT无人机曲线飞行和挑战卡飞行+EP机甲全面运动

【Windows软件 - HeidiSQL】导出数据库

Linux系统资源监控：全面掌握目录、文件、内存和硬盘使用情况

C++基础知识学习记录—string类

lwip和tcp/ip区别

鸿蒙NEXT开发-沉浸式导航和键盘避让模式

Ubuntu 20 掉显卡驱动的解决办法

利用 UniApp 实现带有渐变背景的盒子

mysql和minio

SpringCloud面试题----什么是Zuul微服务网关

【网络基本知识--2】

Qt QListWidget 总结

【Python爬虫(15)】从0到1：Python爬虫实战攻克电商网站动态数据堡垒

Unity Shader学习6：多盏平行光+点光源 ( 逐像素 ) 前向渲染 (Built-In)