AI大模型技术基础入门
这是一本非常好的AI大模型入门书,如果想了解DeepSeek、ChatGPT、豆包等AI大模型的工作机制和如何应用非常合适。包括了基础只是、架构类型,介绍Prompt工程、参数高效微调方法,RAG等,呈现了非常全面且容易理解的知识。
第1章 语言模型基础
引言:语言模型基础
- 1.1 基于统计方法的语言模型
-
1.1.1 n-grams 语言模型
-
1.1.2 n-grams 的统计学原理
-
- 1.2 基于 RNN 的语言模型
-
1.2.1 循环神经网络 RNN
-
1.2.2 基于 RNN 的语言模型
-
- 1.3 基于 Transformer 的语言模型
-
1.3.1 Transformer
-
1.3.2 基于 Transformer 的语言模型
-
- 1.4 语言模型的采样方法
-
1.4.1 概率最大化方法
-
1.4.2 随机采样方法
-
- 1.5 语言模型的评测
-
1.5.1 内在评测
-
1.5.2 外在评测
-
第2章 大语言模型架构
引言:大语言模型架构
- 2.1 大数据 + 大模型 → 新智能
-
2.1.1 能力增强
-
2.1.2 能力扩展
-
- 2.2 大语言模型架构概览
-
2.2.1 主流模型架构的类别
-
2.2.2 模型架构的功能对比
-
2.2.3 模型架构的历史演变
-
- 2.3 基于 Encoder-only 架构的大语言模型
-
2.3.1 Encoder-only 架构
-
2.3.2 BERT 语言模型
-
2.3.3 BERT 衍生语言模型
-
- 2.4 基于 Encoder-Decoder 架构的大语言模型
-
2.4.1 Encoder-Decoder 架构
-
2.4.2 T5 语言模型
-
2.4.3 BART 语言模型
-
- 2.5 基于 Decoder-only 架构的大语言模型
-
2.5.1 Decoder-only 架构
-
2.5.2 GPT 系列语言模型
-
2.5.3 LLAMA 系列语言模型
-
- 2.6 非 Transformer 架构
-
2.6.1 状态空间模型 SSM
-
2.6.2 训练时更新 TTT
-
第3章 Prompt 工程
引言:Prompt 工程简介
- 3.1 Prompt 工程简介
-
3.1.1 Prompt 的定义
-
3.1.2 Prompt 工程的定义
-
3.1.3 Prompt 分词向量化
-
3.1.4 Prompt 工程的意义
-
- 3.2 上下文学习
-
3.2.1 上下文学习的定义
-
3.2.2 演示示例选择
-
3.2.3 性能影响因素
-
- 3.3 思维链
-
3.3.1 思维链提示的定义
-
3.3.2 按部就班
-
3.3.3 三思后行
-
3.3.4 集思广益
-
- 3.4 Prompt 技巧
-
3.4.1 规范 Prompt 编写
-
3.4.2 合理归纳提问
-
3.4.3 适时使用 CoT
-
3.4.4 善用心理暗示
-
- 3.5 相关应用
-
3.5.1 基于大语言模型的 Agent
-
3.5.2 数据合成
-
3.5.3 Text-to-SQL
-
第4章 参数高效微调
引言:参数高效微调简介
- 4.1 参数高效微调简介
-
4.1.1 下游任务适配
-
4.1.2 参数高效微调
-
4.1.3 参数高效微调的优势
-
- 4.2 参数附加方法
-
4.2.1 加在输入
-
4.2.2 加在模型
-
4.2.3 加在输出
-
- 4.3 参数选择方法
-
4.3.1 基于规则的方法
-
4.3.2 基于学习的方法
-
- 4.4 低秩适配方法
-
4.4.1 LoRA
-
4.4.2 LoRA 相关变体
-
4.4.3 基于 LoRA 插件的任务泛化
-
- 4.5 实践与应用
-
4.5.1 PEFT 实践
-
4.5.2 PEFT 应用
-
第5章 模型编辑
引言:模型编辑简介
- 5.1 模型编辑简介
-
5.1.1 模型编辑思想
-
5.1.2 模型编辑定义
-
5.1.3 模型编辑性质
-
5.1.4 常用数据集
-
- 5.2 模型编辑经典方法
-
5.2.1 外部拓展法
-
5.2.2 内部修改法
-
5.2.3 方法比较
-
- 5.3 附加参数法:T-Patcher
-
5.3.1 补丁的位置
-
5.3.2 补丁的形式
-
5.3.3 补丁的实现
-
- 5.4 定位编辑法:ROME
-
5.4.1 知识存储位置
-
5.4.2 知识存储机制
-
5.4.3 精准知识编辑
-
- 5.5 模型编辑应用
-
5.5.1 精准模型更新
-
5.5.2 保护被遗忘权
-
5.5.3 提升模型安全
-
第6章 检索增强生成
引言:检索增强生成简介
- 6.1 检索增强生成简介
-
6.1.1 检索增强生成的背景
-
6.1.2 检索增强生成的组成
-
- 6.2 检索增强生成架构
-
6.2.1 RAG 架构分类
-
6.2.2 黑盒增强架构
-
6.2.3 白盒增强架构
-
6.2.4 对比与分析
-
- 6.3 知识检索
-
6.3.1 知识库构建
-
6.3.2 查询增强
-
6.3.3 检索器
-
6.3.4 检索效率增强
-
6.3.5 检索结果重排
-
- 6.4 生成增强
-
6.4.1 何时增强
-
6.4.2 何处增强
-
6.4.3 多次增强
-
6.4.4 降本增效
-
- 6.5 实践与应用
-
6.5.1 搭建简单 RAG 系统
-
6.5.2 RAG 的典型应用
-
To Fetch All Content, Follow the VX "黑夜路人技术" , Submit Message "AI大模型基础" or "大模型基础"