当前位置：首页 > article >正文

AI大模型技术基础入门

article 2025/2/23 13:04:40

这是一本非常好的AI大模型入门书，如果想了解DeepSeek、ChatGPT、豆包等AI大模型的工作机制和如何应用非常合适。包括了基础只是、架构类型，介绍Prompt工程、参数高效微调方法，RAG等，呈现了非常全面且容易理解的知识。

第1章语言模型基础

引言：语言模型基础

1.1 基于统计方法的语言模型
- 1.1.1 n-grams 语言模型
- 1.1.2 n-grams 的统计学原理
1.2 基于 RNN 的语言模型
- 1.2.1 循环神经网络 RNN
- 1.2.2 基于 RNN 的语言模型
1.3 基于 Transformer 的语言模型
- 1.3.1 Transformer
- 1.3.2 基于 Transformer 的语言模型
1.4 语言模型的采样方法
- 1.4.1 概率最大化方法
- 1.4.2 随机采样方法
1.5 语言模型的评测
- 1.5.1 内在评测
- 1.5.2 外在评测

第2章大语言模型架构

引言：大语言模型架构

2.1 大数据 + 大模型 → 新智能
- 2.1.1 能力增强
- 2.1.2 能力扩展
2.2 大语言模型架构概览
- 2.2.1 主流模型架构的类别
- 2.2.2 模型架构的功能对比
- 2.2.3 模型架构的历史演变
2.3 基于 Encoder-only 架构的大语言模型
- 2.3.1 Encoder-only 架构
- 2.3.2 BERT 语言模型
- 2.3.3 BERT 衍生语言模型
2.4 基于 Encoder-Decoder 架构的大语言模型
- 2.4.1 Encoder-Decoder 架构
- 2.4.2 T5 语言模型
- 2.4.3 BART 语言模型
2.5 基于 Decoder-only 架构的大语言模型
- 2.5.1 Decoder-only 架构
- 2.5.2 GPT 系列语言模型
- 2.5.3 LLAMA 系列语言模型
2.6 非 Transformer 架构
- 2.6.1 状态空间模型 SSM
- 2.6.2 训练时更新 TTT

第3章 Prompt 工程

引言：Prompt 工程简介

3.1 Prompt 工程简介
- 3.1.1 Prompt 的定义
- 3.1.2 Prompt 工程的定义
- 3.1.3 Prompt 分词向量化
- 3.1.4 Prompt 工程的意义
3.2 上下文学习
- 3.2.1 上下文学习的定义
- 3.2.2 演示示例选择
- 3.2.3 性能影响因素
3.3 思维链
- 3.3.1 思维链提示的定义
- 3.3.2 按部就班
- 3.3.3 三思后行
- 3.3.4 集思广益
3.4 Prompt 技巧
- 3.4.1 规范 Prompt 编写
- 3.4.2 合理归纳提问
- 3.4.3 适时使用 CoT
- 3.4.4 善用心理暗示
3.5 相关应用
- 3.5.1 基于大语言模型的 Agent
- 3.5.2 数据合成
- 3.5.3 Text-to-SQL

第4章参数高效微调

引言：参数高效微调简介

4.1 参数高效微调简介
- 4.1.1 下游任务适配
- 4.1.2 参数高效微调
- 4.1.3 参数高效微调的优势
4.2 参数附加方法
- 4.2.1 加在输入
- 4.2.2 加在模型
- 4.2.3 加在输出
4.3 参数选择方法
- 4.3.1 基于规则的方法
- 4.3.2 基于学习的方法
4.4 低秩适配方法
- 4.4.1 LoRA
- 4.4.2 LoRA 相关变体
- 4.4.3 基于 LoRA 插件的任务泛化
4.5 实践与应用
- 4.5.1 PEFT 实践
- 4.5.2 PEFT 应用

第5章模型编辑

引言：模型编辑简介

5.1 模型编辑简介
- 5.1.1 模型编辑思想
- 5.1.2 模型编辑定义
- 5.1.3 模型编辑性质
- 5.1.4 常用数据集
5.2 模型编辑经典方法
- 5.2.1 外部拓展法
- 5.2.2 内部修改法
- 5.2.3 方法比较
5.3 附加参数法：T-Patcher
- 5.3.1 补丁的位置
- 5.3.2 补丁的形式
- 5.3.3 补丁的实现
5.4 定位编辑法：ROME
- 5.4.1 知识存储位置
- 5.4.2 知识存储机制
- 5.4.3 精准知识编辑
5.5 模型编辑应用
- 5.5.1 精准模型更新
- 5.5.2 保护被遗忘权
- 5.5.3 提升模型安全

第6章检索增强生成

引言：检索增强生成简介

6.1 检索增强生成简介
- 6.1.1 检索增强生成的背景
- 6.1.2 检索增强生成的组成
6.2 检索增强生成架构
- 6.2.1 RAG 架构分类
- 6.2.2 黑盒增强架构
- 6.2.3 白盒增强架构
- 6.2.4 对比与分析
6.3 知识检索
- 6.3.1 知识库构建
- 6.3.2 查询增强
- 6.3.3 检索器
- 6.3.4 检索效率增强
- 6.3.5 检索结果重排
6.4 生成增强
- 6.4.1 何时增强
- 6.4.2 何处增强
- 6.4.3 多次增强
- 6.4.4 降本增效
6.5 实践与应用
- 6.5.1 搭建简单 RAG 系统
- 6.5.2 RAG 的典型应用

To Fetch All Content, Follow the VX "黑夜路人技术" , Submit Message "AI大模型基础" or "大模型基础"

http://www.kler.cn/a/548692.html

相关文章：

[NKU]C++基础课（二）--- externC、强制类型转换、类与对象、面向对象程序设计语言、对象创建和使用、类的定义、封装

常用查找算法整理（顺序查找、二分查找、哈希查找、二叉排序树查找、平衡二叉树查找、红黑树查找、B树和B+树查找、分块查找）

TCP/UDP 简介，三次握手与四次挥手

哈希-字母异位词分组

Vue 3 30天精进之旅：Day 23 - 性能优化

【python】连接Jira获取token以及jira对象

domain 网络安全

【JavaWeb学习Day16】

为什么要选择3D机器视觉检测

二叉搜索树的实现（C++）

http基础一

电子电气架构 --- 机器学习推动车载雷达的发展

【第12章：深度学习与伦理、隐私—12.3 深度学习模型的透明性与可解释性提升策略】

typescript快速入门之安装与运行

perplexity新增R1、o3-mini、Gemini 2.0 flash模型

如何通过AI让PPT制作更轻松：从AI生成PPT到一键智能生成

分段线性插值

Halcon相机标定

C++ Primer 函数匹配

【Linux】--- 基础开发工具之makefile、git、gdb