当前位置: 首页 > article >正文

AI大模型技术基础入门

这是一本非常好的AI大模型入门书,如果想了解DeepSeek、ChatGPT、豆包等AI大模型的工作机制和如何应用非常合适。包括了基础只是、架构类型,介绍Prompt工程、参数高效微调方法,RAG等,呈现了非常全面且容易理解的知识。

第1章 语言模型基础

引言:语言模型基础

  • 1.1 基于统计方法的语言模型
    • 1.1.1 n-grams 语言模型

    • 1.1.2 n-grams 的统计学原理

  • 1.2 基于 RNN 的语言模型
    • 1.2.1 循环神经网络 RNN

    • 1.2.2 基于 RNN 的语言模型

  • 1.3 基于 Transformer 的语言模型
    • 1.3.1 Transformer

    • 1.3.2 基于 Transformer 的语言模型

  • 1.4 语言模型的采样方法
    • 1.4.1 概率最大化方法

    • 1.4.2 随机采样方法

  • 1.5 语言模型的评测
    • 1.5.1 内在评测

    • 1.5.2 外在评测

第2章 大语言模型架构

引言:大语言模型架构

  • 2.1 大数据 + 大模型 → 新智能
    • 2.1.1 能力增强

    • 2.1.2 能力扩展

  • 2.2 大语言模型架构概览
    • 2.2.1 主流模型架构的类别

    • 2.2.2 模型架构的功能对比

    • 2.2.3 模型架构的历史演变

  • 2.3 基于 Encoder-only 架构的大语言模型
    • 2.3.1 Encoder-only 架构

    • 2.3.2 BERT 语言模型

    • 2.3.3 BERT 衍生语言模型

  • 2.4 基于 Encoder-Decoder 架构的大语言模型
    • 2.4.1 Encoder-Decoder 架构

    • 2.4.2 T5 语言模型

    • 2.4.3 BART 语言模型

  • 2.5 基于 Decoder-only 架构的大语言模型
    • 2.5.1 Decoder-only 架构

    • 2.5.2 GPT 系列语言模型

    • 2.5.3 LLAMA 系列语言模型

  • 2.6 非 Transformer 架构
    • 2.6.1 状态空间模型 SSM

    • 2.6.2 训练时更新 TTT

第3章 Prompt 工程

引言:Prompt 工程简介

  • 3.1 Prompt 工程简介
    • 3.1.1 Prompt 的定义

    • 3.1.2 Prompt 工程的定义

    • 3.1.3 Prompt 分词向量化

    • 3.1.4 Prompt 工程的意义

  • 3.2 上下文学习
    • 3.2.1 上下文学习的定义

    • 3.2.2 演示示例选择

    • 3.2.3 性能影响因素

  • 3.3 思维链
    • 3.3.1 思维链提示的定义

    • 3.3.2 按部就班

    • 3.3.3 三思后行

    • 3.3.4 集思广益

  • 3.4 Prompt 技巧
    • 3.4.1 规范 Prompt 编写

    • 3.4.2 合理归纳提问

    • 3.4.3 适时使用 CoT

    • 3.4.4 善用心理暗示

  • 3.5 相关应用
    • 3.5.1 基于大语言模型的 Agent

    • 3.5.2 数据合成

    • 3.5.3 Text-to-SQL

第4章 参数高效微调

引言:参数高效微调简介

  • 4.1 参数高效微调简介
    • 4.1.1 下游任务适配

    • 4.1.2 参数高效微调

    • 4.1.3 参数高效微调的优势

  • 4.2 参数附加方法
    • 4.2.1 加在输入

    • 4.2.2 加在模型

    • 4.2.3 加在输出

  • 4.3 参数选择方法
    • 4.3.1 基于规则的方法

    • 4.3.2 基于学习的方法

  • 4.4 低秩适配方法
    • 4.4.1 LoRA

    • 4.4.2 LoRA 相关变体

    • 4.4.3 基于 LoRA 插件的任务泛化

  • 4.5 实践与应用
    • 4.5.1 PEFT 实践

    • 4.5.2 PEFT 应用

第5章 模型编辑

引言:模型编辑简介

  • 5.1 模型编辑简介
    • 5.1.1 模型编辑思想

    • 5.1.2 模型编辑定义

    • 5.1.3 模型编辑性质

    • 5.1.4 常用数据集

  • 5.2 模型编辑经典方法
    • 5.2.1 外部拓展法

    • 5.2.2 内部修改法

    • 5.2.3 方法比较

  • 5.3 附加参数法:T-Patcher
    • 5.3.1 补丁的位置

    • 5.3.2 补丁的形式

    • 5.3.3 补丁的实现

  • 5.4 定位编辑法:ROME
    • 5.4.1 知识存储位置

    • 5.4.2 知识存储机制

    • 5.4.3 精准知识编辑

  • 5.5 模型编辑应用
    • 5.5.1 精准模型更新

    • 5.5.2 保护被遗忘权

    • 5.5.3 提升模型安全

第6章 检索增强生成

引言:检索增强生成简介

  • 6.1 检索增强生成简介
    • 6.1.1 检索增强生成的背景

    • 6.1.2 检索增强生成的组成

  • 6.2 检索增强生成架构
    • 6.2.1 RAG 架构分类

    • 6.2.2 黑盒增强架构

    • 6.2.3 白盒增强架构

    • 6.2.4 对比与分析

  • 6.3 知识检索
    • 6.3.1 知识库构建

    • 6.3.2 查询增强

    • 6.3.3 检索器

    • 6.3.4 检索效率增强

    • 6.3.5 检索结果重排

  • 6.4 生成增强
    • 6.4.1 何时增强

    • 6.4.2 何处增强

    • 6.4.3 多次增强

    • 6.4.4 降本增效

  • 6.5 实践与应用
    • 6.5.1 搭建简单 RAG 系统

    • 6.5.2 RAG 的典型应用

To Fetch All Content, Follow the VX "黑夜路人技术" , Submit Message "AI大模型基础" or "大模型基础"


http://www.kler.cn/a/548692.html

相关文章:

  • [NKU]C++基础课(二)--- externC、强制类型转换、类与对象、面向对象程序设计语言、对象创建和使用、类的定义、封装
  • 常用查找算法整理(顺序查找、二分查找、哈希查找、二叉排序树查找、平衡二叉树查找、红黑树查找、B树和B+树查找、分块查找)
  • TCP/UDP 简介,三次握手与四次挥手
  • 哈希-字母异位词分组
  • Vue 3 30天精进之旅:Day 23 - 性能优化
  • 【python】连接Jira获取token以及jira对象
  • domain 网络安全
  • 【JavaWeb学习Day16】
  • 为什么要选择3D机器视觉检测
  • 二叉搜索树的实现(C++)
  • http基础一
  • 电子电气架构 --- 机器学习推动车载雷达的发展
  • 【第12章:深度学习与伦理、隐私—12.3 深度学习模型的透明性与可解释性提升策略】
  • typescript快速入门之安装与运行
  • perplexity新增R1、o3-mini、Gemini 2.0 flash模型
  • 如何通过AI让PPT制作更轻松:从AI生成PPT到一键智能生成
  • 分段线性插值
  • Halcon相机标定
  • C++ Primer 函数匹配
  • 【Linux】--- 基础开发工具之makefile、git、gdb