当前位置: 首页 > article >正文

ScratchLLMStepByStep——从零一步一步构建大语言模型

前言

在学习大语言模型的时候,总会遇到各种各样的名词,像自注意力多头因果自回归掩码残差连接归一化等等。这些名词会让学习者听的云里雾里,觉得门槛太高而放弃。

本教程将会带你从零开始一步一步的去构建每一个组件,揭开它们的神秘面纱,并最终用这些组件组装成一个迷你版的大语言模型。在构建过程中,我们会从实现原理的角度去剖析这些组件都是做什么的,又是怎么被设计出来的,做到知其然知其所以然

不仅如此,本专栏还会带你从零开始一步一步训练这个语言模型,经过预训练(Pretrain)、监督微调(SFT)、偏好学习(DPO)最终训练出一个可以进行对话聊天的大语言模型。整个过程会像探宝一样,你会因为将一个又一个新知识收入囊中而充满惊喜,也会因为弄懂了一个又一个的内部原理而持续收获到原来如此

专栏内容

本教程大体上可以分为四部分,分别如下:

  • 第一部分是关于语言模型的基本认识、分词器和嵌入;
  • 第二部分是关于多头因果自注意力、transformer块、GPT模型构建;
  • 第三部分是关于预训练、监督微调、偏好学习以及相关训练的数据集处理;
  • 最后一部分是关于自回归文本生成、kvcache、推理加速相关的内容;

教程具有清晰的章节结构,完整目录如下:

  • ScratchLLMStepByStep:带你从零认识语言模型
  • ScratchLLMStepByStep:带你从零认识Tokenizer
  • ScratchLLMStepByStep:带你从零训练tokenizer
  • ScratchLLMStepByStep:词嵌入和位置嵌入
  • ScratchLLMStepByStep:带你从零认识自注意力
  • ScratchLLMStepByStep:带你实现因果注意力机制
  • ScratchLLMStepByStep:带你实现多头注意力
  • ScratchLLMStepByStep:带你构建TransformerBlock
  • ScratchLLMStepByStep:带你构建GPTModel(制作中)
  • ScratchLLMStepByStep:带你构建高效数据加载器(制作中)
  • ScratchLLMStepByStep:带你进行模型预训练(制作中)
  • ScratchLLMStepByStep:带你进行分类监督微调(制作中)
  • ScratchLLMStepByStep:带你进行指令监督微调(制作中)
  • ScratchLLMStepByStep:带你开始DPO偏好学习(制作中)
  • ScratchLLMStepByStep:带你评估模型推理性能(制作中)
  • ScratchLLMStepByStep:带你压测模型推理性能(制作中)
  • ScratchLLMStepByStep:带你实现选词算法(制作中)
  • ScratchLLMStepByStep:带你加速模型推理(制作中)

前面几章带链接的已经制作完成,剩下的将会以每周一到两篇的频率更新。

本系列教程有如下特点:

  • 可运行的代码示例:每个章节都附有运行示例,帮助您更好地理解理论与实践的结合。
    在这里插入图片描述

  • 一步一步的演示:课程中对每个组件的实现过程都进行了逐步拆解和演示。
    -在这里插入图片描述

  • 详细的解释:对每一步用到的相关深度学习知识,都进行了解读和拓展说明。
    在这里插入图片描述

专栏附带资源

为了最大限度的降低学习门槛,本教程附带了可运行的notebook,notebook文件与专栏的教程目录一一对应。
在这里插入图片描述

所有的notebook都可以在jupyter中直接运行(内容示例如下)。
在这里插入图片描述

教程还附带了每个训练阶段所需数据集的下载地址
在这里插入图片描述
具体数据集的内容因训练类别而有所不同。

  • 分词器和预训练的数据格式基本相同,每条数据是一个text(如下所示)。
    在这里插入图片描述
  • SFT的训练数据会包含instruction、input和output。
    在这里插入图片描述
  • DPO的训练数据针对每条prompt都会有chosen(人类偏好)和reject(非人类偏好)两条回答。
    在这里插入图片描述
资源在哪里找到?

在每篇文章的相关资料链接上都附有notebook的github地址,打开后就能看到notebook文件和相关数据集文件。
在这里插入图片描述

从何处开始?

如果没有模型基础,可以先从认识模型开始,这篇教程会带你逐层解剖模型生成文本的过程:

  • 带你从零认识模型

如果不会搭建环境,可以参考下面两篇教程来搭建自己的环境:

  • conda&pytorch环境搭建笔记
  • vLLM&cuda安装笔记

如果没有使用过jupyter,这里有一篇笔记可以带你入门:

  • jupyter学习笔记

结语

我们设定本课程为付费模式的初衷有以下几点:

  • 对内容创作者的支持:本教程是经过多次实践整理而成的,付费将激励作者创作更多优质的教学内容,并回馈给广大的读者。
  • 学习的承诺:支付一小笔费用(仅相当于请作者喝了一杯咖啡),可以激励学习者投入更多时间与精力,努力回报这笔小的投资。

注:如果付费后github地址由于网络原因访问不顺畅,可以用csdn的私信功能联系获取。


http://www.kler.cn/a/415867.html

相关文章:

  • Day49 | 动态规划 :线性DP 判断子序列两个字符串的删除操作
  • YOLOv8实战无人机视角目标检测
  • 深入解析Java数据包装类型:特性、机制与最佳实践
  • llamaindex实战-ChatEngine-ReAct Agent模式
  • 滑动窗口篇——如行云流水般的高效解法与智能之道(3)
  • 新手开始学习编程选择什么软件比较好?
  • 《Django 5 By Example》阅读笔记:p339-p358
  • 宠物领养平台开发:SpringBoot实战
  • 抓包之查看http basic auth认证方式
  • Python 【工具】 之 【Gradio】AI 模型展示工具的 安装、使用案例教程(一)
  • 【C#】lambda , lambda 表达式语法
  • 【大模型周边】Learn to Rank排序算法(Listwise Learning-to-Rank)
  • Python制表符\t的原理、制表符的使用
  • jvm-46-jvm Thread Dump 线程的信息获取+可视分析化工具 FastThread
  • 大语言模型压缩技术;推理优化技术;SparseGPT算法;GPTQ算法
  • 第三十天 NODE.js的使用 node 编写登录页面 文件管理 数据库互联 以及 相应的安全问题
  • HTML 季节动态计时器工具
  • 代理IP与百度在信息时代的交互
  • qt QProxyStyle详解
  • 早鸟票开启:2025年计算机应用、图像处理与视觉算法国际学术会议(CAIPVA2025)
  • AI与ArcGIS Pro的地理空间分析和可视化
  • Modbus--Modbus TCP与TCP Socket之间区别
  • RAG (Retrieval Augmented Generation) 检索增强和生成
  • 身份证OCR 识别 API 接口用如何PHP调用
  • AI 大模型在软件开发中的变革性影响及应用前景
  • Uniapp触底刷新