当前位置: 首页 > article >正文

【LLM训练】从零训练一个大模型有哪几个核心步骤?

【LLM训练】从零训练一个大模型有哪几个核心步骤?

⚠︎ 重要性:★★★


NLP Github 项目:

  • NLP 项目实践:fasterai/nlp-project-practice

    介绍:该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验

  • AI 藏经阁:https://gitee.com/fasterai/ai-e-book

    介绍:该仓库主要分享了数百本 AI 领域电子书

  • AI 算法面经:fasterai/nlp-interview-handbook#面经

    介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器

  • NLP 剑指Offer:https://gitee.com/fasterai/nlp-interview-handbook

    介绍:该仓库汇总了 NLP 算法工程师高频面题


从零开始训练LLM需要如下4个核心步骤:

LLM的构建主要包含四个阶段:

  • 预训练
  • 有监督微调
  • 奖励建模
  • 强化学习

这四个阶段都需要不同规模数据集合以及不同类型的算法,会产出不同类型的模型,同时所需要的资源也有非常大的差别。

OpenAI 使用的大规模语言模型构建流程:

第 0 步:预训练基础大模型

目的:基于海量数据以“文字接龙”的形式构建基础语言模型。

语言建模和去噪自编码的输入输出对比:

第 1 步:有监督微调(SFT)

目的:人类引导“文字接龙”的方向。利用少量高质量数据集合,包含用户输入的提示词(Prompt)和对应的理想输出结果。

第 2 步:训练奖励模型

目的:为GPT请一个好老师。基于人类反馈训练的奖励模型可以很好的人类的偏好。从理论上来说,可以通过强化学习使用人类标注的反馈数据直接对模型进行微调。构建奖励模型(Reward Model),模拟人类的评估过程可以极大降低人类标注数据的时间和成本。奖励模型决定了智能体如何从与环境的交互中学习并优化策略,以实现预定的任务目标。

第 3 步:根据奖励模型进行强化学习

目的:AI 指导 AI,优化预训练模型。

使用奖励模型强化训练基础模型:


MLP 大模型高频面题汇总

NLP基础篇
BERT 模型面
LLMs 微调面

http://www.kler.cn/a/409145.html

相关文章:

  • QT基础 编码问题 定时器 事件 绘图事件 keyPressEvent QT5.12.3环境 C++实现
  • STM32的中断(什么是外部中断和其他中断以及中断号是什么)
  • stable-diffusion-webui在conda pycharm中运行
  • c语言的qsort函数理解与使用
  • CANDENCE: 绘制好的封装元件 刷新(Refresh) 和 替换 (Replace)焊盘
  • 字符串的常用函数
  • 重装系统后ip地址错误,网络无法接通怎么办
  • C++设计模式-享元模式
  • C#13新特性介绍:LINQ 的优化设计
  • OpenMM的安装与使用
  • 2024小迪安全基础入门第二课
  • 基于python的机器学习(四)—— 聚类(一)
  • 鸿蒙开发Hvigor插件动态生成代码
  • YOLO-FaceV2: A Scale and Occlusion Aware Face Detector
  • Qt | 在Arm Qt上构建并运行一个本地Windows应用程序
  • 【C++】模拟实现 list:双向链表的构建与解析
  • NLP论文速读(MPO)|通过混合偏好优化提高多模态大型语言模型的推理能力
  • Linux常见的指令及shell外壳程序的理解
  • CSS实现实现当文本内容过长时,中间显示省略号...,两端正常展示
  • SplatFormer: Point Transformer for Robust3D Gaussian Splatting 论文解读
  • 学Linux的第九天--磁盘管理
  • 区块链中台详解(Fabric)
  • Qt-容器类控件 布局管理器
  • IDEA使用tips(LTS✍)
  • 深入浅出分布式缓存:原理与应用
  • PyTorch基础2