当前位置: 首页 > article >正文

生成式语言模型 三范式 预训练、微调、强化反馈学习

ChatGPT 是一种典型的大语言模型,其训练过程可以分为预训练微调和**强化学习(RLHF)**这三个主要阶段。以下是对这些阶段的详细讲解:


1. 预训练(Pretraining)

目标:让模型掌握基本的语言理解与生成能力。

  • 数据来源
    预训练通常使用大量的通用文本数据,包括书籍、文章、维基百科等网络上的公开文本。数据经过清理,以确保质量和多样性。

  • 方法
    模型通过一个自回归目标进行训练,即预测给定上下文中下一个单词的概率。
    公式表示为:
    [
    P(w_t|w_{t-1}, w_{t-2}, …, w_1)
    ]
    这里,(w_t) 是当前词,(w_{t-1}), (w_{t-2}) 等是之前的词。

  • 模型能力
    通过预训练,模型学习到广泛的语言模式、语法规则以及某些世界知识。此阶段的结果是一个具备通用语言处理能力的大模型。


2. 微调(Fine-Tuning)

目标:使模型在特定任务或领域上表现更优。

  • 数据来源
    使用更小但标注精细的数据集,例如对话数据或特定领域的文本数据。这些数据集通常由人工标注,以确保模型输出符合目标需求。

  • 方法
    在已有的预训练模型基础上,通过监督学习调整参数。

    • 模型输入:上下文(如用户问题)。
    • 模型输出:根据标注提供的理想答案。
    • 损失函数:计算模型输出和理想答案之间的误差,进行参数更新。
  • 实例
    微调后的 ChatGPT 能更好地理解对话情境,生成连贯且上下文相关的回答。


3. 强化学习(强化反馈学习,RLHF)

目标:优化模型生成的内容,使其更符合人类偏好。

  • 过程
    RLHF(Reinforcement Learning with Human Feedback)是一个结合人类反馈与强化学习的过程。具体包括以下步骤:

    1) 创建奖励模型(Reward Model):

    • 人类评审员对模型生成的多组回答进行排序(如回答 A 比回答 B 更好)。
    • 训练一个奖励模型来模仿这种排序,从而量化模型输出的“好坏”。

    2) 强化学习优化:

    • 使用奖励模型为 ChatGPT 的输出分配奖励分数。
    • 通过强化学习算法(如策略梯度法,Proximal Policy Optimization, PPO),优化模型生成的内容,使其在奖励模型上得分更高。
  • 好处

    • 输出更符合人类审美和伦理要求。
    • 减少毒性语言、不相关内容以及逻辑混乱的回答。

总结

  1. 预训练提供通用语言能力。
  2. 微调调整模型以适应特定任务。
  3. 强化反馈学习通过人类反馈进一步优化,提升用户体验。

这种三阶段训练流程结合了大规模数据、精细标注和人类反馈,是当前先进语言模型性能的关键所在。


http://www.kler.cn/a/402972.html

相关文章:

  • 原生JS和CSS,HTML实现开屏弹窗
  • 浪潮信息自动驾驶框架AutoDRRT 2.0,赋能高阶自动驾驶
  • react中useMemo的使用场景
  • 【Linux】-学习笔记04
  • 运维团队3D可视化智能机房管理方案
  • Redis的过期删除策略和内存淘汰机制以及如何保证双写的一致性
  • 深度神经网络中不同的卷积层提取的特征有什么不同?
  • 企业项目级IDEA编辑器设置类注释、方法注释模板(仅增加@author和@date)
  • 【Linux系统编程】第四十七弹---深入探索:POSIX信号量与基于环形队列的生产消费模型实现
  • React中常用的钩子
  • 深度学习神经网络中的优化器的使用
  • Fundamental Analysis and Mean-Variance Optimal Portfolios论文阅读
  • python3 Flask应用 使用 Flask-SQLAlchemy操作MySQL数据库
  • 鸿蒙开发:ForEach中为什么键值生成函数很重要
  • # 07_ Python基础到实战一飞冲天(二)-python基础(七)--变量类型计算与输入输出
  • 鸿蒙HarmonyOS开发:一次开发,多端部署(工程级)三层工程架构
  • Hadoop 架构
  • 使用 SMB 协议从win10电脑访问同网段ubuntu电脑文件
  • Node.js 笔记(一):express路由
  • 【docker】退出 `docker run`的几种方式
  • linux 常用命令指南(存储分区、存储挂载、docker迁移)
  • IDEA相关(包括但不限于快捷键,使用技巧)成长笔记
  • Unity图形学之Shader顶点变化
  • 在使用 TypeORM 的项目中,如果不希望查询返回 password 字段,可以通过以下几种方式实现
  • 说说数字化的误区
  • MongoDB进阶篇-索引(索引概述、索引的类型、索引相关操作、索引的使用)