当前位置: 首页 > article >正文

【LLM】为什么要PPO

当前主流的方式是,先LSPT,类似于模仿学习,模仿人类的做法->然后RLHF,具体来说其实就是PPO算法,其实就是loss和训练的方式,利用的是比较的监督信号,最大的也最关键的不同就是在于:PPO(RL)的负例是有用的,从而让大模型知道“安全护栏”在哪里,这是LSPT很难做到的,比如防止生成黄色内容。

  1. LSPT (Large Scale Pre-Training):
    目标:学习语言和广泛的知识

    • 在大规模、多样化的文本数据上训练
    • 学习语言的基本结构、语法、语义
    • 获取广泛的世界知识和事实信息
    • 发展基本的推理和生成能力
  2. SFT (Supervised Fine-Tuning):
    目标:增强特定任务的表现

    • 使用高质量、任务相关的标注数据
    • 改善模型在特定类型任务上的表现(如问答、摘要、对话等)
    • 学习特定的输出格式和风格
    • 提高模型对特定领域知识的应用能力
  3. RLHF (Reinforcement Learning from Human Feedback):
    目标:人类价值观对齐

    • 使用人类反馈来优化模型的行为
    • 学习遵循人类偏好和价值观
    • 建立"安全护栏",避免生成有害或不当内容
    • 提高模型的社会适应性和道德意识

这种三阶段方法的优势在于:

  1. 逐步优化:每个阶段都建立在前一阶段的基础之上,逐步细化模型的能力。

  2. 分离关注点:每个阶段专注于不同的学习目标,使得训练过程更加可控和高效。

  3. 灵活性:可以根据具体需求调整每个阶段的重点和资源分配。

  4. 平衡通用性和特殊性:LSPT提供广泛基础,而SFT和RLHF则提供特定任务优化和价值观对齐。


http://www.kler.cn/a/308452.html

相关文章:

  • 代码随想录第二十一天| 669. 修剪二叉搜索树 108.将有序数组转换为二叉搜索树 538.把二叉搜索树转换为累加树
  • 94个属于一区且接受医工交叉领域投稿的期刊汇总|个人观点·24-11-13
  • 字符及字符串(ASCII编码系统)
  • 机器学习day3-KNN算法、模型调优与选择
  • 深入理解接口测试:实用指南与最佳实践5.0(一)
  • 一文详解java的数据类型
  • 二.Unity中使用虚拟摇杆来控制角色移动
  • 解码 OpenAI 的 o1 系列大型语言模型
  • flash_attention简要笔记
  • QT程序的安装包制作教程
  • 第二十三章 加密安全标头元素
  • go-zero的快速实战(完整)
  • udp的广播,多播,单播 demo
  • 沉浸式利用自然语言无代码开发工具生成式AI产品应用(下)
  • leetcode 42 接雨水
  • 【SQL】百题计划:SQL内置函数“LENGTH“的使用
  • c++ 线程库
  • 汽车英文单词缩写汇总
  • C++学习笔记(27)
  • Rust: Warp RESTful API 如何得到客户端IP?
  • Notepad++中提升编码效率的关键快捷键
  • C++:opencv计算轮廓周长--cv::arcLength
  • 如何快速入门 Vue 3
  • MySQL基础篇(黑马程序员2022-01-18)
  • xilinx hbm ip运用
  • 自定义类型:联合和枚举