当前位置：首页 > article >正文

【LLM】为什么要PPO

article 2024/11/15 4:44:53

当前主流的方式是，先LSPT，类似于模仿学习，模仿人类的做法->然后RLHF，具体来说其实就是PPO算法，其实就是loss和训练的方式，利用的是比较的监督信号，最大的也最关键的不同就是在于：PPO（RL）的负例是有用的，从而让大模型知道“安全护栏”在哪里，这是LSPT很难做到的，比如防止生成黄色内容。

LSPT (Large Scale Pre-Training):
目标：学习语言和广泛的知识
- 在大规模、多样化的文本数据上训练
- 学习语言的基本结构、语法、语义
- 获取广泛的世界知识和事实信息
- 发展基本的推理和生成能力
SFT (Supervised Fine-Tuning):
目标：增强特定任务的表现
- 使用高质量、任务相关的标注数据
- 改善模型在特定类型任务上的表现（如问答、摘要、对话等）
- 学习特定的输出格式和风格
- 提高模型对特定领域知识的应用能力
RLHF (Reinforcement Learning from Human Feedback):
目标：人类价值观对齐
- 使用人类反馈来优化模型的行为
- 学习遵循人类偏好和价值观
- 建立"安全护栏"，避免生成有害或不当内容
- 提高模型的社会适应性和道德意识

这种三阶段方法的优势在于：

逐步优化：每个阶段都建立在前一阶段的基础之上，逐步细化模型的能力。
分离关注点：每个阶段专注于不同的学习目标，使得训练过程更加可控和高效。
灵活性：可以根据具体需求调整每个阶段的重点和资源分配。
平衡通用性和特殊性：LSPT提供广泛基础，而SFT和RLHF则提供特定任务优化和价值观对齐。

http://www.kler.cn/a/308452.html

相关文章：

代码随想录第二十一天| 669. 修剪二叉搜索树 108.将有序数组转换为二叉搜索树 538.把二叉搜索树转换为累加树

94个属于一区且接受医工交叉领域投稿的期刊汇总｜个人观点·24-11-13

字符及字符串（ASCII编码系统）

机器学习day3-KNN算法、模型调优与选择

深入理解接口测试：实用指南与最佳实践5.0（一）

一文详解java的数据类型

二.Unity中使用虚拟摇杆来控制角色移动

解码 OpenAI 的 o1 系列大型语言模型

flash_attention简要笔记

QT程序的安装包制作教程

第二十三章加密安全标头元素

go-zero的快速实战（完整）

udp的广播，多播，单播 demo

沉浸式利用自然语言无代码开发工具生成式AI产品应用（下）

leetcode 42 接雨水

【SQL】百题计划：SQL内置函数“LENGTH“的使用

c++ 线程库

汽车英文单词缩写汇总

C++学习笔记（27）

Rust： Warp RESTful API 如何得到客户端IP？

Notepad++中提升编码效率的关键快捷键

C++：opencv计算轮廓周长--cv::arcLength

如何快速入门 Vue 3

MySQL基础篇(黑马程序员2022-01-18)

xilinx hbm ip运用

自定义类型：联合和枚举