【LLM】为什么要PPO
当前主流的方式是,先LSPT,类似于模仿学习,模仿人类的做法->然后RLHF,具体来说其实就是PPO算法,其实就是loss和训练的方式,利用的是比较的监督信号,最大的也最关键的不同就是在于:PPO(RL)的负例是有用的,从而让大模型知道“安全护栏”在哪里,这是LSPT很难做到的,比如防止生成黄色内容。
-
LSPT (Large Scale Pre-Training):
目标:学习语言和广泛的知识- 在大规模、多样化的文本数据上训练
- 学习语言的基本结构、语法、语义
- 获取广泛的世界知识和事实信息
- 发展基本的推理和生成能力
-
SFT (Supervised Fine-Tuning):
目标:增强特定任务的表现- 使用高质量、任务相关的标注数据
- 改善模型在特定类型任务上的表现(如问答、摘要、对话等)
- 学习特定的输出格式和风格
- 提高模型对特定领域知识的应用能力
-
RLHF (Reinforcement Learning from Human Feedback):
目标:人类价值观对齐- 使用人类反馈来优化模型的行为
- 学习遵循人类偏好和价值观
- 建立"安全护栏",避免生成有害或不当内容
- 提高模型的社会适应性和道德意识
这种三阶段方法的优势在于:
-
逐步优化:每个阶段都建立在前一阶段的基础之上,逐步细化模型的能力。
-
分离关注点:每个阶段专注于不同的学习目标,使得训练过程更加可控和高效。
-
灵活性:可以根据具体需求调整每个阶段的重点和资源分配。
-
平衡通用性和特殊性:LSPT提供广泛基础,而SFT和RLHF则提供特定任务优化和价值观对齐。