[论文笔记] GRPO DPO
GRPO(General Reinforcement Preference Optimization)和 DPO(Direct Preference Optimization)都是用于训练大语言模型的偏好优化方法,它们通过构造对比样本,使模型学会生成更符合人类偏好的输出。
GRPO vs. DPO 的主要区别
-
DPO: 直接优化模型,使其偏向人类偏好的样本,而远离不符合偏好的样本。
-
GRPO: 对 DPO 进行推广,引入更一般的 KL 正则化方法,以更灵活地控制生成质量和平衡探索与利用。
1. 数据格式
GRPO 和 DPO 都依赖于成对的偏好数据 (pairwise preference data),其中包含一个“更好”(preferred)的样本 A+ 和一个“较差”(dispreferred)的样本 A−,通常来源于模型生成的多个候选结果,由人工或规则标注优劣。
数据示例(JSONL格式,每行一个样本)
{"prompt":"如何在 Python 中读取 JSON 文件?&#