当前位置: 首页 > article >正文

[论文笔记] GRPO DPO

GRPO(General Reinforcement Preference Optimization)和 DPO(Direct Preference Optimization)都是用于训练大语言模型的偏好优化方法,它们通过构造对比样本,使模型学会生成更符合人类偏好的输出。

GRPO vs. DPO 的主要区别

  • DPO: 直接优化模型,使其偏向人类偏好的样本,而远离不符合偏好的样本。

  • GRPO: 对 DPO 进行推广,引入更一般的 KL 正则化方法,以更灵活地控制生成质量和平衡探索与利用。

1. 数据格式

GRPO 和 DPO 都依赖于成对的偏好数据 (pairwise preference data),其中包含一个“更好”(preferred)的样本 A+ 和一个“较差”(dispreferred)的样本 A−,通常来源于模型生成的多个候选结果,由人工或规则标注优劣。

数据示例(JSONL格式,每行一个样本)

{"prompt":"如何在 Python 中读取 JSON 文件?&#

http://www.kler.cn/a/536537.html

相关文章:

  • Windows Docker笔记-简介摘录
  • 《深度揭秘LDA:开启人工智能降维与分类优化的大门》
  • 二叉树实现(学习记录)
  • vscode+CMake+Debug实现 及权限不足等诸多问题汇总
  • 云计算行业分析
  • k8sollama部署deepseek-R1模型,内网无坑
  • Kubernetes是什么?为什么它是云原生的基石
  • Amazon Aurora Serverless
  • react面试题三
  • Dockerfile中Alpine镜像设置东八时区
  • ES6 Map 数据结构是用总结
  • 讯飞智作 AI 配音技术浅析(三):自然语言处理
  • Kubernetes与Deepseek
  • 二十四、映射类
  • 如何在Linux上安装Ollama
  • 利用ETL工具进行数据挖掘
  • websocket使用
  • JAVA高级工程师-面试经历(含面试问题及解答)
  • k8s节点维护注意事项
  • CVE-2024-13025-Codezips 大学管理系统 faculty.php sql 注入分析及拓展
  • 中国城商行信贷业务数仓建设白皮书(第四期:机器学习中台建设)
  • 多光谱成像技术在华为Mate70系列的应用
  • 蓝耘智算平台搭载DeepSeek R1模型:高效环境配置全攻略
  • 把DeepSeek接入Word软件,给工作提质增效!
  • 《XSS跨站脚本攻击》
  • ChatGPT提问技巧:行业热门应用提示词案例-文案写作