当前位置: 首页 > article >正文

[论文笔记] Deepseek-R1R1-zero技术报告阅读

启发:

1、SFT&RL的训练数据使用CoT输出的格式,先思考再回答,大大提升模型的数学与推理能力。

2、RL训练使用群体相对策略优化(GRPO),奖励模型是规则驱动,准确性奖励和格式化奖励。

1. 总体概述

  • 背景与目标

    • 报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。

    • 介绍了两代模型:DeepSeek-R1-Zero(纯 RL,无 SFT 冷启动数据)和 DeepSeek-R1(在 RL 前加入少量冷启动数据和多阶段训练流程,提升可读性及推理表现)。

  • 核心思路

    • 直接在基础模型上应用大规模强化学习,利用规则设计的奖励机制(包括准确性奖励和格式奖励)激励生成长链思维(CoT)。

    • 通过拒绝采样和后续的监督微调,进一步改善模型输出的可读性和对齐人类偏好。


http://www.kler.cn/a/535496.html

相关文章:

  • 基础篇05-直方图操作
  • 汇编JCC条件跳转指令记忆
  • 【CPP】CPP经典面试题
  • 电梯系统的UML文档14
  • Linux特权组全解析:识别GID带来的权限提升风险
  • Got socket exception during request. It might be caused by SSL misconfiguration
  • Java全栈项目-在线实验报告系统开发实践
  • Git仓库托管基本使用_01
  • MybatisPlus较全常用复杂查询引例(limit、orderby、groupby、having、like...)
  • C++:内存泄漏
  • MyBatis一条语句(PostgresSql)实现批量新增更新操作ON CONFLICT
  • 2024最新版Node.js详细安装教程(含npm配置淘宝最新镜像地址)
  • CTF SQL注入学习笔记
  • 第七天 开始学习ArkTS基础,理解声明式UI编程思想
  • vue3-响应式 shallowRef
  • 网络安全 | 零信任架构:重构安全防线的未来趋势
  • 【2025最新计算机毕业设计】基于SSM健身俱乐部管理系统【提供源码+答辩PPT+文档+项目部署】
  • 【Vitest】单元测试
  • 【STM32】蓝牙模块数据包解析
  • 【华为OD-E卷 - 108 最大矩阵和 100分(python、java、c++、js、c)】
  • crewai框架第三方API使用官方RAG工具(pdf,csv,json)
  • 高斯溅射和GIS融合之路- 将splat文件切片成3dtiles
  • YOLOv11-ultralytics-8.3.67部分代码阅读笔记-tasks.py
  • E4982A,keysight是德科技台式LCR表
  • 通义灵码在跨领域应用拓展之物联网篇
  • OSPF基础(1):工作过程、状态机、更新