当前位置: 首页 > article >正文

大模型面试准备|Deepseek r1技术报告

前言:家人们,咱也是找到大模型的实习了,以下是我的面试准备,面完会更新一版新的,敬请期待吧!

Overview

模型方法
DeepSeek-R1-Zero纯强化学习
DeepSeek-R1冷启动 SFT -> RL -> COT + 通用数据 SFT(80w)->全场景 RL
蒸馏小模型直接用上面的 80w 数据进行SFT

DeepSeek-R1-Zero

完全摒弃传统的监督微调(SFT),直接通过大规模强化学习(RL)从基础模型(DeepSeek-V3-Base)训练,展示了纯 RL 驱动的推理能力涌现现象,但存在可读性差、语言混合等问题。

【纯强化学习推动的推理涌现】

无需 SFT 的 RL 路径

  • 采用 GRPO(Group Relative Policy Optimization) 算法,显著降低 RL 训练成本。
  • 奖励机制设计为 准确性奖励(如数学答案匹配、代码执行验证)与 格式奖励(标准化思维链结构)结合,激发模型生成长链推理和自验证行为。
  • 训练过程中观察到 “顿悟时刻”(Aha Moment),模型在中间版本突然学会为复杂问题分配更多思考步骤,展现了 RL 驱动的自主进化潜力。

DeepSeek-R1

在R1-Zero 基础上,引入少量冷启动数据(数千样本)和多阶段训练(SFT + RL),显著优化了输出质量,推理性能与 OpenAI-o1-1217 相当。

  1. 冷启动 SFT:人工筛选数千条高质量思维链数据,提升可读性。
  2. 推理场景 RL:在数学、代码任务中复用 R1-Zero 的 RL 框架,新增语言一致性奖励以抑制混合输出。
  3. 拒绝采样与通用 SFT:结合 RL 生成的数据和通用任务数据(总计 80 万样本),平衡推理与通用能力。
  4. 全场景 RL:针对不同任务类型动态调整奖励策略,最终实现性能与用户体验的平衡。

R1主要分为4个阶段,前两个阶段cold start和reasoning-oriented RL训练是为了给第3阶段产生SFT数据,在第四阶段混合rule-reward和peference reward做RL训练,解决R1-Zero问题,具有格式化、语言统一、推理模式判别、cot摘要功能。相较R1-Zero最大的特点是R1增加了对齐

亿些小疑惑以及可能的答案

为什么GRPO(Group Relative Policy Optimization)比PPO好?

PPO为on policy路线,具体算法如下:

PPO存在的不足:
1、需要训练一个与Policy模型大小相当的Value模型,这带来了巨大的内存和计算负担;

2、LLM 通常只有最后一个 token 会被奖励模型打分,训练在每个 token 上都准确价值函数难;

因此,GRPO 避免了像 PPO 那样使用额外的 Value Model 近似,而是使用同一问题下多个采样输出的平均奖励作为baseline。

GRPO的优势:

无需额外的价值函数:

GRPO 使用组内平均奖励作为基线,避免了训练额外的价值函数,从而减少了内存和计算负担。

与奖励模型的比较性质对齐:

GRPO 使用组内相对奖励计算优势函数,这与奖励模型通常在同一问题的不同输出之间进行比较的性质相符。

KL惩罚在损失函数中:

GRPO 直接将训练策略 πθ 和参考策略 πref 之间的 KL 散度添加到损失中,而不是像 PPO 那样在奖励中添加 KL 惩罚项,从而避免了复杂化 A^i,t 的计算。

Cold Start的作用到底是?

GPT发布的时候为了防止各个厂商蒸馏,并未提供CoT,只提供思维摘要和最终结果。但DeepSeek开源让我们看到了模型内部的CoT具体是什么样的。

整个训练流程:

1.使用几千条高质量数据冷启动V3-Base,微调函数,解决可读性问题

2.以V3-Base为基础进行面向推理的强化学习(RL),得到了R1-Zero

3.在R1-Zero的基础之上使用V3的蒸馏数据进行新一轮的训练拓展功能性

4.重复第二步,重新进行推理强化学习,得到DeepSeek-R1。

参考:

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning

Understanding Reasoning LLMs

https://www.zhihu.com/people/aigc-69/answers

https://github.com/chenzomi12/AIFoundation


http://www.kler.cn/a/559639.html

相关文章:

  • ProfiNet转EtherNet/IP攻克罗克韦尔PLC与光伏电站监控系统连接难题的通讯配置技术
  • golang深度学习-基础篇
  • 51单片机-定时器中断
  • DeepSeek学习教程 从入门到精通pdf下载:快速上手 DeepSeek
  • 【SQL实验】触发器
  • 说一下HashMap的底层原理
  • ZLMediakit开源视频服务器——配置到本地服务器
  • 简识Kafka集群与RocketMQ集群的核心区别
  • Vue3大文件分片上传,断点续传TS语法(核心思路)
  • PyTorch 深度学习框架中 torch.cuda.empty_cache() 的妙用与注意事项
  • 阿里云SLB负载均衡的ALB和NLB有啥区别?一个是7层一个是4层
  • C++ 设计模式-策略模式
  • Docker基于Ollama本地部署大语言模型
  • 使用大语言模型(Deepseek)构建一个基于 SQL 数据的问答系统
  • Django+Vue3全栈开发实战:从零搭建博客系统
  • 为什么Redis不支持回滚?
  • 自签SSL实现https
  • PHP房屋出租出售高效预约系统小程序源码
  • Linux:互斥
  • 硬核技术组合!用 DeepSeek R1、Ollama、Docker、RAGFlow 打造专属本地知识库