大模型面试准备|Deepseek r1技术报告
前言:家人们,咱也是找到大模型的实习了,以下是我的面试准备,面完会更新一版新的,敬请期待吧!
Overview
模型 | 方法 |
---|---|
DeepSeek-R1-Zero | 纯强化学习 |
DeepSeek-R1 | 冷启动 SFT -> RL -> COT + 通用数据 SFT(80w)->全场景 RL |
蒸馏小模型 | 直接用上面的 80w 数据进行SFT |
DeepSeek-R1-Zero
完全摒弃传统的监督微调(SFT),直接通过大规模强化学习(RL)从基础模型(DeepSeek-V3-Base)训练,展示了纯 RL 驱动的推理能力涌现现象,但存在可读性差、语言混合等问题。
【纯强化学习推动的推理涌现】
无需 SFT 的 RL 路径:
- 采用 GRPO(Group Relative Policy Optimization) 算法,显著降低 RL 训练成本。
- 奖励机制设计为 准确性奖励(如数学答案匹配、代码执行验证)与 格式奖励(标准化思维链结构)结合,激发模型生成长链推理和自验证行为。
- 训练过程中观察到 “顿悟时刻”(Aha Moment),模型在中间版本突然学会为复杂问题分配更多思考步骤,展现了 RL 驱动的自主进化潜力。
DeepSeek-R1
在R1-Zero 基础上,引入少量冷启动数据(数千样本)和多阶段训练(SFT + RL),显著优化了输出质量,推理性能与 OpenAI-o1-1217 相当。
- 冷启动 SFT:人工筛选数千条高质量思维链数据,提升可读性。
- 推理场景 RL:在数学、代码任务中复用 R1-Zero 的 RL 框架,新增语言一致性奖励以抑制混合输出。
- 拒绝采样与通用 SFT:结合 RL 生成的数据和通用任务数据(总计 80 万样本),平衡推理与通用能力。
- 全场景 RL:针对不同任务类型动态调整奖励策略,最终实现性能与用户体验的平衡。
R1主要分为4个阶段,前两个阶段cold start和reasoning-oriented RL训练是为了给第3阶段产生SFT数据,在第四阶段混合rule-reward和peference reward做RL训练,解决R1-Zero问题,具有格式化、语言统一、推理模式判别、cot摘要功能。相较R1-Zero最大的特点是R1增加了对齐。
亿些小疑惑以及可能的答案
为什么GRPO(Group Relative Policy Optimization)比PPO好?
PPO为on policy路线,具体算法如下:
PPO存在的不足:
1、需要训练一个与Policy模型大小相当的Value模型,这带来了巨大的内存和计算负担;
2、LLM 通常只有最后一个 token 会被奖励模型打分,训练在每个 token 上都准确价值函数难;
因此,GRPO 避免了像 PPO 那样使用额外的 Value Model 近似,而是使用同一问题下多个采样输出的平均奖励作为baseline。

GRPO的优势:
• 无需额外的价值函数:
◦ GRPO 使用组内平均奖励作为基线,避免了训练额外的价值函数,从而减少了内存和计算负担。
• 与奖励模型的比较性质对齐:
◦ GRPO 使用组内相对奖励计算优势函数,这与奖励模型通常在同一问题的不同输出之间进行比较的性质相符。
• KL惩罚在损失函数中:
◦ GRPO 直接将训练策略 πθ 和参考策略 πref 之间的 KL 散度添加到损失中,而不是像 PPO 那样在奖励中添加 KL 惩罚项,从而避免了复杂化 A^i,t 的计算。
Cold Start的作用到底是?
GPT发布的时候为了防止各个厂商蒸馏,并未提供CoT,只提供思维摘要和最终结果。但DeepSeek开源让我们看到了模型内部的CoT具体是什么样的。
整个训练流程:
1.使用几千条高质量数据冷启动V3-Base,微调函数,解决可读性问题
2.以V3-Base为基础进行面向推理的强化学习(RL),得到了R1-Zero
3.在R1-Zero的基础之上使用V3的蒸馏数据进行新一轮的训练拓展功能性
4.重复第二步,重新进行推理强化学习,得到DeepSeek-R1。
参考:
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning
Understanding Reasoning LLMs
https://www.zhihu.com/people/aigc-69/answers
https://github.com/chenzomi12/AIFoundation