【LLM】DeepSeek R1训练成本降低分析篇
note
- DeepSeek-R1-Zero奖励:准确性奖励+格式奖励;R1-Zero不足:可读性较差、语言混合等
- DeepSeek-R1 在DeepSeek-R1-Zero基础上,借助冷启动数据和多阶段训练(增强推理过程可读性、增强面向通用指令的推理能力),进一步提升了模型性能
文章目录
- note
- 一、DeepSeek R1训练流程回顾
- 1. DeepSeek-R1-Zero的训练
- 2. DeepSeek-R1的训练
- 二、Deepseek怎么压缩训练成本
- Reference
一、DeepSeek R1训练流程回顾
1. DeepSeek-R1-Zero的训练
- DeepSeek-R1-Zero奖励:准确性奖励+格式奖励
- R1-Zero不足:可读性较差、语言混合等
2. DeepSeek-R1的训练
- DeepSeek-R1-Zero 作为纯强化学习的成功实践,证明了大语言模型在无监督数据下通过强化学习发展推理能力的可能性;
- DeepSeek-R1 在此基础上,借助冷启动数据和多阶段训练(增强推理过程可读性、增强面向通用指令的推理能力),进一步提升了模型性能,达到与 OpenAI-o1-1217 相媲美的水平,且在蒸馏小模型上也取得了优异成果。
阶段一:增强推理过程可读性
- 冷启动
- 以DeepSeek-V3为基础,构建并收集少量Long-CoT数据来微调模型,防止RL训练早期不稳定和可读性差问题。
- 推理导向的强化学习
- 以阶段1模型为基础,针对代码、数学和逻辑推理等推理密集型任务,采用与R1-Zero相同的大规模RL来进行训练。
- 引入语言一致性奖励(CoT中目标语言单词的比例)来缓解语言混杂问题
阶段二:增强面向通用指令的推理能力
-
拒绝采样和监督微调
- 通过拒绝采样,使用阶段2(推理导向的强化学习)模型合成高质量推理数据;
- 通用领域的SFT数据(V3 SFT数据+V3 COT合成数据);
- 以DeepSeek-V3为基础,微调模型以增强模型在写作、角色扮演等通用任务中的能力。
-
通用任务的强化学习
- 以阶段3模型(拒绝采样和监督微调后)为基础,通过RL提高模型的有用性和无害性,同时完善其推理能力。
- 对于推理任务,利用基于规则的奖励来指导;对于其他任务,采用奖励模型来对齐人类偏好。
二、Deepseek怎么压缩训练成本
完整的训练pipeline:
Reference
[1] 如何评价deepseek-R1与deepseek-R1-Zero模型
[2] https://pdf.dfcfw.com/pdf/H3_AP202502071642869956_1.pdf?1738953726000.pdf