【论文阅读】DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
研究背景
- 研究问题:这篇文章要解决的问题是如何通过强化学习(RL)提升大型语言模型(LLMs)的推理能力,特别是不依赖监督微调(SFT)的情况下。
- 研究难点:该问题的研究难点包括:如何在没有监督数据的情况下通过RL提升模型的推理能力;如何提高模型的可读性和减少语言混合问题。
- 相关工作:该问题的研究相关工作包括基于过程的奖励模型、强化学习和搜索算法等方法,但这些方法在推理性能上仍未达到OpenAI的o1系列模型的水平。(PRM、MCST效果不佳)
研究方法
这篇论文提出了DeepSeek-R1系列模型,通过大规模强化学习和多阶段训练来提升LLMs的推理能力。具体来说,
- DeepSeek-R1-Zero:该模型直接对基础模型进行强化学习训练,没有任何监督微调数据。采用Group Relative Policy Optimization(GRPO)算法来优化模型,公式如下:
其中,Ai 是优势值,计算公式为:
2. DeepSeek-R1:该模型在DeepSeek-R1-Zero的基础上,引入冷启动数据和多阶段训练管道。首先,收集数千条冷启动数据进行初始微调,然后进行以推理为导向的强化学习,最后通过拒绝采样和监督微调生成新的SFT数据,并进行额外的RL训练。
3. 蒸馏:从DeepSeek-R1中蒸馏出更小的密集模型,使用Qwen2.5和Llama系列模型作为基础模型,直接蒸馏效果优于在小型模型上进行RL训练。(小模型蒸馏效果>RL训练)
实验设计
- 数据收集:收集数千条冷启动数据,用于初始微调。这些数据通过少样本提示、直接提示生成详细答案、人工后处理等方式生成。
- 实验设置:在多个基准测试上进行评估,包括MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider 1、LiveCodeBench、Codeforces、Chinese National High School Mathematics Olympiad (CNMO)、American Invitational Mathematics Examination 2024 (AIME)等。
- 参数配置:所有模型的最大生成长度设置为32,768个token。对于需要采样的基准测试,使用温度0.6,top-p值0.95,每个查询生成64个响应。
结果与分析
-
DeepSeek-R1-Zero:在AIME 2024上的pass@1得分从15.6%提升到71.0%,使用多数投票后得分进一步提升到86.7%,接近OpenAI-o1-0912的性能。
2. DeepSeek-R1:在AIME 2024上的pass@1得分为79.8%,略微超过OpenAI-o1-1217。在MATH-500上的得分为97.3%,与OpenAI-o1-1217持平并显著优于其他模型。
3. 蒸馏模型:DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的得分为55.5%,超过QwQ-32B-Preview。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分为72.6%,在MATH-500上的得分为94.3%,在LiveCodeBench上的得分为57.2%。
总体结论
这篇论文通过大规模强化学习和多阶段训练,成功提升了LLMs的推理能力。DeepSeek-R1在不依赖监督数据的情况下,达到了与OpenAI-o1-1217相当的性能。此外,通过蒸馏技术,进一步提升了小型密集模型的推理能力。未来的研究方向包括增强通用能力、解决语言混合问题、改进提示工程和扩展大规模RL在软件工程任务中的应用。
优点与创新
- 纯强化学习的突破:DeepSeek-R1-Zero是第一个通过纯强化学习(RL)而不依赖监督微调(SFT)来提升语言模型推理能力的模型,标志着在这一领域迈出了重要一步。
- 多阶段训练管道:引入了多阶段训练管道,结合了冷启动数据和推理导向的强化学习,显著提升了推理性能。
- 蒸馏技术的应用:展示了如何将大模型的推理模式蒸馏到小模型中,从而在小模型上实现更好的性能,特别是DeepSeek-R1-Distill系列模型在多个基准测试中表现优异。
- 广泛的任务评估:在多个教育知识基准、事实查询、创意写作、一般问答等任务上进行了评估,证明了DeepSeek-R1的广泛适用性和竞争力。
- 自我进化过程的可视化:详细描述了DeepSeek-R1-Zero的自我进化过程,展示了其在强化学习过程中自然发展出复杂的推理行为。
- “顿悟”现象的记录:记录了DeepSeek-R1-Zero在训练过程中出现的“顿悟”现象,展示了强化学习在解锁人工智能新层次智能方面的潜力。
不足与反思
- 可读性问题:DeepSeek-R1-Zero存在可读性差和语言混合的问题,尽管通过引入冷启动数据和多阶段训练得到了缓解。
- 功能调用和多回合任务的局限:DeepSeek-R1在功能调用、多回合复杂角色扮演和JSON输出等任务上的能力不如DeepSeek-V3。
- 语言混合问题:目前DeepSeek-R1优化了中文和英文,处理其他语言的查询时可能会出现语言混合问题。
- 提示工程的影响:DeepSeek-R1对提示非常敏感,少样本提示会显著降低其性能,建议用户直接描述问题并使用零样本设置以获得最佳结果。
- 软件工程任务的挑战:由于评估时间长,影响了强化学习过程的效率,DeepSeek-R1在软件工程任务上没有展示出显著的改进。
QA
问题1:DeepSeek-R1-Zero模型在推理任务中的表现如何?其自我进化过程有哪些显著特点?
DeepSeek-R1-Zero模型在推理任务中表现出色。具体来说,在AIME 2024上的pass@1得分从15.6%提升到71.0%,使用多数投票后得分进一步提升到86.7%,接近OpenAI-o1-0912的性能。此外,DeepSeek-R1-Zero在MATH-500上的得分为95.9%,在GPQA Diamond上的得分为73.3%,在LiveCodeBench上的得分为50.0%。
其自我进化过程具有以下显著特点:
- 逐步提升:DeepSeek-R1-Zero在RL训练过程中表现出稳步且一致的进步,特别是在推理任务中。
- 自我验证和反思:模型逐渐学会了自我验证和反思,能够在推理过程中发现并修正错误。
- 长链思考(CoT)生成:随着训练的进行,DeepSeek-R1-Zero自然学会了生成更长的CoT,这有助于模型更深入地探索和理解问题。
- “顿悟”时刻:在训练的某个中间阶段,模型会经历一个“顿悟”时刻,重新评估其初始方法,从而显著提升性能。
问题2:DeepSeek-R1模型在哪些方面进行了改进,以提高推理性能和可读性?
DeepSeek-R1模型在以下几个方面进行了改进,以提高推理性能和可读性:
- 冷启动数据:引入了数千条冷启动数据,用于初始微调。这些数据通过少样本提示、直接提示生成详细答案、人工后处理等方式生成,提高了模型的可读性和潜在的推理能力。
- 多阶段训练管道:采用了两阶段的强化学习训练和两阶段的监督微调(SFT)。第一阶段进行以推理为导向的RL训练,第二阶段结合SFT数据和拒绝采样生成新的SFT数据,进一步提升了模型的推理性能。
- 语言一致性奖励:在RL训练中引入了语言一致性奖励,鼓励模型在推理过程中使用一致的语言,减少了语言混合问题,提高了模型的可读性。
- 拒绝采样和监督微调:在推理-oriented RL收敛后,通过拒绝采样生成SFT数据,并结合监督数据进行额外的RL训练,进一步提升了模型在所有场景下的推理能力。
问题3:蒸馏技术在提升小型密集模型推理能力方面的效果如何?
蒸馏技术在提升小型密集模型推理能力方面效果显著。具体表现如下:
- 显著性能提升:例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的得分为55.5%,超过了非推理模型如GPT-4o-0513。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分为72.6%,在MATH-500上的得分为94.3%,在LiveCodeBench上的得分为57.2%。
- 超越基线模型:蒸馏后的模型在多个基准测试上显著超越了基于相同基础模型的RL训练结果。例如,DeepSeek-R1-Distill-Qwen-14B在所有评估指标上均超越了QwQ-32B-Preview。
- 经济性有效:蒸馏方法不仅经济高效,还能显著提升小型模型的推理能力,展示了蒸馏技术在提升模型性能方面的潜力。
问题4:DeepSeek-R1的训练过程确实涉及哪些阶段?
DeepSeek-V3-Base -> 冷启动微调(长COT数据)->推理导向RL->采样SFT数据+其他领域数据,两轮SFT->全场景RL?
1、冷启动(Cold Start):首先,DeepSeek-R1的训练从冷启动数据开始。这些数据用于微调基础模型(DeepSeek-V3-Base),以便在强化学习(RL)之前提供一个初始的起点。冷启动数据的目的是提高模型的可读性和一致性,并为后续的RL训练打下基础。
2、推理导向的强化学习(Reasoning-oriented Reinforcement Learning)
在冷启动数据微调之后,模型会进行大规模的强化学习训练。这个阶段的重点是增强模型的推理能力,特别是在需要复杂推理的任务上,如数学、编程和科学推理。
3、 拒绝采样和监督微调(Rejection Sampling and Supervised Fine-Tuning)
当推理导向的RL接近收敛时,使用该检查点来生成新的监督微调(SFT)数据。这包括从RL检查点进行拒绝采样以收集推理相关的数据,以及从DeepSeek-V3中重用其他领域(如写作、角色扮演等)的数据。
- 使用这些数据对模型进行两轮的监督微调,以进一步提升模型在各种任务上的表现。
4、 所有场景的强化学习(Reinforcement Learning for all Scenarios):
最后,进行一个额外的强化学习阶段,旨在进一步优化模型的推理能力,同时提高其在各种场景下的适用性。这个阶段结合了多种奖励信号和多样化的提示分布,以确保模型在保持推理能力的同时,也能满足用户的需求和偏好。