当前位置：首页 > article >正文

【论文阅读】DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

article 2025/2/21 23:39:20

研究背景

研究问题：这篇文章要解决的问题是如何通过强化学习（RL）提升大型语言模型（LLMs）的推理能力，特别是不依赖监督微调（SFT）的情况下。
研究难点：该问题的研究难点包括：如何在没有监督数据的情况下通过RL提升模型的推理能力；如何提高模型的可读性和减少语言混合问题。
相关工作：该问题的研究相关工作包括基于过程的奖励模型、强化学习和搜索算法等方法，但这些方法在推理性能上仍未达到OpenAI的o1系列模型的水平。（PRM、MCST效果不佳）

研究方法

这篇论文提出了DeepSeek-R1系列模型，通过大规模强化学习和多阶段训练来提升LLMs的推理能力。具体来说，

DeepSeek-R1-Zero：该模型直接对基础模型进行强化学习训练，没有任何监督微调数据。采用Group Relative Policy Optimization（GRPO）算法来优化模型，公式如下：

其中，Ai 是优势值，计算公式为：

2. DeepSeek-R1：该模型在DeepSeek-R1-Zero的基础上，引入冷启动数据和多阶段训练管道。首先，收集数千条冷启动数据进行初始微调，然后进行以推理为导向的强化学习，最后通过拒绝采样和监督微调生成新的SFT数据，并进行额外的RL训练。

3. 蒸馏：从DeepSeek-R1中蒸馏出更小的密集模型，使用Qwen2.5和Llama系列模型作为基础模型，直接蒸馏效果优于在小型模型上进行RL训练。（小模型蒸馏效果>RL训练）

实验设计

数据收集：收集数千条冷启动数据，用于初始微调。这些数据通过少样本提示、直接提示生成详细答案、人工后处理等方式生成。
实验设置：在多个基准测试上进行评估，包括MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider 1、LiveCodeBench、Codeforces、Chinese National High School Mathematics Olympiad (CNMO)、American Invitational Mathematics Examination 2024 (AIME)等。
参数配置：所有模型的最大生成长度设置为32,768个token。对于需要采样的基准测试，使用温度0.6，top-p值0.95，每个查询生成64个响应。

结果与分析

DeepSeek-R1-Zero：在AIME 2024上的pass@1得分从15.6%提升到71.0%，使用多数投票后得分进一步提升到86.7%，接近OpenAI-o1-0912的性能。

2. DeepSeek-R1：在AIME 2024上的pass@1得分为79.8%，略微超过OpenAI-o1-1217。在MATH-500上的得分为97.3%，与OpenAI-o1-1217持平并显著优于其他模型。

3. 蒸馏模型：DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的得分为55.5%，超过QwQ-32B-Preview。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分为72.6%，在MATH-500上的得分为94.3%，在LiveCodeBench上的得分为57.2%。

总体结论

这篇论文通过大规模强化学习和多阶段训练，成功提升了LLMs的推理能力。DeepSeek-R1在不依赖监督数据的情况下，达到了与OpenAI-o1-1217相当的性能。此外，通过蒸馏技术，进一步提升了小型密集模型的推理能力。未来的研究方向包括增强通用能力、解决语言混合问题、改进提示工程和扩展大规模RL在软件工程任务中的应用。

优点与创新

纯强化学习的突破：DeepSeek-R1-Zero是第一个通过纯强化学习（RL）而不依赖监督微调（SFT）来提升语言模型推理能力的模型，标志着在这一领域迈出了重要一步。
多阶段训练管道：引入了多阶段训练管道，结合了冷启动数据和推理导向的强化学习，显著提升了推理性能。
蒸馏技术的应用：展示了如何将大模型的推理模式蒸馏到小模型中，从而在小模型上实现更好的性能，特别是DeepSeek-R1-Distill系列模型在多个基准测试中表现优异。
广泛的任务评估：在多个教育知识基准、事实查询、创意写作、一般问答等任务上进行了评估，证明了DeepSeek-R1的广泛适用性和竞争力。
自我进化过程的可视化：详细描述了DeepSeek-R1-Zero的自我进化过程，展示了其在强化学习过程中自然发展出复杂的推理行为。
“顿悟”现象的记录：记录了DeepSeek-R1-Zero在训练过程中出现的“顿悟”现象，展示了强化学习在解锁人工智能新层次智能方面的潜力。

不足与反思

可读性问题：DeepSeek-R1-Zero存在可读性差和语言混合的问题，尽管通过引入冷启动数据和多阶段训练得到了缓解。
功能调用和多回合任务的局限：DeepSeek-R1在功能调用、多回合复杂角色扮演和JSON输出等任务上的能力不如DeepSeek-V3。
语言混合问题：目前DeepSeek-R1优化了中文和英文，处理其他语言的查询时可能会出现语言混合问题。
提示工程的影响：DeepSeek-R1对提示非常敏感，少样本提示会显著降低其性能，建议用户直接描述问题并使用零样本设置以获得最佳结果。
软件工程任务的挑战：由于评估时间长，影响了强化学习过程的效率，DeepSeek-R1在软件工程任务上没有展示出显著的改进。

QA

问题1：DeepSeek-R1-Zero模型在推理任务中的表现如何？其自我进化过程有哪些显著特点？

DeepSeek-R1-Zero模型在推理任务中表现出色。具体来说，在AIME 2024上的pass@1得分从15.6%提升到71.0%，使用多数投票后得分进一步提升到86.7%，接近OpenAI-o1-0912的性能。此外，DeepSeek-R1-Zero在MATH-500上的得分为95.9%，在GPQA Diamond上的得分为73.3%，在LiveCodeBench上的得分为50.0%。

其自我进化过程具有以下显著特点：

逐步提升：DeepSeek-R1-Zero在RL训练过程中表现出稳步且一致的进步，特别是在推理任务中。
自我验证和反思：模型逐渐学会了自我验证和反思，能够在推理过程中发现并修正错误。
长链思考（CoT）生成：随着训练的进行，DeepSeek-R1-Zero自然学会了生成更长的CoT，这有助于模型更深入地探索和理解问题。
“顿悟”时刻：在训练的某个中间阶段，模型会经历一个“顿悟”时刻，重新评估其初始方法，从而显著提升性能。

问题2：DeepSeek-R1模型在哪些方面进行了改进，以提高推理性能和可读性？

DeepSeek-R1模型在以下几个方面进行了改进，以提高推理性能和可读性：

冷启动数据：引入了数千条冷启动数据，用于初始微调。这些数据通过少样本提示、直接提示生成详细答案、人工后处理等方式生成，提高了模型的可读性和潜在的推理能力。
多阶段训练管道：采用了两阶段的强化学习训练和两阶段的监督微调（SFT）。第一阶段进行以推理为导向的RL训练，第二阶段结合SFT数据和拒绝采样生成新的SFT数据，进一步提升了模型的推理性能。
语言一致性奖励：在RL训练中引入了语言一致性奖励，鼓励模型在推理过程中使用一致的语言，减少了语言混合问题，提高了模型的可读性。
拒绝采样和监督微调：在推理-oriented RL收敛后，通过拒绝采样生成SFT数据，并结合监督数据进行额外的RL训练，进一步提升了模型在所有场景下的推理能力。

问题3：蒸馏技术在提升小型密集模型推理能力方面的效果如何？

蒸馏技术在提升小型密集模型推理能力方面效果显著。具体表现如下：

显著性能提升：例如，DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的得分为55.5%，超过了非推理模型如GPT-4o-0513。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分为72.6%，在MATH-500上的得分为94.3%，在LiveCodeBench上的得分为57.2%。
超越基线模型：蒸馏后的模型在多个基准测试上显著超越了基于相同基础模型的RL训练结果。例如，DeepSeek-R1-Distill-Qwen-14B在所有评估指标上均超越了QwQ-32B-Preview。
经济性有效：蒸馏方法不仅经济高效，还能显著提升小型模型的推理能力，展示了蒸馏技术在提升模型性能方面的潜力。

问题4：DeepSeek-R1的训练过程确实涉及哪些阶段？