当前位置：首页 > article >正文

DeepSeek-R1 论文解读：强化学习如何 “炼” 出超强推理模型？

article 2025/3/10 7:39:55

`深度解析DeepSeek-R1：强化学习驱动大语言模型推理能力新突破`

论文链接：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

在这里插入图片描述

在大语言模型（LLMs）飞速发展的当下，提升模型推理能力成为迈向通用人工智能（AGI）的关键一环。近期，DeepSeek-AI发布的“DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”一文，介绍了通过强化学习提升模型推理能力的创新成果——DeepSeek-R1-Zero和DeepSeek-R1，为该领域研究开辟了新路径。

Abstract

介绍了DeepSeek-R1-Zero和DeepSeek-R1这两款推理模型，涵盖模型训练方式、特点、性能表现以及开源情况，具体如下：

模型介绍：首次提出第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。其中，DeepSeek-R1-Zero是基于大规模强化学习（RL）训练而成，且未经过监督微调（SFT）的初步步骤。在RL训练过程中，它展现出了强大且有趣的推理行为，不过也面临可读性差、语言混合等问题。为解决这些问题并进一步提升推理性能，团队开发了DeepSeek-R1，该模型采用了多阶段训练，并在RL之前引入冷启动数据。
性能表现：DeepSeek-R1在推理任务上的表现可与OpenAI-o1-1217相媲美。这意味着在处理各类推理问题时，DeepSeek-R1达到了与OpenAI先进模型相近的水平，展现出其在推理能力方面的卓越性。
开源贡献：为推动研究社区的发展，团队开源了DeepSeek-R1-Zero、DeepSeek-R1，以及基于Qwen和Llama从DeepSeek-R1中提炼出的六个密集模型（参数规模分别为1.5B、7B、8B、14B、32B、70B ）。开源这些模型，有助于其他研究人员基于此进行更深入的研究和开发，促进整个大语言模型领域的发展。

1. Introduction

主要介绍了研究背景、目标、主要方法及贡献，为理解后续研究内容奠定基础。具体如下：

研究背景：近年来，大语言模型（LLMs）发展迅速，逐渐缩小与通用人工智能（AGI）的差距。后训练成为训练流程的重要部分，它能提升推理任务的准确性、使模型符合社会价值观并适应用户偏好，且与预训练相比所需计算资源较少。在推理能力提升方面，OpenAI的o1系列模型引入推理时扩展思维链的方法，在数学、编程和科学推理等任务上取得显著进步，但有效测试时扩展仍是研究难题。此前的研究方法，如基于过程的奖励模型、强化学习、蒙特卡罗树搜索和束搜索等，都未能达到o1系列模型的通用推理性能。
研究目标与方法：本文旨在通过纯强化学习（RL）提升语言模型的推理能力，探索大语言模型在无监督数据情况下，通过纯RL过程自我进化发展推理能力的潜力。研究以DeepSeek-V3-Base为基础模型，采用GRPO（Group Relative Policy Optimization）作为RL框架来提高模型在推理任务中的性能。在训练过程中，DeepSeek-R1-Zero自然地展现出许多强大且有趣的推理行为，在推理基准测试中表现出色，例如在AIME 2024基准测试中，pass@1分数大幅提升。不过，DeepSeek-R1-Zero存在可读性差和语言混合等问题。因此，研究引入DeepSeek-R1，通过收集少量冷启动数据对基础模型进行微调，并采用多阶段训练流程，最终获得了与OpenAI-o1-1217性能相当的模型。
研究贡献：一是在基础模型上进行大规模强化学习的后训练，直接将RL应用于基础模型，开发出DeepSeek-R1-Zero，证明了仅通过RL无需监督微调就能激发大语言模型的推理能力，为该领域研究开辟新方向。同时，介绍了DeepSeek-R1的开发流程，包括两个RL阶段和两个SFT阶段，有望推动行业发展。二是通过蒸馏将大模型的推理模式融入小模型，使小模型性能提升。开源了DeepSeek-R1及其API，以及多个蒸馏后的小模型，为研究社区提供了有价值的资源，有助于后续开发性能更优的小模型。
评估结果总结：在推理任务上，DeepSeek-R1在AIME 2024和MATH-500等测试中表现优异，与OpenAI-o1-1217相当甚至超越。在编码相关任务中达到专家水平；在知识基准测试如MMLU、GPQA Diamond等中，DeepSeek-R1成绩突出，虽然略逊于OpenAI-o1-1217，但优于其他闭源模型。此外，在创意写作、问答、编辑和总结等多种任务中，DeepSeek-R1也表现出色，在长上下文理解任务中大幅超越DeepSeek-V3。

2. Approach

主要阐述了提升模型推理能力的研究方法，涵盖总体思路、DeepSeek - R1 - Zero和DeepSeek - R1的构建以及知识蒸馏的应用，具体如下：

总体思路：传统方法多依赖大量监督数据提升模型性能，本研究表明大规模强化学习（RL）可显著提升推理能力，即便不依赖监督微调（SFT）作为冷启动。加入少量冷启动数据，性能还能进一步增强。接下来分别介绍了直接在基础模型上应用RL的DeepSeek - R1 - Zero，从冷启动数据微调后进行RL的DeepSeek - R1，以及将DeepSeek - R1推理能力蒸馏到小型密集模型的方法。
DeepSeek - R1 - Zero：基础模型上的强化学习
- 强化学习算法：采用Group Relative Policy Optimization（GRPO）算法，该算法放弃了与策略模型通常同样大小的批评模型，通过组分数估计基线。优化策略模型时，综合考虑优势、策略比率和KL散度，在节省训练成本的同时引导模型学习。
- 奖励建模：采用基于规则的奖励系统，包括准确性奖励（评估响应是否正确，如数学题按指定格式给出最终答案，或用编译器评估LeetCode问题）和格式奖励（要求模型将思考过程放在特定标签内）。未使用神经奖励模型，以避免奖励作弊和简化训练流程。
- 训练模板：设计简单模板，要求模型先进行推理过程，再给出最终答案，避免对内容的特定限制，使模型在RL过程中自然发展推理能力。
- 性能、自我进化过程和顿悟时刻：DeepSeek - R1 - Zero在AIME 2024基准测试中表现出色，随着RL训练推进，pass@1分数大幅提升，甚至超过OpenAI - o1 - 0912。
  - 图 2 展示了 DeepSeek-R1-Zero 在 AIME 2024 基准测试中，整个强化学习训练过程中的性能变化轨迹。如图所示，随着强化学习训练的推进，DeepSeek-R1-Zero 的性能稳步提升。值得注意的是，AIME 2024 上的平均单次通过率（pass@1）得分显著提高，从最初的 15.6% 跃升至令人瞩目的 71.0%，达到了与 OpenAI-o1-0912 相当的性能水平。
    - 表 2 对 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各种推理相关基准测试中进行了对比分析
    - Figure 3 对应的图片展示的是 DeepSeek - R1 - Zero 在强化学习（RL）训练过程中，训练集上平均响应长度的变化情况。从图中可以直观看到随着训练步数的推进，其平均响应长度的变化趋势。该变化趋势反映出 DeepSeek - R1 - Zero 在训练过程中，自然地学会了花费更多思考时间来解决推理任务，具体表现为响应长度不断增加，意味着模型在推理时会生成更多的推理内容，这是其推理能力自我进化的一种体现。

3. Experiment

主要介绍了模型实验的相关内容，涵盖实验设置、DeepSeek - R1评估和蒸馏模型评估，具体如下：

实验设置
- 基准测试：选用了多个不同领域的基准测试来评估模型性能，包括知识问答相关的MMLU、MMLU - Redux、MMLU - Pro等，编码相关的LiveCodeBench、Codeforces，数学相关的AIME 2024、MATH - 500等，还有开放式生成任务评估的AlpacaEval 2.0和Arena - Hard等。通过多样化的基准测试，全面考察模型在不同任务和领域中的表现。
- 评估提示：针对不同基准测试的特点，采用不同的提示设置。如对于MMLU、DROP等标准基准测试，使用simpleevals框架中的提示；MMLU - Redux采用Zero - Eval提示格式进行零样本设置；MMLU - Pro、C - Eval等原本是少样本提示的数据集，为适应DeepSeek - R1的特点，将其修改为零样本设置，避免思维链（CoT）在少样本情况下对模型性能产生负面影响。其他数据集则遵循其原始评估协议和默认提示。
- 基线模型：选择了多个强大的模型作为基线进行对比，包括DeepSeek - V3、Claude - Sonnet - 3.5 - 1022、GPT - 4o - 0513、OpenAI - o1 - mini和OpenAI - o1 - 1217等。对于蒸馏模型的评估，还加入了开源模型QwQ - 32B - Preview进行对比，以此来清晰地评估DeepSeek - R1及其蒸馏模型的性能水平。
- 评估方法：为避免贪心解码在评估长输出推理模型时出现高重复率和结果不稳定的问题，采用pass@k评估方法。以0.6的采样温度和0.95的top - P值生成多个响应（k值根据测试集大小在4 - 64之间），计算pass@1指标（pass@1 = 1/k ∑ pi，pi表示第i个响应的正确性）。对于AIME 2024，还额外报告cons@64（64个样本的多数投票）结果，使评估结果更可靠。
DeepSeek - R1评估：将DeepSeek - R1与多个基线模型在多个基准测试上进行对比。在教育知识类基准测试（如MMLU、MMLU - Pro、GPQA Diamond）中，DeepSeek - R1表现优于DeepSeek - V3，主要得益于在STEM相关问题上通过大规模强化学习提升的准确性。在FRAMES长文本问答任务中，DeepSeek - R1展现出强大的文档分析能力；在SimpleQA事实性基准测试中，DeepSeek - R1也超过了DeepSeek - V3，但在中文SimpleQA基准测试中，由于安全RL的影响，对某些查询拒绝回答，导致性能不如DeepSeek - V3。在IF - Eval格式指令遵循评估、AlpacaEval2.0写作任务和ArenaHard开放域问答任务中，DeepSeek - R1成绩优异，生成的总结长度简洁，避免了长度偏差，体现出良好的多任务适应性。在数学任务上，DeepSeek - R1与OpenAI - o1 - 1217表现相当，大幅超越其他模型；在LiveCodeBench和Codeforces等编程算法任务中表现出色，但在工程导向的编程任务上，因相关强化学习训练数据有限，与OpenAI - o1 - 1217仍有差距。
蒸馏模型评估：对基于DeepSeek - R1蒸馏得到的小模型进行评估，结果显示这些蒸馏模型表现出色。例如，DeepSeek - R1 - Distill - Qwen - 7B在AIME 2024上超越GPT - 4o - 0513；DeepSeek - R1 - 14B在各项评估指标上优于QwQ - 32B - Preview；DeepSeek - R1 - 32B和DeepSeek - R1 - 70B在多数基准测试中大幅超越o1 - mini。这充分证明了蒸馏技术能有效提升小模型的推理能力，即使仅进行简单的监督微调（SFT），也能取得显著成果。
DeepSeek - R1：冷启动的强化学习
- 冷启动：与DeepSeek - R1 - Zero不同，DeepSeek - R1构建并收集少量长思维链（CoT）数据对DeepSeek - V3 - Base模型进行微调，作为RL的初始阶段。这些冷启动数据格式更具可读性，包含推理过程总结，基于人类先验知识设计模式，相比DeepSeek - R1 - Zero表现更优。
- 推理导向的强化学习：在冷启动微调后的模型上，采用与DeepSeek - R1 - Zero相同的大规模RL训练过程。针对语言混合问题，引入语言一致性奖励，将推理任务准确性和语言一致性奖励结合，优化模型表现，使其更符合人类偏好。
- 拒绝采样和监督微调：推理导向的RL收敛后，利用模型检查点收集监督微调（SFT）数据。推理数据通过拒绝采样生成，扩大数据集并纳入生成式奖励模型评估的数据，同时过滤掉混乱和不可读的输出。非推理数据复用DeepSeek - V3的部分SFT数据集，涵盖写作、事实问答等领域。用约800k样本对模型进行两个epoch的微调。
- 全场景强化学习：为使模型更符合人类偏好，进行二次RL。推理数据采用基于规则的奖励，通用数据使用奖励模型捕捉人类偏好。分别从最终总结和整个响应评估模型的有用性和无害性，确保模型在推理能力提升的同时，更安全、更实用。
蒸馏：赋予小模型推理能力：为让小型模型具备类似DeepSeek - R1的推理能力，使用DeepSeek - R1生成的800k样本，对Qwen和Llama等开源模型进行直接微调。实验表明，这种蒸馏方法显著提升了小模型的推理能力。研究仅对蒸馏模型进行SFT，未纳入RL阶段，为后续研究留下探索空间。

4. Discussion

主要对研究过程中的关键问题进行了探讨，涵盖蒸馏与强化学习的比较，以及一些未成功尝试的方法，为研究成果的理解和后续研究方向提供了参考。具体如下：

蒸馏与强化学习对比
- 实验对比：通过实验对比蒸馏和强化学习对模型性能的影响。在实验中，对Qwen - 32B - Base进行大规模强化学习训练，得到DeepSeek - R1 - Zero - Qwen - 32B。将其与从DeepSeek - R1蒸馏得到的DeepSeek - R1 - Distill - Qwen - 32B，以及开源模型QwQ - 32B - Preview进行对比。
- 结果分析：实验结果表明，经过大规模强化学习训练的Qwen - 32B - Base性能与QwQ - 32B - Preview相当，但DeepSeek - R1 - Distill - Qwen - 32B在所有基准测试中表现显著更优。由此得出两个结论：一是将强大模型的知识蒸馏到小模型中效果显著，小模型仅依靠大规模强化学习不仅计算成本巨大，还可能无法达到蒸馏模型的性能；二是蒸馏策略经济高效，但要进一步提升模型智能，仍需更强大的基础模型和大规模强化学习的支持。
未成功尝试的方法
- 过程奖励模型（PRM）：PRM旨在引导模型找到更好的推理方法，但在实践中存在局限性。首先，难以在一般推理中明确界定细粒度的推理步骤；其次，判断当前中间步骤的正确性困难，自动化标注效果不佳，手动标注又不利于大规模应用；最后，引入基于模型的PRM会导致奖励作弊问题，重新训练奖励模型不仅需要额外资源，还会使训练流程复杂化。虽然PRM在对模型生成的前N个响应进行重排序或辅助引导搜索方面有一定作用，但在大规模强化学习过程中，其优势不敌引入的额外计算成本。
- 蒙特卡罗树搜索（MCTS）：受AlphaGo和AlphaZero启发，尝试使用MCTS提升测试时计算的可扩展性。该方法将答案分解为小部分，让模型系统地探索解空间，通过提示模型生成对应推理步骤的标签来辅助搜索。训练时，先利用收集的提示和预训练的值模型通过MCTS找到答案，再用生成的问答对训练演员模型和值模型。然而，在大规模训练中遇到挑战，与国际象棋相比，token生成的搜索空间呈指数级增长，设置节点扩展限制虽能缓解但会导致模型陷入局部最优；同时，值模型对生成质量影响大，训练精细的值模型难度高，使得模型难以通过自我搜索迭代提升性能。虽然MCTS结合预训练值模型在推理时能提升性能，但通过自我搜索持续提升模型性能仍面临较大困难。

5. Conclusion, Limitations, and Future Work

明确指出了当前研究的成果、模型存在的局限，并规划了未来的研究方向，具体如下：

研究结论：研究通过强化学习成功提升了模型的推理能力。DeepSeek-R1-Zero代表了一种不依赖冷启动数据的纯RL方法，在各种任务中展现出强大的性能。而DeepSeek-R1则借助冷启动数据和迭代RL微调，性能更加强大，在一系列任务上达到了与OpenAI-o1-1217相当的水平。此外，研究还探索了将推理能力蒸馏到小型密集模型的方法，使用DeepSeek-R1生成的800K训练样本对多个小模型进行微调，取得了令人瞩目的成果，如DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中超越了GPT-4o和Claude-3.5-Sonnet等模型。
模型局限性
- 通用能力短板：在功能调用、多轮交互、复杂角色扮演以及JSON输出等任务方面，DeepSeek-R1的表现不及DeepSeek-V3。这意味着在处理需要复杂交互和特定格式输出的场景时，DeepSeek-R1还有较大的提升空间。
- 语言混合问题：目前DeepSeek-R1主要针对中文和英文进行了优化，在处理其他语言的查询时，容易出现语言混合的情况。即使输入的是其他语言的问题，模型可能仍会使用英语进行推理和回答，这限制了其在多语言环境下的应用。
- 提示工程敏感：模型对提示非常敏感，采用少样本提示时，其性能会出现明显下降。这表明在实际应用中，用户需要谨慎选择提示方式，以确保模型能够发挥出最佳性能。
- 软件工程任务表现欠佳：由于软件工程任务的评估时间较长，这对强化学习过程的效率产生了较大影响，导致大规模强化学习在该领域的应用受限。因此，DeepSeek-R1在软件工程基准测试中的表现，相较于DeepSeek-V3并没有显著的提升。
未来研究方向
- 通用能力提升：计划深入探索如何利用长思维链（CoT）数据，来增强DeepSeek-R1在功能调用、多轮对话、复杂角色扮演和JSON输出等任务上的表现，从而提升其通用能力。
- 解决语言混合问题：未来的更新将着重解决语言混合的问题，优化模型对多种语言的处理能力，确保模型在面对不同语言的查询时，能够正确地进行推理和回答，提高模型的多语言适应性。
- 优化提示工程：鉴于模型对提示的敏感性，后续研究将聚焦于提示工程，寻找更有效的提示策略，减少提示对模型性能的负面影响，提高模型的稳定性和可靠性。
- 改进软件工程任务性能：为了提升DeepSeek-R1在软件工程任务中的表现，未来版本将采取在软件工程数据上进行拒绝采样，或在强化学习过程中引入异步评估等方法，以提高强化学习的效率，进而提升模型在相关任务上的性能。