当前位置：首页 > article >正文

论文翻译学习：《DeepSeek-R1: 通过强化学习激励大型语言模型的推理能力》

article 2025/2/9 4:15:46

摘要

我们介绍了我们的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习（RL）训练的模型，没有经过监督微调（SFT）作为初步步骤，展示了卓越的推理能力。通过强化学习，DeepSeek-R1-Zero 自然地展现了许多强大而有趣的推理行为。然而，它也面临一些挑战，例如可读性差和语言混合。为了解决这些问题并进一步提升推理性能，我们引入了 DeepSeek-R1，它在强化学习之前结合了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。为了支持研究社区，我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及从 DeepSeek-R1 基于 Qwen 和 Llama 蒸馏出的六个密集模型（1.5B、7B、8B、14B、32B、70B）。

1. 介绍

近年来，大型语言模型（LLMs）经历了快速的迭代和演变，逐渐缩小了与人工通用智能（AGI）之间的差距。最近，后训练已成为完整训练流程中的一个重要组成部分。它已被证明可以在推理任务上提高准确性、与社会价值观保持一致并适应用户偏好，同时相比预训练所需的计算资源相对较少。在推理能力方面，OpenAI 的 o1 系列模型首次引入了通过增加链式推理过程的长度来实现推理时的扩展。这种方法在数学、编程和科学推理等各种推理任务上取得了显著的改进。然而，有效的测试时扩展仍然是研究社区的一个未解之决的问题。之前的工作探索了各种方法，包括基于过程的奖励模型、强化学习以及蒙特卡洛树搜索和束搜索等搜索算法。然而，这些方法都没有达到与 OpenAI 的 o1 系列模型相当的一般推理性能。

在本文中，我们迈出了通过纯强化学习（RL）改进语言模型推理能力的第一步。我们的目标是探索 LLMs 在没有任何监督数据的情况下发展推理能力的潜力，专注于它们通过纯 RL 过程的自我进化。具体来说，我们使用 DeepSeek-V3-Base 作为基础模型，并采用 GRPO 作为 RL 框架来提高模型在推理任务上的性能。在训练过程中，DeepSeek-R1-Zero 自然地展现了许多强大而有趣的推理行为。经过数千步的 RL 训练后，DeepSeek-R1-Zero 在推理基准测试中表现出色。例如，AIME 2024 的 pass@1 分数从 15.6% 提高到 71.0%，通过多数投票进一步提高到 86.7%，与 OpenAI-o1-0912 的性能相当。

然而，DeepSeek-R1-Zero 面临一些挑战，例如可读性差和语言混合。为了解决这些问题并进一步提升推理性能，我们引入了 DeepSeek-R1，它结合了少量冷启动数据和多阶段训练流程。具体来说，我们首先收集了数千个冷启动数据来微调 DeepSeek-V3-Base 模型。随后，我们像 DeepSeek-R1-Zero 一样进行面向推理的 RL。当 RL 过程接近收敛时，我们通过在 RL 检查点上进行拒绝采样创建新的 SFT 数据，并结合 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据，然后重新训练 DeepSeek-V3-Base 模型。经过新数据的微调后，检查点经过额外的 RL 过程，考虑了所有场景的提示。经过这些步骤后，我们获得了称为 DeepSeek-R1 的检查点，其性能与 OpenAI-o1-1217 相当。

我们还探索了从 DeepSeek-R1 蒸馏到更小的密集模型。使用 Qwen2.532B 作为基础模型，直接从 DeepSeek-R1 蒸馏出的模型比在其上应用 RL 的性能更好。这表明大型基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的 Qwen 和 Llama 系列模型。值得注意的是，我们的蒸馏 14B 模型大幅超越了开源的 QwQ-32B-Preview，而蒸馏的 32B 和 70B 模型在密集模型的推理基准测试中创下了新纪录。

1.1 贡献

后训练：在基础模型上进行大规模强化学习

我们直接将强化学习（RL）应用于基础模型，而不依赖于监督微调（SFT）作为初步步骤。这种方法使模型能够探索链式推理（CoT）来解决复杂问题，从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长链推理等能力，标志着研究领域的一个重要里程碑。值得注意的是，这是首次公开研究验证大型语言模型（LLMs）的推理能力可以通过纯强化学习来激励，而无需 SFT。这一突破为未来的研究进展铺平了道路。
我们介绍了开发 DeepSeek-R1 的流程。该流程包括两个 RL 阶段，旨在发现改进的推理模式并使其符合人类偏好，以及两个 SFT 阶段，作为模型推理和非推理能力的种子。我们相信这一流程将使行业受益，通过创建更优秀的模型。

蒸馏：小型模型也能强大

我们证明了大型模型的推理模式可以蒸馏到小型模型中，从而比在小型模型上通过 RL 发现的推理模式表现更好。开源的 DeepSeek-R1 及其 API 将有助于研究社区在未来蒸馏出更优秀的小型模型。
使用 DeepSeek-R1 生成的推理数据，我们微调了几个在研究社区广泛使用的密集模型。评估结果表明，蒸馏后的小型密集模型在基准测试中表现出色。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩，超越了 QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上取得了 72.6% 的成绩，在 MATH-500 上取得了 94.3% 的成绩，在 LiveCodeBench 上取得了 57.2% 的成绩。这些结果显著超越了之前的开源模型，与 o1-mini 相当。我们向社区开源了基于 Qwen2.5 和 Llama3 系列的蒸馏 1.5B、7B、8B、14B、32B 和 70B 的模型。

1.2 评估结果总结

推理任务：（1）DeepSeek-R1 在 AIME 2024 上取得了 79.8% 的 Pass@1 分数，略微超过了 OpenAI-o1-1217。在 MATH-500 上，它取得了 97.3% 的优异成绩，与 OpenAI-o1-1217 相当，并显著超越了其他模型。（2）在与编码相关的任务中，DeepSeek-R1 在代码竞赛任务中表现出专家水平，在 Codeforces 上取得了 2,029 的 Elo 评分，超过了比赛中 96.3% 的人类参与者。对于工程相关任务，DeepSeek-R1 略微优于 DeepSeek-V3，这可能有助于开发者在实际任务中应用。
知识：在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中，DeepSeek-R1 取得了显著优于 DeepSeek-V3 的成绩，分别为 90.8%、84.0% 和 71.5%。虽然在这些基准测试中其表现略低于 OpenAI-o1-1217，但 DeepSeek-R1 超越了其他闭源模型，展示了其在教育任务中的竞争优势。在事实基准测试 SimpleQA 上，DeepSeek-R1 优于 DeepSeek-V3，展示了其处理基于事实的查询的能力。类似的趋势在 OpenAI-o1 超越 4o 的基准测试中也有所观察。
其他：DeepSeek-R1 在包括创意写作、一般问答、编辑、摘要等广泛任务中表现出色。它在 AlpacaEval 2.0 上取得了 87.6% 的长度控制胜率，在 ArenaHard 上取得了 92.3% 的胜率，展示了其智能处理非考试导向查询的强大能力。此外，DeepSeek-R1 在需要长上下文理解的任务中表现出色，显著优于 DeepSeek-V3 在长上下文基准测试中的表现。

2. 方法

2.1 概述

之前的工作严重依赖于大量的监督数据来提高模型性能。在本研究中，我们证明了即使不使用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也可以显著提高推理能力。此外，通过包含少量冷启动数据可以进一步提升性能。在以下部分中，我们介绍：（1）DeepSeek-R1-Zero，它在没有任何 SFT 数据的情况下直接对基础模型应用 RL；（2）DeepSeek-R1，它从经过数千个长链推理（CoT）示例微调的检查点开始应用 RL。（3）从 DeepSeek-R1 蒸馏推理能力到小型密集模型。

2.1 DeepSeek-R1-Zero：在基础模型上进行强化学习

强化学习在推理任务中表现出显著的有效性。然而，这些工作严重依赖于监督数据，而这些数据的收集非常耗时。在本节中，我们探索了 LLMs 在没有任何监督数据的情况下通过纯强化学习过程发展推理能力的潜力。我们首先简要介绍我们的 RL 算法，然后展示一些令人兴奋的结果，希望这能为社区提供有价值的见解。

2.2.1 强化学习算法

组相对策略优化（GRPO） 为了节省 RL 的训练成本，我们采用了组相对策略优化（GRPO），它省略了通常与策略模型大小相同的评论家模型，而是从组分数中估计基线。具体来说，对于每个问题 q，GRPO（组相对策略优化）从旧策略 πθold 中采样一组输出 { o1,o2,…,oG}，然后通过最大化以下目标来优化策略模型 πθ：

其中，ε 和 β 是超参数，Ai 是优势，通过每个组内输出对应的奖励 { r1,r2,...,rG} 计算得出：

译者的解释具体步骤如下：

采样：对于每个问题 q，从旧策略 πθold 中采样一组输出 { o1,o2,...,oG}。

计算奖励：对于每个采样的输出 oi，计算其对应的奖励 ri。

计算优势：使用组内奖励的均值对每个输出的奖励进行中心化，得到优势 Ai。

计算策略比率：对于每个输出 oi，计算新策略 πθ 和旧策略 πθold 的比率 πθold(oi∣q)πθ(oi∣q)。

最大化目标函数：通过最大化目标函数 J(θ) 来优化策略模型 πθ，目标函数综合考虑了策略比率和优势。

2.2.2 奖励建模

奖励是训练信号的来源，决定了 RL 的优化方向。为了训练 DeepSeek-R1-Zero，我们采用了基于规则的奖励系统，主要包括两种类型的奖励：

准确性奖励：评估响应是否正确。例如，在具有确定性结果的数学问题中，模型被要求以指定格式提供最终答案，从而可以可靠地验证正确性。
格式奖励：除了准确性奖励外，我们还采用了格式奖励，强制模型将思考过程放在 <think> 和 </think> 标签之间。

我们没有在 DeepSeek-R1-Zero 的开发中应用结果或过程的神经奖励模型，因为我们发现神经奖励模型可能在大规模强化学习过程中遭受奖励黑客攻击，重新训练奖励模型需要额外的训练资源，并使整个训练流程复杂化。

2.2.3 训练模板

为了训练 DeepSeek-R1-Zero，我们设计了一个简单的模板，指导基础模型遵循我们指定的指令。如表 1 所示，该模板要求 DeepSeek-R1-Zero 首先生成推理过程，然后是最终答案。我们有意将约束限制在这种结构格式上，避免任何内容特定的偏差，例如强制反思推理或推广特定的解决问题策略，以确保我们可以准确观察模型在 RL 过程中的自然进展。

表 1 ｜ DeepSeek-R1-Zero 的模板。在训练过程中，提示将被替换为具体的推理问题。

用户和助手之间的一段对话。用户提出一个问题，助手则负责解答。助手首先会在脑海中思考解题的推理过程，随后再将答案提供给用户。推理过程和答案分别被包含在 <think> </think> 和 <answer> </answer> 标签中，即 <think> 在这里进行推理过程 </think> <answer> 在这里给出答案 </answer>。用户：提示。助手：

2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻

性能图 2 显示了 DeepSeek-R1-Zero 在 AIME 2024 基准测试中的性能轨迹。随着 RL 训练的推进，DeepSeek-R1-Zero 的性能稳步提升。值得注意的是，AIME 2024 的平均 pass@1 分数从初始的 15.6% 显著提高到 71.0%，达到了与 OpenAI-o1-0912 相当的性能水平。

图 2｜DeepSeek-R1-Zero 在训练过程中的 AIME 准确率。对于每个问题，我们采样 16 个响应并计算总体平均准确率，以确保评估的稳定性。

表 2 对 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在多种推理相关基准测试上进行了对比分析。研究结果表明，强化学习（RL）使 DeepSeek-R1-Zero 能够在无需任何监督微调数据的情况下，获得强大的推理能力。这一成就值得注意，因为它强调了模型仅通过 RL 学习和泛化的能力。此外，通过多数投票的应用，可以进一步提升 DeepSeek-R1-Zero 的性能。例如，在 AIME 基准测试中采用多数投票时，DeepSeek-R1-Zero 的性能从 71.0% 提升到 86.7%，从而超过了 OpenAI-o1-0912 的性能。DeepSeek-R1-Zero 能够在有无多数投票的情况下均实现如此具有竞争力的性能，这突显了其强大的基础能力和在推理任务中进一步发展的潜力。

表 2｜DeepSeek-R1-Zero 与 OpenAI o1 模型在推理相关基准测试上的比较。

自我进化过程 DeepSeek-R1-Zero 的自我进化过程生动展示了强化学习如何驱动模型自主提升其推理能力。从基础模型直接启动强化学习，使我们能够在不受监督微调阶段影响的情况下，密切监测模型的进展。这种方法清晰地展示了模型随时间的演变过程，特别是在处理复杂推理任务方面的能力提升。

如图 3 所示，DeepSeek-R1-Zero 在训练过程中的思考时间持续增加。这种提升并非外部调整的结果，而是模型内部的自然发展。DeepSeek-R1-Zero 通过延长测试时的计算时间，自然地获得了解决日益复杂推理任务的能力。这一计算过程从生成数百到数千个推理标记不等，使模型能够更深入地探索和完善其思维过程。

自我进化过程中最显著的方面之一是随着测试时计算的增加，出现了复杂的行为。诸如反思——模型重新审视和评估之前的步骤——以及探索解决问题的替代方法等行为会自发地出现。这些行为并非显式编程的结果，而是模型与强化学习环境交互的产物。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力，使其能够以更高的效率和准确性应对更具挑战性的任务。

图 3｜在强化学习（RL）过程中，DeepSeek-R1-Zero 在训练集上的平均响应长度。DeepSeek-R1-Zero 自然地学会通过更多的思考时间来解决推理任务。

顿悟时刻 在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别引人入胜的现象是出现了“顿悟时刻”。如表 3 所示，这一时刻发生在模型的中间版本中。在这个阶段，DeepSeek-R1-Zero 通过重新评估其初始方法，学会了为问题分配更多的思考时间。这种行为不仅证明了模型推理能力的增长，也是强化学习如何导致意外而复杂结果的一个迷人例子。

这一时刻不仅是模型的“顿悟时刻”，也是观察其行为的研究人员的“顿悟时刻”。它强调了强化学习的力量和美妙之处：我们不是明确地教模型如何解决问题，而是简单地为其提供正确的激励，它就能自主地发展出高级的问题解决策略。“顿悟时刻”有力地提醒我们，强化学习在人工智能系统中解锁新智能水平的潜力，为未来更自主和适应性强的模型铺平了道路。

表 3｜DeepSeek-R1-Zero 一个中间版本的有趣“顿悟时刻”。模型学会了用拟人化的语气重新思考。这对我们来说也是一个顿悟时刻，让我们得以见证强化学习的力量与美妙。

DeepSeek-R1-Zero 的缺点 尽管 DeepSeek-R1-Zero 展现出强大的推理能力，并自主地发展出意外而强大的推理行为，但它也面临一些问题。例如，DeepSeek-R1-Zero 在可读性差和语言混合等挑战上表现挣扎。为了使推理过程更易于阅读并与开放社区共享，我们探索了 DeepSeek-R1，这是一种利用人类友好的冷启动数据进行强化学习的方法。

2.3 DeepSeek-R1：具有冷启动的强化学习

受 DeepSeek-R1-Zero 的有希望的结果启发，我们提出了两个自然的问题：（1）通过引入少量高质量数据作为冷启动，是否可以进一步提高推理性能或加速收敛？（2）如何训练一个用户友好的模型，不仅生成清晰连贯的推理链（CoT），还展示强大的通用能力？为了解决这些问题，我们设计了一个训练 DeepSeek-R1 的流程，该流程包括四个阶段。

2.3.1 冷启动

与 DeepSeek-R1-Zero 不同，为了避免从基础模型开始的 RL 训练的早期不稳定冷启动阶段，我们为 DeepSeek-R1 收集了少量长推理链（CoT）数据，用于微调模型作为 RL 的初始数据。我们探索了多种方法来收集此类数据：使用少量示例提示，直接提示模型生成带有反思和验证的详细答案，收集 DeepSeek-R1-Zero 的可读格式输出，并通过人工注释者进行后处理来完善结果。

在本工作中，我们收集了数千个冷启动数据来微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比，冷启动数据的优势包括：

可读性：DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏用于突出显示用户答案的标记格式。相比之下，在为 DeepSeek-R1 创建冷启动数据时，我们设计了一个可读的模式，包括每个响应末尾的摘要，并过滤掉不用户友好的响应。
潜力：通过使用人类先验精心设计冷启动数据的模式，我们观察到与 DeepSeek-R1-Zero 相比性能更好。我们相信迭代训练是推理模型的更好方法。

2.3.2 面向推理的强化学习

在使用冷启动数据对 DeepSeek-V3-Base 进行微调后，我们应用了与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。这一阶段重点提升模型在推理密集型任务（如编程、数学、科学和逻辑推理）上的推理能力，这些任务涉及具有明确解决方案的明确定义问题。在训练过程中，我们观察到推理链（CoT）经常出现语言混合，特别是当 RL 提示涉及多种语言时。为了减轻语言混合问题，我们在 RL 训练中引入了语言一致性奖励，计算为推理链中目标语言单词的比例。尽管消融实验表明这种对齐导致模型性能略有下降，但这一奖励与人类偏好一致，使模型更易于阅读。最终，我们将推理任务的准确性和语言一致性奖励直接相加，形成最终奖励。然后，我们在微调后的模型上进行 RL 训练，直到其在推理任务上收敛。

2.3.3 拒绝采样和监督微调

当面向推理的 RL 收敛时，我们利用生成的检查点收集 SFT（监督微调）数据，用于后续阶段。与主要关注推理的初始冷启动数据不同，这一阶段纳入了其他领域的数据，以增强模型在写作、角色扮演和其他通用任务上的能力。具体来说，我们按照以下方式生成数据并微调模型。

推理数据 我们策划了推理提示，并通过从上述 RL 训练的检查点进行拒绝采样生成推理轨迹。在之前的阶段，我们仅纳入了可以使用基于规则的奖励进行评估的数据。然而，在这一阶段，我们通过纳入一些使用生成式奖励模型的数据来扩展数据集，将真实值和模型预测输入 DeepSeek-V3 进行判断。此外，由于模型输出有时混乱且难以阅读，我们过滤掉了混合语言、长段落和代码块的推理链。对于每个提示，我们采样多个响应并仅保留正确的响应。总共，我们收集了约 600k 个与推理相关的训练样本。

非推理数据 对于非推理数据，如写作、事实问答、自我认知和翻译，我们采用了 DeepSeek-V3 的流程，并重用了 DeepSeek-V3 的部分 SFT 数据集。对于某些非推理任务，我们提示 DeepSeek-V3 在回答问题之前生成潜在的推理链。然而，对于更简单的查询（如“你好”），我们不会在响应中提供推理链。最终，我们收集了约 200k 个与推理无关的训练样本。

我们使用上述策划的约 800k 个样本对 DeepSeek-V3-Base 进行了两个周期的微调。

2.3.4 面向所有场景的强化学习

为了使模型更符合人类偏好，我们实施了第二阶段的强化学习，旨在提高模型的有用性和无害性，同时进一步完善其推理能力。具体来说，我们使用组合的奖励信号和多样化的提示分布来训练模型。对于推理数据，我们遵循 DeepSeek-R1-Zero 中的方法，使用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于通用数据，我们使用奖励模型来捕捉复杂和微妙场景中的人类偏好。我们基于 DeepSeek-V3 的流程，采用了类似的偏好对和训练提示分布。对于有用性，我们专注于最终摘要，确保评估强调响应对用户的实用性和相关性，同时最小化对底层推理过程的干扰。对于无害性，我们评估模型的整个响应，包括推理过程和摘要，以识别和减轻在生成过程中可能出现的任何潜在风险、偏见或有害内容。最终，奖励信号和多样化数据分布的结合使我们能够训练出一个在推理方面表现出色的同时优先考虑有用性和无害性的模型。

2.4 蒸馏：赋予小型模型推理能力

为了使更高效的小型模型具备像 DeepSeek-R1 这样的推理能力，我们直接使用 DeepSeek-R1 策划的 800k 样本对开源模型（如 Qwen 和 Llama）进行微调，详细信息见 §2.3.3。我们的发现表明，这种简单的蒸馏方法显著增强了小型模型的推理能力。我们在这里使用的基础模型是 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1。

对于蒸馏模型，我们仅应用了 SFT，没有包括 RL 阶段，尽管纳入 RL 可能会大幅提高模型性能。我们的主要目标是证明蒸馏技术的有效性，将 RL 阶段的探索留给更广泛的研究社区。

3. 实验

基准测试 我们在多个基准测试上评估了模型，包括 MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-bench Verified、Aider、LiveCodeBench、Codeforces、CNMO 2024 和 AIME 2024。除了标准基准测试外，我们还使用 LLMs 作为评委评估了模型在开放式生成任务上的表现。具体来说，我们遵循 AlpacaEval 2.0 和 Arena-Hard 的原始配置，利用 GPT-4-Turbo-1106 作为评委进行成对比较。在这里，我们仅将最终摘要输入评估，以避免长度偏差。对于蒸馏模型，我们在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上报告了代表性结果。

评估提示 按照 DeepSeek-V3 的设置，标准基准测试（如 MMLU、DROP、GPQA Diamond 和 SimpleQA）使用 simpleevals 框架的提示进行评估。对于 MMLU-Redux，我们在零样本设置中采用了 Zero-Eval 提示格式。在 MMLU-Pro、C-Eval 和 CLUE-WSC 方面，由于原始提示是少量样本，我们将其稍微修改为零样本设置。少量样本中的推理链可能会损害 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议，并使用其创建者提供的默认提示。对于代码和数学基准测试，HumanEval-Mul 数据集涵盖了八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash）。模型在 LiveCodeBench 上的性能使用 CoT 格式进行评估，数据收集时间为 2024 年 8 月至 2025 年 1 月。Codeforces 数据集使用来自 10 个 Div.2 比赛的问题以及专家制作的测试用例进行评估，随后计算预期评级和参赛者百分比。SWE-bench 验证结果通过无代理框架获得。AIDER 相关基准测试使用“diff”格式进行测量。DeepSeek-R1 在每个基准测试上的输出限制为最多 32,768 个 token。

基线我们对几个强大的基线模型进行了全面评估，包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 存在困难，我们根据官方报告报告其性能。对于蒸馏模型，我们还将开源模型 QwQ-32B-Preview 进行了比较。

评估设置 我们将模型的最大生成长度设置为 32,768 个 token 。我们发现，使用贪婪解码评估长输出推理模型会导致重复率更高，不同检查点之间的变化显著。因此，我们默认使用 pass@𝑖 评估，并使用非零温度报告 pass@1。具体来说，我们使用 0.6 的采样温度和 0.95 的 top-𝑖 值为每个问题生成 𝑖 个响应（通常在 4 到 64 之间，取决于测试集大小）。然后计算 pass@1 为：

其中，Pi 表示第 𝑖 个响应的正确性。这种方法提供了更可靠的性能估计。对于 AIME 2024，我们还使用 64 个样本报告了共识（多数投票）结果，记为 cons@64。

3.1 DeepSeek-R1 评估

表 4｜DeepSeek-R1 与其他代表性模型的比较

在面向教育的知识基准测试（如 MMLU、MMLU-Pro 和 GPQA Diamond）中，与 DeepSeek-V3 相比，DeepSeek-R1 展示了更卓越的性能。这一提升主要归因于在与 STEM（科学、技术、工程和数学）相关的问题上准确率的提高，而这一提高是通过大规模强化学习实现的。此外，DeepSeek-R1 在 FRAMES 基准测试中表现出色，FRAMES 是一项依赖长上下文的问答任务，这展示了其强大的文档分析能力。这突显了推理模型在 AI 驱动的搜索和数据分析任务中的潜力。在事实基准测试 SimpleQA 上，DeepSeek-R1 超越了 DeepSeek-V3，展示了其处理基于事实的查询的能力。类似的趋势也出现在 OpenAI-o1 在此基准测试中超越 GPT-4o 的情况中。然而，在中文 SimpleQA 基准测试中，DeepSeek-R1 的表现不如 DeepSeek-V3，这主要是因为在安全强化学习（safety RL）之后，它倾向于拒绝回答某些查询。如果没有安全强化学习，DeepSeek-R1 的准确率可以超过 70%。

DeepSeek-R1 在 IF-Eval 基准测试中也取得了令人印象深刻的结果，IF-Eval 是一项旨在评估模型遵循格式指令能力的测试。这些改进可以归因于在监督微调（SFT）和强化学习训练的最后阶段加入了遵循指令的数据。此外，在 AlpacaEval2.0 和 ArenaHard 上观察到了显著的性能，这表明 DeepSeek-R1 在写作任务和开放域问答方面的优势。它显著超越 DeepSeek-V3，强调了大规模强化学习的泛化优势，这不仅提升了推理能力，还提高了在不同领域的性能。此外，DeepSeek-R1 生成的摘要长度简洁，在 ArenaHard 上平均为 689 个 token，在 AlpacaEval 2.0 上平均为 2,218 个字符。这表明 DeepSeek-R1 在基于 GPT 的评估中避免了引入长度偏差，进一步巩固了其在多个任务中的稳健性。

在数学任务上，DeepSeek-R1 的表现与 OpenAI-o1-1217 相当，大幅超越了其他模型。在编程算法任务上，如 LiveCodeBench 和 Codeforces，以推理为重点的模型在这些基准测试中占据主导地位，也观察到了类似的趋势。在工程导向的编程任务上，OpenAI-o1-1217 在 Aider 上超越了 DeepSeek-R1，但在 SWE Verified 上表现相当。我们相信 DeepSeek-R1 的工程性能将在下一个版本中得到提升，因为目前相关的强化学习训练数据量仍然非常有限。

3.2 蒸馏模型评估

表 5｜DeepSeek-R1 蒸馏模型与其他可比模型在推理相关基准测试上的比较

如表 5 所示，仅通过蒸馏 DeepSeek-R1 的输出，高效的 DeepSeek-R1-7B（即 DeepSeek-R1-Distill-Qwen-7B，简称类似）在各个基准测试中均超越了非推理模型 GPT-4o-0513。DeepSeek-R1-14B 在所有评估指标上均超越了 QwQ-32B-Preview，而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试中显著超越了 o1-mini。这些结果证明了蒸馏的强大潜力。此外，我们发现对这些蒸馏模型应用 RL 会带来进一步的显著提升。我们认为这值得进一步探索，因此这里仅呈现了简单的 SFT 蒸馏模型的结果。

4. 讨论

4.1 蒸馏与强化学习

在第 3.2 节中，我们看到通过蒸馏 DeepSeek-R1，小型模型可以取得令人印象深刻的结果。然而，仍有一个问题：模型是否可以通过本文讨论的大规模 RL 训练在没有蒸馏的情况下实现相当的性能？

为了回答这个问题，我们在 Qwen-32B-Base 上进行了大规模 RL 训练，使用数学、代码和 STEM 数据训练了超过 10K 步，生成了 DeepSeek-R1-Zero-Qwen-32B。实验结果如表 6 所示，经过大规模 RL 训练后，32B 基础模型的性能与 QwQ-32B-Preview 相当。然而，从 DeepSeek-R1 蒸馏的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中均显著优于 DeepSeek-R1-Zero-Qwen-32B。

表 6｜蒸馏模型和强化学习（RL）模型在推理相关基准测试上的比较

因此，我们可以得出两个结论：首先，将更强大的模型蒸馏到更小的模型中可以取得出色的结果，而依赖本文讨论的大规模 RL 的小型模型需要巨大的计算资源，并且可能无法实现蒸馏的性能。其次，尽管蒸馏策略既经济又有效，但要超越智能的边界，可能仍需要更强大的基础模型和更大规模的强化学习。

4.2 不成功的尝试

在开发 DeepSeek-R1 的早期阶段，我们也遇到了失败和挫折。我们在这里分享我们的失败经验，以提供一些见解，但这并不意味着这些方法无法开发有效的推理模型。

过程奖励模型（PRM） PRM 是引导模型更好地解决推理任务的合理方法。然而，在实践中，PRM 有三个主要限制，可能会阻碍其最终成功。首先，很难在一般推理中明确定义细粒度步骤。其次，确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动化注释可能无法取得令人满意的结果，而人工注释不利于规模化。第三，一旦引入基于模型的 PRM，就不可避免地会导致奖励黑客攻击，重新训练奖励模型需要额外的训练资源，并使整个训练流程复杂化。总之，虽然 PRM 在重新排序模型生成的前 N 个响应或协助引导搜索方面表现出良好的能力，但与其在大规模强化学习过程中引入的额外计算开销相比，其优势有限。

蒙特卡洛树搜索（MCTS） 受 AlphaGo 和 AlphaZero 的启发，我们探索了使用蒙特卡洛树搜索（MCTS）来增强测试时的计算可扩展性。这种方法涉及将答案分解为更小的部分，以允许模型系统地探索解决方案空间。为此，我们提示模型生成与搜索所需的特定推理步骤对应的多个标签。在训练中，我们首先使用收集的提示通过由预训练价值模型引导的 MCTS 找到答案。随后，我们使用生成的问答对来训练演员模型和价值模型，迭代完善过程。

然而，当扩大训练规模时，这种方法遇到了几个挑战。首先，与棋类游戏相比，标记生成的搜索空间呈指数级增长。为了应对这一问题，我们为每个节点设置了最大扩展限制，但这可能导致模型陷入局部最优解。其次，价值模型直接影响生成质量，因为它指导搜索的每一步。训练细粒度的价值模型本质上是困难的，这使得模型难以迭代改进。虽然 AlphaGo 的核心成功依赖于训练价值模型来逐步提高其性能，但由于标记生成的复杂性，这一原则在我们的设置中难以复制。

总之，虽然 MCTS 在与预训练价值模型结合时可以在推理过程中提高性能，但通过自我搜索迭代提升模型性能仍然是一个重大挑战。

5. 结论、局限性和未来工作

在本工作中，我们分享了通过强化学习增强模型推理能力的历程。DeepSeek-R1-Zero 代表了一种纯 RL 方法，无需依赖冷启动数据，即可在各种任务上实现强大的性能。DeepSeek-R1 更加强大，利用冷启动数据和迭代 RL 微调。最终，DeepSeek-R1 在一系列任务上的性能与 OpenAI-o1-1217 相当。

我们还探索了将推理能力蒸馏到小型密集模型中。我们使用 DeepSeek-R1 作为教师模型生成了 800K 训练样本，并微调了几个小型密集模型。结果是令人鼓舞的：DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中超越了 GPT-4o 和 Claude-3.5-Sonnet，在 AIME 上取得了 28.9% 的成绩，在 MATH 上取得了 83.9% 的成绩。其他密集模型也取得了令人印象深刻的结果，显著超越了基于相同底层检查点的其他指令微调模型。

在未来，我们计划在以下方向上对 DeepSeek-R1 进行研究：

通用能力：目前，DeepSeek-R1 在函数调用、多轮、复杂角色扮演和 JSON 输出等任务上的能力仍不及 DeepSeek-V3。未来，我们计划探索如何利用长推理链来增强这些领域的能力。
语言混合：DeepSeek-R1 目前针对中文和英文进行了优化，这可能导致在处理其他语言的查询时出现语言混合问题。例如，即使查询不是英文或中文，DeepSeek-R1 也可能使用英文进行推理和响应。我们计划在未来的更新中解决这一限制。
提示工程：在评估 DeepSeek-R1 时，我们发现它对提示非常敏感。少量样本提示会持续降低其性能。因此，我们建议用户直接描述问题并使用零样本设置指定输出格式，以获得最佳结果。
软件工程任务：由于评估时间长，影响了 RL 过程的效率，大规模 RL 尚未在软件工程任务中广泛应用。因此，DeepSeek-R1 在软件工程基准测试上的表现尚未显著超越 DeepSeek-V3。未来版本将通过在软件工程数据上实施拒绝采样或在 RL 过程中纳入异步评估来解决这一问题，以提高效率。

查看全文

http://www.kler.cn/a/537351.html