DeepSeek-R1论文研读:通过强化学习激励LLM中的推理能力
DeepSeek在朋友圈,媒体,霸屏了好长时间,春节期间,研读一下论文算是时下的回应。论文原址:[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
摘要: 我们介绍了第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,无需监督微调 (SFT) 作为初步步骤,它展示了卓越的推理能力。通过 RL,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而,它遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它在 RL 之前结合了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上实现了与 OpenAI-o1-1217 相当的性能。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 和基于 Qwen 和 Llama 从 DeepSeek-R1 提炼出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。
图 1 | DeepSeek-R1 的基准性能。
1. 简介
近年来,大型语言模型 (LLM) 经历了快速迭代和发展(Anthropic,2024;Google,2024;OpenAI,2024a),与通用人工智能 (AGI) 的差距正在逐步缩小。最近,后训练已成为整个训练流程的重要组成部分。事实证明,它可以提高推理任务的准确性、与社会价值观保持一致并适应用户偏好,同时与预训练相比,所需的计算资源相对较少。在推理能力方面,OpenAI 的 o1(OpenAI,2024b)系列模型首次通过增加思维链推理过程的长度来引入推理时间扩展。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而,有效的测试时间扩展的挑战仍然是研究界的一个悬而未决的问题。先前的一些研究探索了各种方法,包括基于过程的奖励模型(Lightman 等人,2023 年;Uesato 等人,2022 年;Wang 等人,2023 年)、强化学习(Kumar 等人,2024 年)和搜索算法,例如蒙特卡洛树搜索和波束搜索Feng 等人,2024 年;Trinh 等人,2024 年;Xin 等人,2024 年)。然而,这些方法都没有达到与 OpenAI 的 o1 系列模型相当的一般推理性能。在本文中,我们迈出了使用纯强化学习 (RL) 提高语言模型推理能力的第一步。我们的目标是探索 LLM 在没有任何监督数据的情况下开发推理能力的潜力,重点关注它们通过纯 RL 过程进行自我进化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO(Shao et al.,2024)作为 RL 框架来提高模型的推理性能。在训练过程中,DeepSeek-R1-Zero 自然而然地涌现出许多强大而有趣的推理行为。经过数千个 RL 步骤后,DeepSeek-R1-Zero 在推理基准上表现出超强的性能。例如,AIME 2024 上的 pass@1 分数从 15.6% 提高到 71.0%,并且在多数投票的情况下,分数进一步提高到 86.7%,与openAI-o1-0912 的性能相当。然而,DeepSeek-R1-Zero 遇到了可读性差、语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它结合了少量冷启动数据和多阶段训练管道。具体来说,我们首先收集数千个冷启动数据来微调DeepSeek-V3-Base 模型。然后,我们执行面向推理的 RL,例如 DeepSeek-R1Zero。在 RL 过程接近收敛后,我们通过对 RL 检查点进行拒绝采样来创建新的 SFT 数据,并结合 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据,然后重新训练 DeepSeek-V3-Base 模型。 在使用新数据进行微调后,检查点将经历额外的 RL 过程,考虑到所有场景的提示。完成这些步骤后,我们获得了一个称为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 相当。我们进一步探索从 DeepSeek-R1 到更小的密集模型的提炼。使用 Qwen2.532B(Qwen,2024b)作为基础模型,DeepSeek-R1 的直接蒸馏效果优于应用RLonit。这表明,更大的基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的 Qwen 和 Llama(Dubeyet al., 2024)系列。值得注意的是,我们蒸馏后的 14B 模型的表现远胜于最先进的开源QwQ-32B-Preview(Qwen, 2024a),而蒸馏后的 32B 和 70B 模型在密集模型的推理基准上创下了新纪录。
1.1. 贡献
后训练:在基础模型上进行大规模强化学习 • 我们直接将强化学习应用于基础模型,而无需依赖监督微调 (SFT) 作为初步步骤。这种方法允许模型探索解决复杂问题的思路链 (CoT)从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长CoT等功能,标志着研究界的一个重要里程碑。值得注意的是,这是第一个公开研究,验证 LLM 的推理能力可以纯粹通过强化学习来激励,而无需 SFT。这一突破为该领域的未来进步铺平了道路。 • 我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个RL阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信,通过创建更好的模型,该流程将使行业受益。 提炼:较小的模型也可以很强大 • 我们证明,较大模型的推理模式可以提炼成较小的模型,与通过小型模型上的 RL 发现的推理模式相比,其性能更好。开源 DeepSeek-R1 及其 API 将使研究界受益,以便将来提炼出更好的小型模型。 • 使用 DeepSeek-R1 生成的推理数据,我们对研究界广泛使用的几个密集模型进行了微调。评估结果表明,提炼后的较小密集模型在基准测试中表现非常出色。 DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩,超过了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上的得分为72.6%,在 MATH-500 上的得分为 94.3%,在 LiveCodeBench 上的得分为 57.2%。这些结果明显优于之前的开源模型,可与 o1-mini 相媲美。我们向社区开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点。 1.2评估结果摘要 • 推理任务:(1)DeepSeek-R1 在 AIME2024 上取得了 79.8% 的 Pass@1 分数,略高于 OpenAI-o1-1217。在 MATH-500 上,它取得了令人印象深刻的 97.3% 的分数,与 OpenAI-o1-1217 表现相当,并明显优于其他模型。(2)在编码相关任务上,DeepSeek-R1 在代码竞赛任务中表现出专家级水平,因为它在 Codeforces 上获得了 2,029 Elo 评级,在比赛中的表现优于 96.3% 的人类参与者。对于工程相关任务,DeepSeek-R1 的表现略优于 DeepSeek-V3,这可以帮助开发人员完成现实世界的任务。 • 知识:在 MMLU、MMLU-Pro 和 GPQA Diamond等基准测试中DeepSeekR1 取得了出色的成绩,显著优于 DeepSeek-V3,MMLU 得分为 90.8%,MMLU-Pro 得分为 84.0%,GPQA Diamond 得分为 71.5%。虽然 DeepSeek-R1 在这些基准测试中的表现略低于 OpenAI-o1-1217,但它超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准 SimpleQA 上,DeepSeek-R1 的表现优于 DeepSeek-V3,展示了其处理基于事实的查询的能力。OpenAI-o1 在这个基准测试中超越了 4o,也呈现出了类似的趋势。 •其他:DeepSeek-R1 还在各种任务中表现出色,包括创意写作、一般问答、编辑、总结等。它在 AlpacaEval 2.0 上实现了令人印象深刻的87.6% 的长度控制胜率,在 ArenaHard 上实现了 92.3% 的胜率,展示了其强大的智能处理非考试导向查询的能力。此外,DeepSeek-R1 在需要长上下文理解的任务上表现出色,在长上下文基准测试中大大优于 DeepSeek-V3。
2. 方法
2.1. 概述 以前的工作严重依赖大量监督数据来提高模型性能。在本研究中,我们证明,即使不使用监督微调 (SFT) 作为冷启动,也可以通过大规模强化学习 (RL) 显著提高推理能力。此外,通过包含少量冷启动数据可以进一步提高性能。在以下部分中,我们将介绍:(1) DeepSeek-R1-Zero,它将 RL 直接应用于基础模型,而无需任何 SFT 数据;(2) DeepSeek-R1,它从使用数千个长思维链 (CoT) 示例微调的检查点开始应用 RL。3) 将推理能力从 DeepSeek-R1 提炼到小型密集模型。 2.2. DeepSeek-R1-Zero:基础模型上的强化学习 强化学习在推理任务中表现出显著的有效性,这一点可以从我们之前的研究(2024年ShaoShao 等人;2023Wang 等人发表的作品)中看出。然而,这些研究严重依赖于监督数据,而这些数据的收集非常耗时。在本节中,我们在2023年探索了 LLM 在没有任何监督数据的情况下开发推理能力的潜力,重点关注它们通过纯强化学习过程的自我进化。我们首先简要概述我们的 RL 算法,然后介绍一些令人兴奋的结果,希望这能为社区提供有价值的见解。 2.2.1.强化学习算法 组相对策略优化 为了节省强化学习的训练成本,我们采用组相对策略优化 (GRPO) (2024年ShaoShao等人),它放弃了通常与策略模型大小相同的批评模型,而是从组分数估计基线。具体来说,对于每个问题𝑞,GRPO 从旧策略𝜋𝜃𝑜𝑙𝑑 中抽取一组输出 {𝑜1,𝑜2,··· ,𝑜𝐺},然后通过最大化以下值来优化策略模型𝜋𝜃
其中 𝜀 和 𝛽 是超参数,𝐴𝑖 是优势,使用对应于每个组内输出的一组奖励 {𝑟1,𝑟2,...,𝑟𝐺} 计算得出:
------------------------------------------------------------------------------------------------------------------------------
用户与助手之间的对话。用户提出问题,助手解答。助手首先在脑海中思考推理过程,然后为用户提供答案。推理过程和答案分别包含在 <think> </think> 和 <answer> </answer> 标签中,即 <think>推理过程在这里 </think> <answer>答案在这里 </answer>。用户:提示.助手:
--------------------------------------------------------------------------------------------------------------------------------
表 1 | DeepSeek-R1-Zero 的模板。训练期间,提示将被替换为特定的推理问题。
2.2.2. 奖励建模 奖励是训练信号的来源,决定了强化学习的优化方向。为了训练 DeepSeek-R1-Zero,我们采用了基于规则的奖励系统,主要包含两种奖励: 1)准确度奖励:准确度奖励模型评估响应是否正确。例如,在结果确定的数学问题中,模型需要以指定的格式(例如,在一个框内)提供最终答案,从而实现可靠的基于规则的正确性验证。同样,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。 2)格式奖励:除了准确度奖励模型之外,我们还采用了格式奖励模型,强制模型将其思考过程置于“<think>”和“</think>”标签之间。在开发 DeepSeek-R1-Zero 时,我们没有应用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会受到奖励黑客攻击,并且重新训练奖励模型需要额外的训练资源,并且会使整个训练流程复杂化。 2.2.3. 训练模板 为了训练 DeepSeek-R1-Zero,我们首先设计一个简单的模板,指导基础模型遵守我们指定的指令。如表 1 所示,此模板 1要求 DeepSeek-R1-Zero 首先产生一个推理过程,然后产生最终答案。我们有意将约束限制在这种结构格式上,避免任何特定于内容的偏见(例如强制进行反思性推理或促进特定的问题解决策略),以确保我们能够准确观察模型在 RL 过程中的自然进展。 2.2.4. DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻 DeepSeek-R1-Zero 的性能图 2 描绘了 DeepSeekR1-Zero 在整个 RL 训练过程中在 AIME 2024 基准上的性能轨迹。如图所示,随着 RL 训练的进展,DeepSeek-R1-Zero 的性能稳步提升。值得注意的是,AIME 2024 上的平均 pass@1 分数显著提高,从最初的 15.6% 跃升至令人印象深刻的 71.0%,达到了与 OpenAI-o1-0912 相当的性能水平。这一显著改进凸显了我们的 RL 算法在随时间优化模型性能方面的有效性。 表2提供了 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各种推理相关基准测试中的比较分析。研究结果表明,RL 可以满足任何监督微调数据的需求。这是一项值得注意的成就,因为它强调了该模型仅通过 RL 就能有效学习和概括的能力。此外,DeepSeek R1-Zero 的性能可以通过应用多数投票进一步增强。例如,当在 AIME 基准测试中使用多数投票时,DeepSeek-R1-Zero 的性能从 71.0% 提升到 86.7%,从而超过了 OpenAI-o1-0912 的性能。DeepSeek-R1-Zero 能够在有或没有多数投票的情况下实现如此具有竞争力的性能,凸显了其强大的基础能力以及在推理任务中进一步发展的潜力。 DeepSeek-R1-Zero 的自我进化过程 DeepSeek 的自我进化过程。
表 2 | DeepSeek-R1-Zero 与 OpenAI o1 模型在推理相关基准上的比较。
图 2 | DeepSeek-R1-Zero 在训练期间的 AIME 准确率。对于每个问题,我们抽样 16 个答案并计算总体平均准确率,以确保评估的稳定性。
DeepSeek-R1-Zero 的自我进化过程很好地展示了RL如何驱动模型自主提高其推理能力。通过直接从基础模型启动RL,我们可以密切监控模型的进展,而不受监督微调阶段的影响。这种方法可以清楚地看到模型如何随时间演变,特别是在处理复杂推理任务的能力方面。 如图 3 所示,DeepSeek-R1-Zero 的思考时间在整个训练过程中持续改善。这种改善不是外部调整的结果,而是模型内部的内在发展。DeepSeek-R1-Zero 通过利用扩展的测试时间计算自然获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和改进其思维过程。这种自我进化最引人注目的方面之一是随着测试时间计算的增加,出现了复杂的行为。诸如反思(模型重新审视和重新评估其先前的步骤)和探索解决问题的替代方法等行为自发出现。这些行为不是明确编程的,而是模型与强化学习环境交互的结果。这种自发发展显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够以更高的效率和准确性应对更具挑战性的任务。
图 3 | DeepSeek-R1-Zero 在强化学习过程中对训练集的平均响应长度。DeepSeek-R1-Zero 自然学会了用更多的思考时间来解决推理任务。
DeepSeek-R的顿悟时刻
在DeepSeek-R1-Zero训练过程中观察到的一个特别有趣的现象是“顿悟时刻”的出现。如表 3 所示,这一时刻发生在模型的中间版本中。在此阶段,DeepSeek-R1-Zero 通过重新评估其初始方法,学会为问题分配更多的思考时间。这种行为不仅证明了模型不断增强的推理能力,而且还是强化学习如何导致意想不到的复杂结果的一个引人入胜的例子。这一时刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它强调了强化学习的力量和美妙之处:我们不是明确地教模型如何解决问题,而是简单地为它提供正确的激励,它就会自主地开发出先进的解决问题的策略。 “顿悟时刻”有力地提醒了我们,强化学习有潜力开启人工智能系统的新智能水平,为未来更加自主和自适应的模型铺平道路。
表 3 | DeepSeek-R1-Zero 中级版本的一个有趣的“顿悟时刻”。模型学会了用拟人化的语气重新思考。这对我们来说也是一个顿悟时刻,让我们见证了强化学习的力量和美丽。
DeepSeek-R1-Zero 的缺点
尽管 DeepSeek-R1-Zero 表现出强大的推理能力,并自主开发出意想不到的强大推理行为,但它仍面临一些问题。例如,DeepSeek-R1-Zero 面临着可读性差和语言混合等挑战。为了使推理过程更具可读性并与开放社区共享,我们开发了DeepSeek-R1,这是一种利用强化学习和人性化冷启动数据的方法。 2.3. DeepSeek-R1:冷启动强化学习 受 DeepSeek-R1-Zero 的良好结果启发,自然而然地出现了两个问题:1)通过结合少量高质量数据作为冷启动,推理性能是否可以进一步提高或收敛速度加快?2)我们如何训练一个用户友好的模型,它不仅可以产生清晰连贯的思维链 (CoT),而且还能展示出强大的通用能力?为了解决这些问题,我们设计了一个管道来训deepSeek-R1。该管道由四个阶段组成,概述如下。 2.3.1. 冷启动 与 DeepSeek-R1-Zero 不同,为了防止基础模型在RL训练的早期不稳定冷启动阶段,对于DeepSeek-R1,我们构建并收集少量长CoT数据,以作为初始RL参与者对模型进行微调。为了收集此类数据,我们探索了几种方法:使用具有长CoT的少样本提示作为示例,直接提示模型生成带有反思和验证的详细答案,以可读格式收集 DeepSeek-R1Zero输出,并通过人工注释者的后处理来完善结果。在这项工作中,我们收集了数千个冷启动数据来微调DeepSeek-V3-Base 作为RL的起点。与DeepSeek-R1-Zero 相比,冷启动数据的优势包括: • 可读性:DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏 markdown 格式来为用户突出显示答案。相比之下,在为 DeepSeek-R1 创建冷启动数据时,我们设计了一个可读模式,在每个响应的末尾包含一个摘要,并过滤掉不适合阅读的响应。在这里,我们将输出格式定义为 |special_token|<reasoning_process>|special_token|<summary>,其中推理过程是查询的 CoT,摘要用于总结推理结果。 • 潜力:通过精心设计具有人类先验知识的冷启动数据模式,我们观察到与 DeepSeek-R1-Zero 相比更好的性能。我们相信迭代训练是推理模型的更好方法。 2.3.2 面向推理的强化学习 在冷启动数据上对 DeepSeek-V3-Base 进行微调后,我们应用与DeepSeek-R1-Zero 相同的大规模强化学习训练流程。此阶段侧重于增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及定义明确的问题和明确的解决方案。在训练过程中,我们观察到CoT经常表现出语言混合,特别是当 RL 提示涉及多种语言时。为了缓解语言混合的问题,我们在RL训练期间引入了语言一致性奖励,该奖励计算为CoT中目标语言单词的比例。虽然消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类的偏好,使其更具可读性。最后,我们将推理任务的准确性和语言一致性的奖励直接相加以形成最终奖励。然后,我们将RL 训练应用于微调后的模型,直到它在推理任务上实现收敛。 2.3.3. 拒绝抽样和监督微调 当面向推理的RL收敛时,我们利用生成的检查点为后续轮次收集SFT(监督微调)数据。与主要关注推理的初始冷启动数据不同,此阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务方面的能力。具体来说,我们按照如下所述生成数据并微调模型。 推理数据 我们通过从上述 RL 训练的检查点执行拒绝采样来整理推理提示并生成推理轨迹。在上一阶段,我们仅包含可以使用基于规则的奖励进行评估的数据。但是,在此阶段,我们通过合并其他数据来扩展数据集,其中一些数据使用生成奖励模型,将基本事实和模型预测输入 DeepSeek-V3 进行判断。此外,由于模型输出有时混乱且难以阅读,我们过滤掉了混合语言、长段落和代码块的思路链。对于每个提示,我们抽样多个响应并仅保留正确的响应。总共,我们收集了大约 600k 个与推理相关的训练样本。 非推理数据 对于非推理数据,例如写作、事实问答、自我认知和翻译,我们采用 DeepSeek-V3 流程并重用 DeepSeek-V3 的 SFT 数据集的部分内容。对于某些非推理任务,我们调用 DeepSeek-V3 来生成潜在的思路链,然后再通过提示回答问题。但是,对于更简单的查询,例如“你好”,我们不提供 CoT 作为响应。最后,我们总共收集了大约 200k 个与推理无关的训练样本。我们使用上述约 800k 个样本的精选数据集对 DeepSeek-V3-Base 进行了两个时期的微调。 2.3.4. 重新强化学习适用于所有场景 为了进一步使模型与人类偏好保持一致,我们实施了二级强化学习阶段,旨在提高模型的有用性和无害性,同时完善其推理能力。具体来说,我们使用奖励信号和各种提示分布的组合来训练模型。对于推理数据,我们遵循 DeepSeek-R1-Zero 中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据,我们采用奖励模型来捕捉复杂和细微场景中的人类偏好。我们以 DeepSeek-V3 管道为基础,采用类似的偏好对和训练提示分布。为了提高有用性,我们只关注最终总结,确保评估强调响应对用户的实用性和相关性,同时最大限度地减少对底层推理过程的干扰。对于无害性,我们评估模型的整个响应,包括推理过程和摘要,以识别和减轻生成过程中可能出现的任何潜在风险、偏见或有害内容。最终,奖励信号和多样化数据分布的整合使我们能够训练出一个在推理方面表现出色的模型,同时优先考虑有用性和无害性。 2.4. 蒸馏:赋予小型模型推理能力 为了使更高效的小型模型具备像 DeepSeek-R1 一样的推理能力,我们直接使用 DeepSeek-R1 整理的 800k 个样本对 Qwen (Qwen, 2024b) 和 Llama (AI@Meta, 2024) 等开源模型进行了微调,详情见 §2.3.3。我们的研究结果表明,这种简单的提炼方法显著增强了小型模型的推理能力。我们在这里使用的基础模型是 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5 14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为它的推理能力略优于 Llama-3.1。对于蒸馏模型,我们仅应用 SFT,而不包含 RL 阶段,尽管引入 RL 可以大大提高模型性能。我们的主要目标是展示蒸馏技术的有效性,将 RL阶段的探索留给更广泛的研究社区。 3. 实验 1)基准评估 MMLU 上的模型(Hendrycks et al., 2020)、MMLU-Redux (Gema2020Gema等人,2024)、MMLU-Pro(Wang2024Wang 等人,2024)、C-Eval(Huang2024Huang 等人,2023)和 CMMLU(Li2023Li 等人,2023)、IFEval(Zhou2023Zhou 等人,2023)、FRAMES(Krishna2023Krishna 等人,2024)、GPQA Diamond(Rein2024Rein 等人,2023), SimpleQA (OpenAI,2023OpenAI2024c), C-SimpleQA (He2024cHe et al.al.,2024), SWE-Bench Verified (OpenAI,2024OpenAI2024d), Aider2024d1,
LiveCodeBench (Jain1Jain et al.al.,2024) (2024-08– 2025-01), Codeforces20242, 中国国家高级计算机学院学校数学奥林匹克竞赛 (CNMO 2024)3 和美国数学邀请赛 2024 (AIME 2024) (MAA,23MAA2024)。除了标准基准之外,我们还使用 LLM 作为评判者,在开放式生成任务上评估我们的模型。具体来说,我们遵循 AlpacaEval 2.0(Dubois2024Dubois et al.al.,2024)和 Arena-Hard(Li2024Liet al.al.,2024)的原始配置,利用 GPT-4-Turbo-1106 作为成对比较的判断者。在这里,我们只将最终摘要提供给评估,以避免长度偏差。对于提炼模型,我们报告了 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 。 2)评估提示 2024评估提示遵循 DeepSeek-V3 中的设置,使用简单评估框架中的提示来评估标准基准,例如 MMLU、DROP、GPQADiamond和SimpleQA。对于 MMLU-Redux,我们在 2024zero-shot 设置中采用 Zero-Eval 提示格式 (Lin,Lin2024)。对于 MMLU-Pro、C-Eval 和 CLUE-WSC,由于原始提示是少样本的,我们稍微修改提示为零样本设置。少样本中的CoT可能会损害 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议,使用其创建者提供的默认提示。对于代码和数学基准,HumanEval- Mul数据集涵盖八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash)。使用 CoT 格式评估 LiveCodeBench 上的模型性能,数据收集于 2024 年 8 月至 2025 年 1 月之间。使用来自 10 个 Div.2 竞赛的问题以及专家制作的测试用例来评估 Codeforces 数据集,然后计算竞争对手的预期评分和百分比计算得出。通过无代理框架 (XiaXia et al.al.,2024) 获得 SWE-Bench 验证结果。AIDER 相关2024基准测试使用“diff”格式进行测量。DeepSeek-R1 输出上限为32,768 个 token对于每个基准。 3)基线 我们针对几个强大的基线进行了全面的评估,包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 具有挑战性,我们根据官方报告报告其性能。对于提炼模型,我们还比较了开源模型QwQ-32B-Preview (Qwen,Qwen2024a)。 4)评估设置 我们将模型的最大生成长度设置为 32,768 个 token。我们发现,使用贪婪解码来评估长输出推理模型会导致重复率更高,并且不同检查点之间的差异很大。因此,我们默认使用 pass@𝑘 评估(Chen 等人,2021 年)并使用非零温度报告 pass@1。具体来说,我们使用 0.6 的采样温度和 0.95 的 top-𝑝 值来为每个问题生成 𝑘响应(通常在 4 到 64 之间,具体取决于测试集大小)。然后计算 Pass@1为
其中 pi 表示第 i 个响应的正确性。此方法提供了更可靠的性能估计。对于 AlME 2024,我们还使用 64 个样本报告了共识(多数投票)结果(Wanget al.,2022),表示为 cons@64。 3.1 DeepSeek-R1评估
表4|DeepSeek-R1与其他代表模型的比较。
对于面向教育的知识基准测试(如MMLU、MMLU-Pro和GPQA Diamond),DeepSeek-R1与DeepSeek-V3相比表现出色。这种改进主要归因于STEM相关问题的准确性提高,其中通过大规模强化学习可以实现显着的收益。此外,DeepSeek-R1在FRAMES以及依赖于上下文的QA任务上表现出色,展示了其强大的文档分析能力。这凸显了推理模型在人工智能驱动的搜索和数据分析任务中的潜力。在事实基准SimpleQA中,DeepSeek-R1 的表现优于 DeepSeek-V3,证明了其处理基于事实的查询的能力。在这项基准测试中,我们也观察到了类似的趋势,OpenAI-o1 超越了 GPT-4。然而,DeepSeek-R1 在中文 SimpleQA 基准测试中的表现不如 DeepSeek-V3,主要是因为它倾向于在安全强化学习后拒绝回答某些查询。如果没有安全强化学习,DeepSeek-R1 的准确率可以达到 70% 以上。 DeepSeek-R1 在 IF-Eval 上也取得了令人印象深刻的结果,IF-Eval 是一个旨在评估模型遵循格式指令能力的基准测试。这些改进可以与在监督微调 (SFT) 和 RL 训练
的最后阶段纳入指令遵循数据联系起来。此外,在Alpaca Eval2.0 和 ArenaHard上也观察到了出色的表现,表明 DeepSeek-R1 在写作任务和开放域问答方面的优势。其显著优于DeepSeek-V3的表现凸显了大规模强化学习的泛化优势,这不仅增强了推理能力,而且还提高了跨不同领域的性能。此外,DeepSeek-R1生成的摘要长度简洁,在ArenaHard上平均为689个token,在AlpacaEval2.0上平均为2,218个字符。这表明DeepSeek-R1避免在基于GPT的评估中引入长度偏差,进一步巩固了其在多项任务中的稳健性。在数学任务上,DeepSeek-R1 表现出与OpenAI-o1-1217 相当的性能,远远超过其他模型。在编码算法任务(例如 LiveCodeBench 和 Codeforces)上也观察到了类似的趋势,在这些基准测试中,以推理为重点的模型占主导地位。在面向工程的编码任务上,OpenAI-o1-1217 在 Aider 上的表现优于 DeepSeek-R1,但在 SWE Verified上实现了可比的性能。我们相信 DeepSeek-R1 的工程性能将在下一版本中得到改善,因为相关的 RL 训练数据的数量目前仍然非常有限。
3.2 蒸馏模型评估
表5|DeepSeek-R1 Distilled模型与其他可比模型在推理相关基准上的比较。
如表 5 所示,只需对 DeepSeek-R1 的输出进行简单提炼,即可使高效的 DeepSeek R1-7B(即 DeepSeek-R1-Distill-Qwen-7B,下文中也简称为该模型)全面超越 GPT-4o-0513 等非推理模型。DeepSeek-R1-14B 超越了 QwQ-32BPreview 评估指标,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 显著超过了大多数基准。这些结果证明了提炼的强大潜力。此外,我们发现将 RL 应用于这些提炼模型可产生显著的进一步收益。我们相信这值得进一步探索,因此仅展示这些结果简单的SFT蒸馏模型在这里。
4.讨论
4.1.提炼与强化学习 在第 3.2 节中,我们可以看到,通过对 DeepSeek-R1 进行提炼,小模型可以取得令人印象深刻的结果。然而,还有一个问题:如果不进行提炼,该模型能否通过本文讨论的大规模 RL 训练实现相当的性能?
为了回答这个问题,我们使用数学、代码和 STEM 数据对 Qwen-32B-Base 进行大规模 RL 训练,训练超过 10K 步,得到 DeepSeek-R1-Zero-Qwen-32B。表 6 所示的实验结果表明,32Bbase 模型经过大规模 RL 训练后,性能与 QwQ-32B-Preview 相当。然而,从 DeepSeek-R1 提炼而来的 DeepSeek-R1 Distill-Qwen-32B 在所有基准测试中的表现都明显优于DeepSeek-R1-Zero-Qwen-32B。
表 6| 推理相关基准上的提炼模型和 RL 模型的比较。
因此,我们可以得出两个结论:首先,将更强大的模型提炼成更小的模型可以产生出色的结果,而本文中提到的依赖于大规模 RL 的小模型需要巨大的计算能力,甚至可能无法达到提炼的性能。其次,虽然提炼策略既经济又有效,但要超越智能的界限可能仍需要更强大的基础模型和更大规模的强化学习。
4.2. 不成功的尝试
在开发 DeepSeek-R1 的早期阶段,我们也遇到了失败和挫折。我们在这里分享我们的失败经验以提供见解,但这并不意味着这些方法无法开发有效的推理模型。 过程奖励模型 (PRM) PRM 是一种合理的方法,可以引导模型朝着更好的方法解决推理任务(Lightman 等人,2023 年;Uesato 等人,2022 年;Wang 等人,2023 年)。然而,在实践中,PRM 有三个主要限制可能会阻碍其最终成功。首先,在一般推理中明确定义细粒度步骤具有挑战性。其次,确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动注释可能无法产生令人满意的结果,而手动注释不利于扩大规模。第三,一旦引入基于模型的 PRM,就不可避免地会导致奖励黑客攻击 (Gao et al., 2022),而重新训练奖励模型需要额外的训练资源,并使整个训练流程复杂化。总之,虽然 PRM 表现出良好的重新排序模型生成的前 N 个响应或协助引导搜索的能力 (Snell et al., 2024),但与我们实验中大规模强化学习过程中引入的额外计算开销相比,它的优势有限。 MonteCarloTreeSearch(MCTS) 受 AlphaGo(Silveretal.,2017b) 和 AlphaZero(Silveret al., 2017a) 的启发,我们探索使用蒙特卡洛树搜索 (MCTS) 来增强测试时计算可扩展性。这种方法涉及将答案分解成更小的部分,以允许模型系统地探索解决方案空间。为了实现这一点,我们提示模型生成与搜索所需的特定推理步骤相对应的多个标签。对于训练,我们首先使用收集到的提示通过由预先训练的价值模型指导的 MCTS 来寻找答案。随后,我们使用生成的问答对来训练参与者模型和价值模型,迭代地完善该过程。然而,这种方法在扩大训练规模时遇到了几个挑战。首先与国际象棋不同,国际象棋的搜索空间相对明确,而 token 生成则呈现出指数级的搜索空间。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优。其次,价值模型直接影响生成的质量,因为它指导搜索过程的每一步。训练细粒度的价值模型本质上是困难的,这使得模型迭代改进具有挑战性。虽然 AlphaGo 的核心成功依赖于训练价值模型来逐步提高其性能,但由于 token 生成的复杂性,这一原则在我们的设置中很难复制。 总之,虽然 MCTS 与预先训练的价值模型结合使用时可以提高推理过程中的性能,但通过自我搜索迭代提升模型性能仍然是一个重大挑战。
5. 结论、局限性和未来工作
在这项工作中,我们分享了通过强化学习增强模型推理能力的历程。DeepSeek-R1-Zero 代表了一种纯强化学习方法,不依赖冷启动数据,在各种任务中都取得了出色的性能。DeepSeek-R1 功能更强大,它利用冷启动数据和迭代强化学习微调。最终,DeepSeek-R1 在一系列任务上实现了与 OpenAI-o1-1217 相当的性能。
我们进一步探索将推理能力提炼到小型密集模型。我们使用 DeepSeek-R1 作为教师模型来生成 800K 个训练样本,并对几个小型密集模型进行微调。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中的表现优于 GPT-4o 和 Claude-3.5-Sonnet,在 AIME 上为 28.9%,在 MATH 上为 83.9%。其他密集模型也取得了令人印象深刻的结果,在相同的底层检查点上,它们的表现明显优于其他指令调整模型。未来,我们计划在 DeepSeek-R1 的以下方向上进行研究。
• 通用能力:目前,DeepSeek-R1 在函数调用、多轮、复杂角色扮演和 JSON 输出等任务方面的能力不如 DeepSeek-V3。展望未来,我们计划探索CoT可以发挥多大作用来增强这些领域的任务。
• 语言混合:DeepSeek-R1 目前针对中文和英文进行了优化,这可能会导致在处理其他语言的查询时出现语言混合问题。例如,即使查询使用的是英文或中文以外的语言,DeepSeek-R1 也可能使用英文进行推理和响应。我们的目标是在未来的更新中解决这一限制。
• 提示工程:在评估 DeepSeek-R1 时,我们观察到它对提示很敏感。少量提示会持续降低其性能。因此,我们建议用户直接描述问题并使用零样本设置指定输出格式以获得最佳结果。
• 软件工程任务:由于评估时间较长,影响了 RL 过程的效率,大规模 RL 尚未广泛应用于软件工程任务。因此,DeepSeek-R1 在软件工程基准测试中并未显示出比 DeepSeek-V3 有巨大改进。未来版本将通过对软件工程数据实施拒绝采样或在 RL 过程中纳入异步评估来解决这个问题,以提高效率。