LLM(十三)| DeepSeek-R1论文全文翻译
论文题目:《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》
论文地址:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
以下是论文的翻译内容:
摘要
我们介绍第一代推理模型:DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个完全通过大规模强化学习(RL)训练而无需监督微调(SFT)作为初步步骤的模型,展示了显著的推理能力。通过RL,DeepSeek-R1-Zero 自然地展现出许多强大且有趣的推理行为。然而,它也遇到了一些挑战,如可读性差和语言混合问题。为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它在RL之前引入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现与OpenAI-o1-1217相当。为了支持研究社区,我们将DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama从DeepSeek-R1提炼出的六个密集模型(1.5B、7B、8B、14B、32B、70B)开源。
第一章 引言
近年来,大型语言模型(LLMs)经历了快速迭代和发展(Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐渐缩小了与人工通用智能(AGI)之间的差距。
最近,后训练已经成为完整训练管道的重要组成部分。研究表明,这种方法可以在推理任务上提高准确性,符合社会价值观,并适应用户偏好,同时相对于预训练所需的计算资源相对较少。在推理能力方面,OpenAI的o1系列模型首先通过增加链式思考(Chain-of-Thought, CoT)过程的长度引入了推断时缩放方法。这种方法在各种推理任务中取得了显著进展,例如数学、编程和科学推理。然而,有效测试时缩放仍然是研究界的一个开放问题。先前的工作探索了多种方法,包括基于过程的奖励模型(Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023)、强化学习(Kumar et al., 2024)以及搜索算法如蒙特卡洛树搜索和束搜索(Feng et al., 2024; Trinh et al., 2024; Xin et al., 2024)。然而,这些方法均未达到与OpenAI的o1系列模型相媲美的普遍推理性能。
在本文中,我们首次尝试使用纯强化学习(RL)来改进语言模型的推理能力。我们的目标是探索LLMs在没有任何监督数据的情况下发展推理能力的潜力,专注于其通过纯RL过程的自我进化。具体来说,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao et al., 2024)作为RL框架,以提高模型在推理中的表现。在训练过程中,DeepSeek-R1-Zero自然地展现了许多强大且有趣的推理行为。经过数千次RL步骤后,DeepSeek-R1-Zero在推理基准测试中表现出色。例如,在AIME 2024上的pass@1得分从15.6%提高到71.0%,并且通过多数投票,得分进一步提高到86.7%,达到了与OpenAI-o1-0912相当的水平。
然而,DeepSeek-R1-Zero面临的问题包括可读性差和语言混合。为了解决这些问题并进一步增强推理性能,我们引入了DeepSeek-R1,它包含少量冷启动数据和多阶段训练管道。具体来说,我们首先收集了数千条冷启动数据对DeepSeek-V3-Base模型进行微调。然后,我们像DeepSeek-R1-Zero一样执行面向推理的RL。接近RL过程收敛时,我们通过拒绝采样创建新的SFT数据,并结合来自DeepSeek-V3领域的监督数据,如写作、事实问答和自我认知,然后重新训练DeepSeek-V3-Base模型。经过新数据的微调后,检查点经历了一个额外的RL过程,考虑到了所有场景的提示。经过这些步骤,我们得到了称为DeepSeek-R1的检查点,在推理基准测试中与OpenAI-o1-1217的表现相当。
我们进一步探索了从DeepSeek-R1提炼到较小密集模型的方法。使用Qwen2.5-32B(Qwen, 2024b)作为基础模型,直接从DeepSeek-R1提炼的结果优于在其上应用RL。这表明较大的基础模型发现的推理模式对于提高推理能力至关重要。我们将开源的DeepSeek-R1及其API提供给研究社区,以便将来提炼更好的小型模型。
1.1 贡献
后训练:大规模强化学习在基础模型上的应用
-
我们直接将RL应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法允许模型探索解决复杂问题的链式思考(CoT),从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长链式思考的能力,标志着研究界的重大里程碑。值得注意的是,这是第一个公开研究,验证了通过RL而非SFT可以激励LLM的推理能力。这一突破为未来的发展铺平了道路。
-
我们介绍了开发DeepSeek-R1的流程。该流程包含两个旨在发现改进推理模式并与人类偏好保持一致的RL阶段,以及两个作为模型推理和非推理能力种子的SFT阶段。我们相信该流程将有助于行业创造更好的模型。
知识蒸馏:小型模型也可以很强大
-
我们证明了较大模型的推理模式可以被提炼到小型模型中,结果比在小型模型上通过RL发现的推理模式更好。开源的DeepSeek-R1及其API将帮助研究社区在未来提炼出更好的小型模型。
-
使用由DeepSeek-R1生成的推理数据,我们对研究界广泛使用的多个密集模型进行了微调。评估结果显示,提炼后的较小密集模型在基准测试中表现出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上获得了55.5%的成绩,超过了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分为72.6%,在MATH-500上得分为94.3%,在LiveCodeBench上得分为57.2%。这些结果显著优于之前的开源模型,并且与o1-mini相当。我们将基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B检查点开源给社区。
1.2 评估结果总结
推理任务:
- DeepSeek-R1在AIME 2024上的pass@1得分为79.8%,略高于OpenAI-o1-1217。在MATH-500上,它取得了令人印象深刻的97.3%的得分,表现与OpenAI-o1-1217相当,并显著优于其他模型。
- 编程相关任务:DeepSeek-R1在编程竞赛任务中展示了专家级水平,在Codeforces上获得了2029的Elo评分,超过了96.3%的人类参赛者。对于工程相关的任务,DeepSeek-R1的表现略优于DeepSeek-V3,这有助于开发人员在实际工作中解决问题。
知识:
基准测试:在MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek-R1取得了卓越的成绩,显著优于DeepSeek-V3,分别在MMLU上达到90.8%,在MMLU-Pro上达到84.0%,在GPQA Diamond上达到71.5%。虽然其在这些基准测试中的表现略低于OpenAI-o1-1217,但DeepSeek-R1超越了其他闭源模型,展示了其在教育任务中的竞争力。在事实性基准SimpleQA上,DeepSeek-R1也优于DeepSeek-V3,展示了其处理基于事实查询的能力。类似的趋势也出现在OpenAI-o1上,其在这项基准测试中超过4o。
其他方面:
广泛任务:DeepSeek-R1还在各种任务中表现出色,包括创意写作、通用问答、编辑、摘要等。它在AlpacaEval 2.0上的长度控制胜率为87.6%,在ArenaHard上的胜率为92.3%,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1在需要长上下文理解的任务中表现出色,大幅优于DeepSeek-V3在长上下文基准测试中的表现。
2. 方法
2.1 概述
之前的工作主要依赖大量的监督数据来提升模型性能。在本研究中,我们展示了通过大规模强化学习(RL),即使没有使用监督微调(SFT)作为冷启动,也可以显著提高推理能力。此外,通过引入少量冷启动数据可以进一步增强性能。在以下部分,我们将介绍:(1)直接应用于基础模型而不使用任何SFT数据的DeepSeek-R1-Zero;(2)从经过数千个长链式思考(CoT)示例微调的检查点开始应用RL的DeepSeek-R1;以及(3)将DeepSeek-R1的推理能力提炼到小型密集模型。
2.2 DeepSeek-R1-Zero:基于基础模型的强化学习
强化学习在推理任务中表现出显著的有效性,如我们之前的工作所示(Shao et al., 2024; Wang et al., 2023)。然而,这些工作严重依赖于监督数据,这些数据收集起来非常耗时。在本节中,我们探索了LLMs在没有任何监督数据的情况下发展推理能力的潜力,专注于其通过纯强化学习过程的自我进化。我们首先简要概述我们的RL算法,然后展示一些令人兴奋的结果,并希望这能为社区提供有价值的见解。
2.2.1 强化学习算法
为了节省RL的训练成本,我们采用了组相对策略优化(GRPO)(Shao et al., 2024),该方法放弃了通常与策略模型相同大小的批评模型,并通过组分数估计基线。具体来说,对于每个问题q,GRPO从旧策略πθold中采样一组输出{o1, o2, · · ·, oG},然后通过最大化以下目标优化策略模型πθ:
其中ε和β是超参数,Ai是优势函数,根据每组输出内的奖励{r1, r2,..., rG}计算得出:
2.2.2 奖励建模
奖励是训练信号的来源,决定了RL的优化方向。为了训练DeepSeek-R1-Zero,我们采用了一个基于规则的奖励系统,主要包括两种类型的奖励:
- 准确性奖励
:准确性奖励模型评估响应是否正确。例如,在具有确定结果的数学问题中,要求模型以指定格式(例如,在框内)提供最终答案,从而实现可靠且基于规则的正确性验证。同样地,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
- 格式奖励
:除了准确性奖励模型外,我们还使用了格式奖励模型,强制模型将其思考过程置于‘<think>’和‘</think>’标签之间。
我们没有应用结果或过程神经奖励模型来开发DeepSeek-R1-Zero,因为我们发现大规模强化学习过程中神经奖励模型可能存在奖励黑客问题,重新训练奖励模型需要额外的训练资源,并使整个训练管道复杂化。
2.2.3 训练模板
为了训练DeepSeek-R1-Zero,我们首先设计了一个简单的模板,指导基础模型遵循我们的指定指令。如表1所示,此模板要求DeepSeek-R1-Zero首先生成一个推理过程,然后提供最终答案。我们有意限制这些结构化格式的约束,避免任何特定内容的偏见——例如,要求反思性推理或促进特定的问题解决策略——以确保我们可以准确观察模型在RL过程中自然进展的情况。
2.2.4 性能、自我进化过程和“啊哈”时刻
DeepSeek-R1-Zero的性能
图2显示了在整个RL训练过程中,DeepSeek-R1-Zero在AIME 2024基准上的性能轨迹。如图所示,随着RL训练的推进,DeepSeek-R1-Zero显示出稳定且一致的性能提升。值得注意的是,AIME 2024上的平均pass@1得分显著增加,从最初的15.6%跃升至令人印象深刻的71.0%,达到了与OpenAI-o1-0912相当的水平。这一显著改进凸显了我们的RL算法在随时间优化模型性能方面的有效性。
表2提供了DeepSeek-R1-Zero与OpenAI的o1-0912模型在各种推理相关基准上的比较分析。结果表明,RL使DeepSeek-R1-Zero能够在无需任何监督微调数据的情况下获得强大的推理能力。这是一个值得注意的成就,因为它强调了模型仅通过RL就能有效学习和泛化的强大能力。此外,通过多数投票,DeepSeek-R1-Zero的性能可以进一步增强。例如,在AIME基准上应用多数投票时,DeepSeek-R1-Zero的性能从71.0%提升到86.7%,超过了OpenAI-o1-0912的性能。DeepSeek-R1-Zero能够实现如此竞争性的性能,无论是否使用多数投票,都突显了其在推理任务中的强大基础能力及其进一步发展的潜力。
DeepSeek-R1-Zero的自我进化过程
DeepSeek-R1-Zero的自我进化过程是一个引人入胜的示范,展示了RL如何驱动模型自主改进其推理能力。通过直接从基础模型启动RL,我们可以密切监控模型的进步,而不受监督微调阶段的影响。这种方法提供了清晰的视角,展示了模型在处理复杂推理任务方面如何随着时间的推移而演变。
如图3所示,在整个训练过程中,DeepSeek-R1-Zero的思考时间显示出持续的改进。这种改进并非外部调整的结果,而是模型内部发展的结果。DeepSeek-R1-Zero自然地获得了通过扩展测试时间计算解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,允许模型更深入地探索和精炼其思维过程。
这种自我进化的最显著方面之一是随着测试时间计算的增加而出现的复杂行为。行为如反思——即模型回顾并重新评估其先前步骤——以及探索解决问题的替代方法自发产生。这些行为并未明确编程,而是由于模型与强化学习环境的互动而自发产生的。这种自发的发展显著增强了DeepSeek-R1-Zero的推理能力,使其能够以更高的效率和准确性应对更具挑战性的任务。
DeepSeek-R1-Zero的“啊哈”时刻
在DeepSeek-R1-Zero的训练过程中观察到的一个特别有趣的现像是“啊哈”时刻的发生。如表3所示,这个时刻发生在模型的一个中间版本中。在此阶段,DeepSeek-R1-Zero学会了通过重新评估其初始方法来分配更多的时间给一个问题。这种行为不仅是模型推理能力增长的证明,也是强化学习如何导致意外和复杂结果的引人注目的例子。
这个时刻不仅对模型而言是一个“啊哈”时刻,对观察其行为的研究人员也是如此。它强调了强化学习的力量和美丽:与其明确教导模型如何解决问题,我们只需为其提供正确的激励,它就会自主发展先进的问题解决策略。“啊哈”时刻有力地提醒了我们,RL有潜力解锁人工系统中的新智能水平,为未来更加自主和适应性强的模型铺平道路。
DeepSeek-R1-Zero的缺点
尽管DeepSeek-R1-Zero展示了强大的推理能力和自发发展出意想不到的强大推理行为,但它也面临几个问题。例如,DeepSeek-R1-Zero在可读性和语言混合方面遇到了挑战。为了使推理过程更具可读性并与开放社区共享,我们探索了DeepSeek-R1,这是一种利用带有友好冷启动数据的RL的方法。
2.3 DeepSeek-R1:带冷启动的强化学习
受到DeepSeek-R1-Zero有希望的结果的启发,两个自然的问题出现了:1)通过引入少量高质量的数据作为冷启动,能否进一步提高推理性能或加速收敛?2)如何训练一个用户友好的模型,该模型不仅能生成清晰连贯的链式思考(CoT),还能展示强大的通用能力?为了解决这些问题,我们设计了一个训练DeepSeek-R1的流程,包括以下四个阶段:
2.3.1 冷启动
与DeepSeek-R1-Zero不同,为了避免RL训练早期不稳定的冷启动阶段,对于DeepSeek-R1,我们构建并收集少量长CoT数据对模型进行微调,作为RL演员的起点。为了收集这些数据,我们探索了几种方法:使用少样本提示,以长CoT为例;直接提示模型生成包含反思和验证的详细答案;收集DeepSeek-R1-Zero输出的可读格式,并通过人类注释者进行后处理细化。
在这项工作中,我们收集了数千条冷启动数据对DeepSeek-V3-Base进行微调,作为RL的起点。与DeepSeek-R1-Zero相比,冷启动数据的优势包括:
- 可读性
:DeepSeek-R1-Zero的一个关键限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏Markdown格式以突出显示用户的答案。相比之下,在创建DeepSeek-R1的冷启动数据时,我们设计了一个可读模式,在每个响应的末尾包含摘要,并过滤掉不友好的读者响应。这里,我们将输出格式定义为 |特殊令牌|<推理过程>|特殊令牌|<摘要>,其中推理过程是查询的CoT,摘要用于总结推理结果。
- 潜力
:通过精心设计带有先验知识的冷启动数据模式,我们观察到相比于DeepSeek-R1-Zero有更好的表现。我们认为迭代训练是推理模型更好的方式。
2.3.2 面向推理的强化学习
在冷启动数据对DeepSeek-V3-Base进行微调后,我们应用了与DeepSeek-R1-Zero相同的大型强化学习训练过程。该阶段的重点是增强模型在推理密集型任务中的能力,特别是涉及明确定义的问题和清晰解决方案的任务,如编程、数学、科学和逻辑推理。在训练过程中,我们注意到CoT经常出现语言混合,尤其是在RL提示涉及多种语言时。为了缓解语言混合的问题,我们在RL训练期间引入了语言一致性奖励,计算为CoT中目标语言单词的比例。虽然消融实验表明这种对齐会导致模型性能轻微下降,但这种奖励符合人类偏好,使其更具可读性。最后,我们将推理任务的准确性与语言一致性奖励直接相加形成最终奖励。然后我们对微调后的模型应用RL训练,直到其在推理任务上达到收敛。
2.3.3. 拒绝采样与监督微调
当推理导向的强化学习(RL)收敛后,我们利用得到的检查点(checkpoint)来收集后续轮次的监督微调(Supervised Fine-Tuning, SFT)数据。与主要关注推理的初始冷启动数据不同,这一阶段引入了来自其他领域的数据,以增强模型在写作、角色扮演以及其他通用任务方面的能力。具体来说,我们按照以下方式生成数据并对模型进行微调。
推理数据
我们整理了推理提示,并通过从上述强化学习训练得到的检查点进行拒绝采样来生成推理轨迹。在之前的阶段,我们仅纳入了能够使用基于规则的奖励进行评估的数据。然而,在这一阶段,我们通过引入额外的数据来扩展数据集,其中部分数据使用生成式奖励模型,即将真实结果(ground-truth)和模型预测输入 DeepSeek-V3 进行判断。此外,由于模型输出有时会显得混乱且难以阅读,我们过滤掉了包含多种语言混合、长段落以及代码块的推理过程。对于每个提示,我们采样多个响应,并仅保留正确的响应。总共,我们收集了大约60万条与推理相关的训练样本。
非推理数据
对于非推理数据,如写作、事实问答、自我认知和翻译等领域,我们采用了 DeepSeek-V3 的数据处理流程,并复用了 DeepSeek-V3 的部分监督微调数据集。对于某些非推理任务,我们通过提示 DeepSeek-V3 生成潜在的推理过程,然后再回答问题。然而,对于一些简单的查询,例如“你好”,我们不会提供推理过程作为回应。最终,我们收集了大约20万条与推理无关的训练样本。
我们将上述整理的约80万条样本用于对 DeepSeek-V3-Base 模型进行微调,训练周期为两轮。
2.3.4 面向所有场景的强化学习
为了进一步使模型符合人类偏好,我们实施了第二阶段的强化学习,旨在提升模型的有用性和无害性,同时优化其推理能力。具体而言,我们使用组合的奖励信号和多样化的提示分布来训练模型。对于推理数据,我们遵循DeepSeek-R1-Zero中概述的方法,利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于通用数据,我们依靠奖励模型来捕捉复杂且微妙场景中的人类偏好。我们基于DeepSeek-V3的流程,采用了类似的偏好对和训练提示的分布。在有用性方面,我们专注于最终的总结部分,确保评估主要强调响应对用户的实用性和相关性,同时尽量减少对底层推理过程的干扰。对于无害性,我们评估模型的整个响应,包括推理过程和总结,以识别和减轻在生成过程中可能出现的任何潜在风险、偏见或有害内容。最终,通过整合奖励信号和多样化的数据分布,我们训练出一个在推理方面表现出色,同时优先考虑有用性和无害性的模型。
2.4. 蒸馏:赋予小型模型推理能力
为了使更高效的小型模型具备像DeepSeek-R1这样的推理能力,我们直接使用从DeepSeek-R1整理出的约80万条样本对开源模型(如Qwen和Llama)进行微调,详细内容见第2.3.3节。我们的研究发现,这种简单的蒸馏方法显著提升了小型模型的推理能力。我们使用的基底模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我们选择Llama-3.3是因为其推理能力略优于Llama-3.1。
对于蒸馏模型,我们仅应用监督微调(SFT),并未加入强化学习(RL)阶段,尽管加入RL可以显著提升模型性能。我们的主要目标是展示蒸馏技术的有效性,将RL阶段的探索留给更广泛的研究社区。
3. 实验
基准测试
我们对模型在以下基准测试中进行了评估:MMLU(Hendrycks等人,2020)、MMLU-Redux(Gema等人,2024)、MMLU-Pro(Wang等人,2024)、C-Eval(Huang等人,2023)、CMMLU(Li等人,2023)、IFEval(Zhou等人,2023)、FRAMES(Krishna等人,2024)、GPQA Diamond(Rein等人,2023)、SimpleQA(OpenAI,2024c)、C-SimpleQA(He等人,2024)、SWE-Bench Verified(OpenAI,2024d)、Aider 1、LiveCodeBench(Jain等人,2024)(2024年8月至2025年1月)、Codeforces 2、中国高中数学奥林匹克竞赛(CNMO 2024)3以及美国数学邀请赛2024(AIME 2024)(MAA,2024)。除了标准基准测试外,我们还使用LLMs作为评判对模型在开放式生成任务上进行了评估。具体而言,我们遵循AlpacaEval 2.0(Dubois等人,2024)和Arena-Hard(Li等人,2024)的原始配置,利用GPT-4-Turbo-1106作为评判进行成对比较。在这里,我们仅将最终总结部分输入评估,以避免长度偏差。对于蒸馏模型,我们在AIME 2024、MATH-500、GPQA Diamond、Codeforces和LiveCodeBench上报告了代表性结果。
评估提示
按照DeepSeek-V3的设置,标准基准测试如MMLU、DROP、GPQA Diamond和SimpleQA使用simpleevals框架的提示进行评估。对于MMLU-Redux,我们采用Zero-Eval提示格式(Lin,2024)进行零样本设置。在MMLU-Pro、C-Eval和CLUE-WSC方面,由于原始提示是少量样本,我们略微修改了提示,改为零样本设置。推理在少量样本中可能会损害DeepSeek-R1的性能。其他数据集遵循其原始评估协议,并使用其创建者提供的默认提示。对于代码和数学基准测试,HumanEval-Mul数据集涵盖了八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash)。使用LiveCodeBench评估模型性能时采用CoT格式,数据收集时间为2024年8月至2025年1月。Codeforces数据集使用来自10场Div.2比赛的问题以及专家制作的测试用例进行评估,之后计算预期的评分和参赛者的百分比。通过agentless框架(Xia等人,2024)获得SWE-Bench验证结果。AIDER相关基准测试使用“diff”格式进行测量。DeepSeek-R1的输出在每个基准测试中被限制在最多32,768个标记内。
基线模型
我们对多个强大的基线模型进行了全面评估,包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217。由于在中国大陆访问OpenAI-o1-1217 API较为困难,因此我们根据官方报告来报告其性能。对于蒸馏模型,我们还与开源模型QwQ-32B-Preview(Qwen,2024a)进行了比较。
评估设置
我们将模型的最大生成长度设置为32,768个标记。我们发现,使用贪婪解码来评估长输出推理模型会导致更高的重复率以及不同检查点之间的显著差异。因此,我们默认采用pass@𝑖?评估(Chen等人,2021),并使用非零温度报告pass@1。具体而言,我们使用0.6的采样温度和0.95的top-𝑖?值来为每个问题生成𝑖?个响应(通常在4到64之间,具体取决于测试集的大小)。然后,pass@1计算如下:
其中,𝑖?𝑖表示第𝑖个响应的正确性。这种方法可以提供更可靠的性能估计。对于AIME 2024,我们还报告了使用64个样本的共识(多数投票)结果(Wang等人,2022),记为cons@64。
3.1 DeepSeek-R1评估
在教育导向的知识基准测试中,如MMLU、MMLU-Pro和GPQA Diamond,DeepSeek-R1相较于DeepSeek-V3展现出了更优越的表现。这一进步主要归功于在STEM相关问题上的准确率提升,而这一提升是通过大规模强化学习实现的。此外,DeepSeek-R1在FRAMES这一依赖长文本的问答任务中表现出色,展现了其强大的文档分析能力。这凸显了推理模型在AI驱动的搜索和数据分析任务中的潜力。在事实基准测试SimpleQA中,DeepSeek-R1超越了DeepSeek-V3,证明了其处理基于事实的查询的能力。在这一基准测试中,OpenAI-o1的表现优于GPT-4o,呈现出类似的趋势。然而,在中文SimpleQA基准测试中,DeepSeek-R1的表现不如DeepSeek-V3,这主要是因为在经过安全强化学习后,DeepSeek-R1倾向于拒绝回答某些查询。如果没有安全强化学习,DeepSeek-R1的准确率可以超过70%。
DeepSeek-R1在IF-Eval上的表现也令人印象深刻,这是一个旨在评估模型遵循格式指令能力的基准测试。这些改进与在最终阶段的监督微调(SFT)和强化学习(RL)训练中加入的指令遵循数据有关。此外,在AlpacaEval2.0和ArenaHard上也观察到了显著的表现,这表明DeepSeek-R1在写作任务和开放领域问题回答方面具有优势。它在这些任务上的显著超越DeepSeek-V3,凸显了大规模强化学习的泛化优势,这不仅提升了推理能力,还提高了在不同领域的表现。此外,DeepSeek-R1生成的总结长度较为简洁,在ArenaHard上的平均长度为689个标记,在AlpacaEval2.0上为2218个字符。这表明DeepSeek-R1在基于GPT的评估中避免了引入长度偏差,进一步巩固了其在多项任务中的稳健性。
3.2. 蒸馏模型评估
如表5所示,仅通过对DeepSeek-R1的输出进行蒸馏,就能使高效的DeepSeek-R1-7B(即DeepSeek-R1-Distill-Qwen-7B,以下类似地简写)在所有基准测试中超越非推理模型,如GPT-4o-0513。DeepSeek-R1-14B在所有评估指标上都超越了QwQ-32B-Preview,而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超过了o1-mini。这些结果展示了蒸馏的强大潜力。此外,我们发现对这些蒸馏模型应用强化学习可以带来显著的进一步提升。我们相信这值得进一步探索,因此这里只展示了简单的SFT蒸馏模型的结果。
4. 讨论
4.1. 蒸馏与强化学习
在第3.2节中,我们可以看到,通过蒸馏DeepSeek-R1,小型模型可以取得令人印象深刻的结果。然而,还有一个问题有待解答:模型是否可以通过本文讨论的大规模强化学习训练(而不进行蒸馏)达到相当的性能?
为了回答这个问题,我们在Qwen-32B-Base上进行了大规模强化学习训练,使用数学、代码和STEM数据,训练了超过10K步,得到了DeepSeek-R1-Zero-Qwen-32B。实验结果如表6所示,32B基础模型在经过大规模强化学习训练后,其性能与QwQ-32B-Preview相当。然而,从DeepSeek-R1蒸馏得到的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中的表现都显著优于DeepSeek-R1-Zero-Qwen-32B。
因此,我们可以得出两个结论:首先,将更强大的模型蒸馏到小型模型中可以取得出色的结果,而小型模型依靠本文提到的大规模强化学习需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,尽管蒸馏策略既经济又有效,但要突破智能的边界,可能仍需要更强大的基础模型和更大规模的强化学习。
4.2. 不成功的尝试
在开发DeepSeek-R1的早期阶段,我们也经历了失败和挫折。我们在这里分享我们的失败经验,以提供一些见解,但这并不意味着这些方法无法开发出有效的推理模型。
过程奖励模型(PRM)
PRM是一种合理的方法,可以指导模型采用更好的方法来解决推理任务(Lightman等人,2023;Uesato等人,2022;Wang等人,2023)。然而,在实践中,PRM存在三个主要限制,可能会阻碍其最终的成功。首先,很难明确地定义一般推理中的细粒度步骤。其次,确定当前中间步骤是否正确是一项艰巨的任务。使用模型进行自动标注可能无法获得满意的结果,而手动标注不利于大规模扩展。第三,一旦引入基于模型的PRM,就不可避免地会导致奖励黑客行为(Gao等人,2022),重新训练奖励模型需要额外的训练资源,并且会使整个训练流程变得更加复杂。总之,尽管PRM在重新排名模型生成的前N个响应或协助指导搜索方面表现出良好的能力(Snell等人,2024),但与在大规模强化学习过程中引入的额外计算开销相比,其优势在我们的实验中是有限的。
蒙特卡洛树搜索(MCTS)
受AlphaGo(Silver等人,2017b)和AlphaZero(Silver等人,2017a)的启发,我们探索了使用蒙特卡洛树搜索(MCTS)来增强测试时的计算可扩展性。这种方法涉及将答案分解为更小的部分,以便模型可以系统地探索解决方案空间。为了实现这一点,我们提示模型生成多个标签,这些标签对应于搜索所需的具体推理步骤。在训练过程中,我们首先使用收集到的提示通过由预训练的价值模型引导的MCTS找到答案。然后,我们使用得到的问题-答案对来训练行为模型和价值模型,迭代地改进这一过程。
然而,当扩展训练时,这种方法遇到了几个挑战。首先,与国际象棋的搜索空间相对明确不同,标记生成的搜索空间呈指数级增长。为了应对这一问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优。其次,价值模型直接影响生成的质量,因为它指导搜索过程的每一步。训练一个细粒度的价值模型本质上是困难的,这使得模型难以迭代改进。尽管AlphaGo的核心成功依赖于训练一个价值模型来逐步提升其性能,但这一原则在我们的设置中难以复制,因为标记生成的复杂性。
总之,尽管MCTS在与预训练的价值模型配对时可以在推理期间提升性能,但通过自我搜索迭代提升模型性能仍然是一个重大挑战。
5. 结论、局限性和未来工作
在这项工作中,我们分享了我们通过强化学习增强模型推理能力的旅程。DeepSeek-R1-Zero代表了一种纯粹的强化学习方法,不依赖于冷启动数据,在各种任务中取得了强大的性能。DeepSeek-R1更加强大,它利用冷启动数据以及迭代的强化学习微调。最终,DeepSeek-R1在一系列任务上的表现与OpenAI-o1-1217相当。
我们进一步探索了将推理能力蒸馏到小型密集模型中。我们使用DeepSeek-R1作为教师模型生成了80万条训练样本,并微调了几个小型密集模型。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中超越了GPT-4o和Claude-3.5-Sonnet,在AIME上达到了28.9%,在MATH上达到了83.9%。其他密集模型也取得了令人印象深刻的结果,显著优于基于相同底层检查点的其他指令微调模型。
在未来,我们计划在以下方向上进行研究,以改进DeepSeek-R1。
-
通用能力:目前,DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和JSON输出等任务上的能力不如DeepSeek-V3。展望未来,我们计划探索如何利用长推理链(CoT)来增强这些领域中的任务表现。
-
语言混用:DeepSeek-R1目前针对中文和英文进行了优化,这可能导致在处理其他语言的查询时出现语言混用问题。例如,即使查询不是中文或英文,DeepSeek-R1也可能会使用英文进行推理和回应。我们希望在未来的更新中解决这一限制。
-
提示工程:在评估DeepSeek-R1时,我们观察到它对提示非常敏感。少量样本提示会持续降低其性能。因此,我们建议用户直接描述问题,并使用零样本设置指定输出格式,以获得最佳结果。
-
软件工程任务:由于长评估时间会影响强化学习过程的效率,大规模强化学习尚未广泛应用于软件工程任务。因此,DeepSeek-R1在软件工程基准测试上的表现并未显著优于DeepSeek-V3。未来版本将通过在软件工程数据上实施拒绝采样或在强化学习过程中引入异步评估来提高效率,从而解决这一问题。