DeepSeek_R1论文翻译稿
===== 第1页 [文本层] =====
DeepSeek-R1:通过强化学习激励大语言模型的推理能力
DeepSeek-AI
research@deepseek.com
摘要
我们介绍了第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练的模型,没有使用监督微调(SFT)作为初步步骤,展示了显著的推理能力。通过 RL,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。然而,它也面临诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,它在 RL 之前结合了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。
AIME 2024
(Pass@1)
Codeforces
(百分位)
GPQA Diamond
(Pass@1)
MATH-500
(Pass@1)
MMLU
(Pass@1)
SWE-bench Verified
(已解决)
0
20
40
60
80
100
准确率 / 百分位 (%)
79.8
96.3
71.5
97.3
90.8
49.2
79.2
96.6
75.7
96.4
91.8
48.9
72.6
90.6
62.1
94.3
87.4
36.8
63.6
93.4
60.0
90.0
85.2
41.6
39.2
58.7
59.1
90.2
88.5
42.0
DeepSeek-R1
OpenAI-o1-1217
DeepSeek-R1-32B
OpenAI-o1-mini
DeepSeek-V3
图 1 | DeepSeek-R1 的基准性能。
===== 第2页 =====
目录
目录
-
1 引言 * 1.1 贡献 * 1.2 评估结果摘要
-
2 方法 * 2.1 概述 * 2.2 DeepSeek-R1-Zero:在基础模型上进行强化学习 * 2.2.1 强化学习算法 * 2.2.2 奖励建模 * 2.2.3 训练模板 * 2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻 * 2.3 DeepSeek-R1:带冷启动的强化学习 * 2.3.1 冷启动 * 2.3.2 面向推理的强化学习 * 2.3.3 拒绝采样和监督微调 * 2.3.4 全场景的强化学习 * 2.4 蒸馏:赋予小模型推理能力
-
3 实验 * 3.1 DeepSeek-R1 评估 * 3.2 蒸馏模型评估
-
4 讨论 * 4.1 蒸馏与强化学习 * 4.2 失败的尝试
-
5 结论、局限性和未来工作
-
A 贡献和致谢
===== 第3页 =====
1 引言
近年来,大语言模型(LLMs)经历了快速的迭代和进化(Anthropic, 2024; Google, 2024; OpenAI, ),逐步缩小了与通用人工智能(AGI)的差距。
最近,后训练已成为完整训练流程中的重要组成部分。它已被证明可以提高推理任务的准确性,与社会价值观对齐,并适应用户偏好,同时相对于预训练所需的计算资源相对较少。在推理能力方面,OpenAI 的 o1 系列模型首次通过增加思维链推理过程的长度引入了推理时扩展。这种方法在数学、编码和科学推理等各种推理任务中取得了显著改进。然而,有效的测试时扩展仍然是研究社区面临的一个开放问题。之前的一些工作探索了各种方法,包括基于过程的奖励模型(Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023)、强化学习(Kumar et al., 2024)以及蒙特卡罗树搜索和束搜索等搜索算法(Feng et al., 2024; Trinh et al., 2024; Xin et al., 2024)。然而,这些方法尚未达到与 OpenAI 的 o1 系列模型相当的通用推理性能。
在本文中,我们迈出了使用纯强化学习(RL)改进语言模型推理能力的第一步。我们的目标是探索 LLMs 在没有监督数据的情况下发展推理能力的潜力,重点关注它们通过纯 RL 过程的自我进化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO(Shao et al., 2024)作为 RL 框架来提高模型在推理中的表现。在训练过程中,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。经过数千次 RL 步骤后,DeepSeek-R1-Zero 在推理基准测试中表现出色。例如,AIME 2024 的 pass@1 分数从 (15.6%) 提高到 (71.0%),并且通过多数投票,分数进一步提高到 (86.7%),与 OpenAI-o1-0912 的表现相当。
然而,DeepSeek-R1-Zero 面临诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千条冷启动数据来微调 DeepSeek-V3-Base 模型。随后,我们像 DeepSeek-R1-Zero 一样进行面向推理的 RL。在 RL 过程接近收敛时,我们通过对 RL 检查点进行拒绝采样来创建新的 SFT 数据,并结合来自 DeepSeek-V3 的写作、事实问答和自我认知等领域的监督数据,然后重新训练 DeepSeek-V3-Base 模型。在用新数据进行微调后,检查点会经历额外的 RL 过程,考虑到所有场景的提示。经过这些步骤后,我们得到了一个称为 DeepSeek-R1 的检查点,其表现与 OpenAI-o1-1217 相当。
我们进一步探索了从 DeepSeek-R1 到更小的密集模型的蒸馏。使用 Qwen2.5-32B(Qwen, )作为基础模型,直接从 DeepSeek-R1 进行蒸馏比在其上应用 RL 表现更好。这表明较大基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏的 Qwen 和 Llama(Dubey et al., 2024)系列。值得注意的是,我们蒸馏的 14B 模型在推理基准测试中大幅超越了最先进的开源 QwQ-32B-Preview(Qwen, ),而蒸馏的 32B 和 70B 模型在密集模型中创下了新的记录。
===== 第4页 =====
贡献
后训练:在基础模型上进行大规模强化学习
-
*我们直接在基础模型上应用 RL,而不依赖监督微调(SFT)作为初步步骤。这种方法使模型能够探索思维链(CoT)以解决复杂问题,从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力,标志着研究社区的一个重要里程碑。值得注意的是,这是第一个验证 LLMs 的推理能力可以纯粹通过 RL 激励而无需 SFT 的开放研究。这一突破为未来在这一领域的进展铺平了道路。
-
*我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信该流程将通过创建更好的模型使行业受益。
蒸馏:小模型也可以很强大
-
*我们展示了较大模型的推理模式可以蒸馏到较小的模型中,从而获得比在小模型上通过 RL 发现的推理模式更好的性能。开源的 DeepSeek-R1 及其 API 将使研究社区受益,以便在未来蒸馏出更好的小模型。
-
*使用 DeepSeek-R1 生成的推理数据,我们对研究社区广泛使用的几个密集模型进行了微调。评估结果表明,蒸馏的小型密集模型在基准测试中表现非常出色。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到了 55.5%,超越了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分为 72.6%,在 MATH-500 上得分为 94.3%,在 LiveCodeBench 上得分为 57.2%。这些结果显著优于之前的开源模型,并与 o1-mini 相当。我们向社区开源了基于 Qwen2.5 和 Llama3 系列的蒸馏 1.5B、7B、8B、14B、32B 和 70B 检查点。
评估结果摘要
-
*推理任务:(1) DeepSeek-R1 在 AIME 2024 上获得了 79.8% 的 Pass@1 分数,略微超过了 OpenAI-o1-1217。在 MATH-500 上,它获得了令人印象深刻的 97.3% 的分数,与 OpenAI-o1-1217 相当,并显著优于其他模型。(2) 在编码相关任务中,DeepSeek-R1 在代码竞赛任务中表现出专家水平,它在 Codeforces 上获得了 2,029 Elo 评分,超过了 96.3% 的人类参赛者。在工程相关任务中,DeepSeek-R1 的表现略优于 DeepSeek-V3,这可能有助于开发人员在现实世界中的任务。
-
*知识:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 取得了出色的成绩,显著优于 DeepSeek-V3,得分分别为 90.8% 的 MMLU、84.0% 的 MMLU-Pro 和 71.5% 的 GPQA Diamond。虽然在这些基准测试中其表现略低于 OpenAI-o1-1217,但 DeepSeek-R1 超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准测试 SimpleQA 上,DeepSeek-R1 优于 DeepSeek-V3,展示了其处理基于事实的查询的能力。OpenAI-o1 在这一基准测试中也超越了 4o。
===== 第5页 =====
- *其他:DeepSeek-R1 在广泛的任务中也表现出色,包括创意写作、一般问答、编辑、摘要等。它在 AlpacaEval 2.0 上获得了 87.6% 的长度控制胜率,在 ArenaHard 上获得了 92.3% 的胜率,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1 在需要长上下文理解的任务中表现出色,在长上下文基准测试中大幅优于 DeepSeek-V3。
2 方法
概述
之前的工作严重依赖大量监督数据来提高模型性能。在本研究中,我们展示了即使不使用监督微调(SFT)作为冷启动,通过大规模强化学习(RL)也可以显著提高推理能力。此外,加入少量冷启动数据可以进一步提高性能。在以下部分中,我们介绍了:(1) DeepSeek-R1-Zero,它直接在基础模型上应用 RL,不使用任何 SFT 数据;(2) DeepSeek-R1,它从经过数千条长思维链(CoT)示例微调的检查点开始应用 RL;(3) 将 DeepSeek-R1 的推理能力蒸馏到小型密集模型中。
DeepSeek-R1-Zero:在基础模型上进行强化学习
强化学习在推理任务中表现出显著的有效性,正如我们之前的工作 Shao et al. (2024); Wang et al. (2023) 所证明的那样。然而,这些工作严重依赖监督数据,而收集这些数据非常耗时。在本节中,我们探索了 LLMs 在没有监督数据的情况下发展推理能力的潜力,重点关注它们通过纯强化学习过程的自我进化。我们首先简要概述了我们的 RL 算法,随后展示了一些令人兴奋的结果,并希望这些能为社区提供有价值的见解。
2.2.1 强化学习算法
组相对策略优化 为了节省 RL 的训练成本,我们采用了组相对策略优化(GRPO)Shao et al. (2024),它放弃了通常与策略模型大小相同的评论家模型,而是从组分数中估计基线。具体来说,对于每个问题 (q),GRPO 从旧策略 (\pi_{\theta_{old}}) 中采样一组输出 ({o_{1},o_{2},\cdots,o_{G}}),然后通过最大化以下目标来优化策略模型 (\pi_{\theta}):
[\mathcal{J}{GRPO}(\theta)=\mathbb{E}[q\sim P(Q),{o{i}}{i=1}^{G} \sim\pi{\theta_{old}}(O|q)]] (1)
[\frac{1}{G}\sum_{i=1}^{G}\left(\min\left(\frac{\pi_{\theta}(o_{i}| q)}{\pi_{\theta_{old}}(o_{i}|q)}A_{i},\textnormal{clip}\left(\frac{\pi_{\theta}(o {i}|q)}{\pi{\theta_{old}}(o_{i}|q)},1-\varepsilon,1+\varepsilon\right)A_{i} \right)-\beta\mathbb{D}{KL}\left(\pi{\theta}||\pi_{ref}\right)\right),]
[\mathbb{D}{KL}\left(\pi{\theta}||\pi_{ref}\right)=\frac{\pi_{ ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)}-\log\frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta }(o_{i}|q)}-1,] (2)
其中 (\varepsilon) 和 (\beta) 是超参数,(A_{i}) 是优势,使用组内输出的奖励 ({r_{1},r_{2},\ldots,r_{G}}) 计算:
[A_{i}=\frac{r_{i}-\textnormal{mean}({r_{1},r_{2},\cdots,r_{G}})}{\textnormal{ std}({r_{1},r_{2},\cdots,r_{G}})}.] (3)
===== 第6页 =====
用户和助手之间的对话。用户提出问题,助手解决问题。助手首先在脑海中思考推理过程,然后向用户提供答案。推理过程和答案分别用 和 标签括起来,即 推理过程 答案 。用户:提示。助手:
2.2.2 奖励建模
奖励是训练信号的来源,决定了 RL 的优化方向。为了训练 DeepSeek-R1-Zero,我们采用了基于规则的奖励系统,主要包括两种类型的奖励:
-
*准确性奖励:准确性奖励模型评估响应是否正确。例如,在具有确定性结果的数学问题中,模型需要以指定格式提供最终答案(例如,在方框内),从而能够可靠地基于规则验证正确性。同样,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。
-
*格式奖励:除了准确性奖励模型外,我们还采用了格式奖励模型,强制模型将其思考过程放在 ‘’ 和 ‘’ 标签之间。
我们没有在开发 DeepSeek-R1-Zero 时应用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会受到奖励攻击的影响,并且重新训练奖励模型需要额外的训练资源,这会使整个训练流程复杂化。
2.2.3 训练模板
为了训练 DeepSeek-R1-Zero,我们首先设计了一个简单的模板,指导基础模型遵循我们指定的指令。如表 1 所示,该模板要求 DeepSeek-R1-Zero 首先生成推理过程,然后生成最终答案。我们有意将约束限制在这种结构格式上,避免任何内容特定的偏见——例如强制反思推理或推广特定的问题解决策略——以确保我们能够准确观察模型在 RL 过程中的自然进展。
2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻
DeepSeek-R1-Zero 的性能 图 2 展示了 DeepSeek-R1-Zero 在 AIME 2024 基准测试中的性能轨迹。如图所示,随着 RL 训练的推进,DeepSeek-R1-Zero 表现出稳定且一致的性能提升。值得注意的是,AIME 2024 的平均 pass@1 分数显著增加,从最初的 (15.6%) 跃升至令人印象深刻的 (71.0%),达到了与 OpenAI-o1-0912 相当的性能水平。这一显著改进突显了我们的 RL 算法在优化模型性能方面的有效性。
表 2 提供了 DeepSeek-R1-Zero 与 OpenAI 的 o1-0912 模型在各种推理相关基准测试中的比较分析。研究结果表明,RL 使 DeepSeek-R1-Zero 在没有监督微调数据的情况下获得了强大的推理能力。这是一个值得注意的成就,因为它强调了模型通过纯 RL 学习和泛化的能力。此外,通过多数投票的应用,DeepSeek-R1-Zero 的性能可以进一步增强。例如,当在 AIME 基准测试中应用多数投票时,DeepSeek-R1-Zero 的性能从 71.0% 提升到 86.7%,从而超过了 OpenAI-o1-0912 的性能。DeepSeek-R1-Zero 在有和没有多数投票的情况下都能达到如此有竞争力的性能,突显了其强大的基础能力及其在推理任务中进一步发展的潜力。
DeepSeek-R1-Zero 的自我进化过程 DeepSeek-R1-Zero 的自我进化过程是一个引人入胜的演示,展示了 RL 如何驱动模型自主提高其推理能力。通过直接从基础模型启动 RL,我们可以密切监控模型的进展,而不受监督微调阶段的影响。这种方法清晰地展示了模型随时间的演变,特别是在处理复杂推理任务的能力方面。
如图 3 所示,DeepSeek-R1-Zero 的思考时间在整个训练过程中持续改善。这种改进不是外部调整的结果,而是模型内部的固有发展。DeepSeek-R1-Zero 通过利用扩展的测试时计算,自然地获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。
这种自我进化最显著的一个方面是随着测试时计算的增加,复杂行为的涌现。诸如反思——模型重新审视和重新评估其先前步骤——以及探索问题解决的替代方法等行为自发地出现。这些行为不是显式编程的,而是模型与强化学习环境交互的结果。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够更高效、更准确地应对更具挑战性的任务。
DeepSeek-R1-Zero 的顿悟时刻 在训练 DeepSeek-R1-Zero 过程中观察到一个特别有趣的现象是“顿悟时刻”的出现。如表 3 所示,这一时刻发生在模型的中间版本中。在这个阶段,DeepSeek-R1-Zero 学会了通过重新评估其初始方法为问题分配更多的思考时间。这种行为不仅证明了模型不断增长的推理能力,也是强化学习如何导致意外和复杂结果的一个引人入胜的例子。
这个时刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它强调了强化学习的力量和美丽:我们不是明确地教模型如何解决问题,而是简单地提供正确的激励,它就会自主地发展出高级的问题解决策略。“顿悟时刻”有力地提醒了 RL 在解锁人工智能系统新智能水平方面的潜力,为未来更自主和自适应的模型铺平了道路。
图 3:DeepSeek-R1-Zero 在训练集上的平均响应长度。DeepSeek-R1-Zero 自然地学会了用更多的思考时间解决推理任务。
===== 第9页 =====
DeepSeek-R1-Zero 的缺点:尽管 DeepSeek-R1-Zero 表现出强大的推理能力,并自主发展出意外且强大的推理行为,但它也面临一些问题。例如,DeepSeek-R1-Zero 在可读性差和语言混合等方面存在挑战。为了使推理过程更具可读性并与开放社区分享,我们探索了 DeepSeek-R1,这是一种利用 RL 和人类友好的冷启动数据的方法。
DeepSeek-R1:带冷启动的强化学习
受到 DeepSeek-R1-Zero 有希望的结果的启发,两个自然的问题出现了:1)通过加入少量高质量数据作为冷启动,是否可以进一步提高推理性能或加速收敛?2)我们如何训练一个用户友好的模型,使其不仅生成清晰且连贯的思维链(CoT),还展示出强大的通用能力?为了解决这些问题,我们设计了一个训练 DeepSeek-R1 的流程。该流程包括四个阶段,概述如下。
2.3.1 冷启动
与 DeepSeek-R1-Zero 不同,为了防止从基础模型开始的 RL 训练的早期不稳定冷启动阶段,对于 DeepSeek-R1,我们构建并收集了少量长 CoT 数据来微调模型作为初始 RL 参与者。为了收集这些数据,我们探索了几种方法:使用带有长 CoT 示例的少样本提示,直接提示模型生成带有反思和验证的详细答案,收集 DeepSeek-R1-Zero 的可读格式输出,并通过人类注释者进行后处理来优化结果。
在这项工作中,我们收集了数千条冷启动数据来微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比,冷启动数据的优势包括:
-
*可读性:DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏用于突出显示答案的 Markdown 格式。相比之下,在为 DeepSeek-R1 创建冷启动数据时,我们设计了一种可读的模式,包括在每个响应末尾的摘要,并过滤掉不适合阅读的响应。在这里,我们将输出格式定义为 (\mid)special_token(\mid)<reasoning_process>(\mid)special_token(\mid),其中推理过程是查询的 CoT,摘要用于总结推理结果。
-
*潜力:通过精心设计具有人类先验的冷启动数据模式,我们观察到相对于 DeepSeek-R1-Zero 的更好性能。我们相信迭代训练是推理模型的更好方式。
2.3.2 面向推理的强化学习
在用冷启动数据微调 DeepSeek-V3-Base 后,我们应用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。这一阶段专注于增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等涉及明确解决方案的推理密集型任务中。在训练过程中,我们观察到 CoT 经常出现语言混合,特别是在 RL 提示涉及多种语言时。为了缓解语言混合问题,我们在 RL 训练期间引入了语言一致性奖励,该奖励计算为目标语言单词在 CoT 中的比例。尽管消融实验显示这种对齐会导致模型性能略有下降,但这种奖励与人类偏好一致,使其更具可读性。最后,我们将推理任务的准确性和语言一致性奖励直接相加,形成最终奖励。然后,我们在微调模型上应用 RL 训练,直到其在推理任务上达到收敛。
2.3.3 拒绝采样和监督微调
当面向推理的 RL 收敛时,我们利用生成的检查点收集 SFT(监督微调)数据用于后续轮次。与主要关注推理的初始冷启动数据不同,这一阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。具体来说,我们生成数据并微调模型,如下所述。
推理数据 我们策划推理提示,并通过从上述 RL 训练的检查点执行拒绝采样来生成推理轨迹。在上一阶段,我们仅包含可以使用基于规则的奖励评估的数据。然而,在这一阶段,我们通过结合其他数据扩展了数据集,其中一些数据使用生成奖励模型,通过将真实值和模型预测输入 DeepSeek-V3 进行判断。此外,由于模型输出有时混乱且难以阅读,我们过滤掉了混合语言、长段落和代码块的思维链。对于每个提示,我们采样多个响应并仅保留正确的响应。总共,我们收集了大约 60 万条与推理相关的训练样本。
===== 第11页 =====
非推理数据 对于非推理数据,如写作、事实问答、自我认知和翻译,我们采用 DeepSeek-V3 的流程并重用 DeepSeek-V3 的 SFT 数据集的一部分。对于某些非推理任务,我们调用 DeepSeek-V3 在回答问题之前生成潜在的思维链。然而,对于更简单的查询,例如“你好”,我们不会在响应中提供 CoT。最终,我们收集了大约 20 万条与推理无关的训练样本。
我们使用上述策划的约 80 万条样本对 DeepSeek-V3-Base 进行了两个 epoch 的微调。
2.3.4 全场景的强化学习
为了进一步使模型与人类偏好对齐,我们实施了第二阶段的强化学习,旨在提高模型的有用性和无害性,同时完善其推理能力。具体来说,我们使用奖励信号和多样化的提示分布来训练模型。对于推理数据,我们遵循 DeepSeek-R1-Zero 中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据,我们依靠奖励模型来捕捉复杂和微妙场景中的人类偏好。我们基于 DeepSeek-V3 的流程,并采用了类似的偏好对和训练提示分布。对于有用性,我们专注于最终摘要,确保评估强调响应对用户的实用性和相关性,同时最小化对底层推理过程的干扰。对于无害性,我们评估模型的整个响应,包括推理过程和摘要,以识别和减轻生成过程中可能出现的任何潜在风险、偏见或有害内容。最终,奖励信号和多样化数据分布的整合使我们能够训练出一个在推理方面表现出色,同时优先考虑有用性和无害性的模型。
蒸馏:赋予小模型推理能力
为了使更高效的小型模型具备像 DeepSeek-R1 一样的推理能力,我们直接使用 DeepSeek-R1 策划的 80 万条样本对开源模型如 Owen(Owen, )和 Llama(Al@Meta, 2024)进行了微调。我们的研究结果表明,这种简单的蒸馏方法显著增强了小型模型的推理能力。我们在这里使用的基础模型是 Owen2.5-Math-1.5B、Owen2.5-Math-7B、Owen2.5-14B、Owen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1。
对于蒸馏模型,我们仅应用 SFT,不包括 RL 阶段,尽管加入 RL 可以显著提升模型性能。我们的主要目标是展示蒸馏技术的有效性,将 RL 阶段的探索留给更广泛的研究社区。
3 实验
基准测试 我们在 MMLU(Hendrycks et al., 2020)、MMLU-Redux(Gema et al., 2024)、MMLU-Pro(Wang et al., 2024)、C-Eval(Huang et al., 2023)和 CMMLU(Li et al., 2023)、IFFval(Zhou et al., 2023)、FRAMES(Krishna et al., 2024)、GPQA Diamond(Rein et al., 2023)、SimpleQA(OpenAI, )、C-SimpleQA(He et al., 2024)、SWE-Bench Verified(OpenAI, 2024)、Aider 1、LiveCodeBench(Jain et al., 2024)(2024-08 - 2025-01)、Codeforces 2、中国国家高中数学奥林匹克(CNMO 2024)3 和美国数学邀请赛 2024(AIME 2024)(MAA, 2024)上评估模型。除了标准基准测试外,我们还使用 LLMs 作为评判者评估模型在开放式生成任务上的表现。具体来说,我们遵循 AlpacaEval 2.0(Dubois et al., 2024)和 Arena-Hard(Li et al., 2024)的原始配置,这些配置利用 GPT-4-Turbo-1106 作为成对比较的评判者。在这里,我们仅将最终摘要输入评估,以避免长度偏差。对于蒸馏模型,我们报告了在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上的代表性结果。
脚注 1:https://aider.chat
脚注 2:https://codeforces.com
脚注 3:https://www.cms.org.cn/Home/comp/comp/cid/12.html
评估提示 遵循 DeepSeek-V3 的设置,使用 simple-evals 框架的提示评估 MMLU、DROP、GPQA Diamond 和 SimpleQA 等标准基准测试。对于 MMLU-Redux,我们在零样本设置中采用 Zero-Eval 提示格式(Lin, 2024)。对于 MMLU-Pro、C-Eval 和 CLUE-WSC,由于原始提示是少样本的,我们略微修改提示为零样本设置。少样本中的 CoT 可能会损害 DeepSeek-R1 的性能。其他数据集遵循其创建者提供的默认提示的原始评估协议。对于代码和数学基准测试,HumanEval-Mul 数据集涵盖了八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)。使用 CoT 格式评估模型在 LiveCodeBench 上的表现,数据收集于 2024 年 8 月至 2025 年 1 月之间。Codeforces 数据集使用 10 场 Div.2 比赛中的问题以及专家制作的测试用例进行评估,之后计算预期评分和参赛者的百分比。SWE-Bench 验证结果通过无代理框架(Xia et al., 2024)获得。AIDER 相关基准测试使用“diff”格式进行测量。DeepSeek-R1 输出在每个基准测试中最多为 32,768 个标记。
基线 我们对多个强基线进行了全面评估,包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 具有挑战性,我们根据官方报告报告其性能。对于蒸馏模型,我们还比较了开源模型 QwQ-32B-Preview(Qwen, )。
评估设置 我们将模型的最大生成长度设置为 32,768 个标记。我们发现使用贪婪解码评估长输出推理模型会导致更高的重复率和不同检查点之间的显著变异性。因此,我们默认使用 pass@(k) 评估(Chen et al., 2021),并使用非零温度报告 pass@(1)。具体来说,我们使用采样温度为 (0.6) 和 top-(p) 值为 (0.95) 来生成 (k) 个响应(通常在 4 到 64 之间,取决于测试集大小)以回答每个问题。然后计算 pass@(1) 为
[\text{pass@}1=\frac{1}{k}\sum_{i=1}^{k}p_{i},]
其中 (p_{i}) 表示第 (i) 个响应的正确性。这种方法提供了更可靠的性能估计。对于 AIME 2024,我们还报告了使用 64 个样本的共识(多数投票)结果(Wang et al., 2022),表示为 cons@64。
===== 第13页 =====
DeepSeek-R1 评估
对于教育导向的知识基准测试,如 MMLU、MMLU-Pro 和 GPQA Diamond,DeepSeek-R1 表现出优于 DeepSeek-V3 的性能。这一改进主要归因于在 STEM 相关问题上的准确性提高,通过大规模强化学习实现了显著增益。此外,DeepSeek-R1 在 FRAMES 上表现出色,这是一个依赖长上下文的问答任务,展示了其强大的文档分析能力。这突显了推理模型在 AI 驱动的搜索和数据分析任务中的潜力。在事实基准测试 SimpleQA 上,DeepSeek-R1 优于 DeepSeek-V3,展示了其处理基于事实的查询的能力。OpenAI-o1 在这一基准测试中也超越了 GPT-4o。然而,DeepSeek-R1 在中文 SimpleQA 基准测试上的表现不如 DeepSeek-V3,主要是由于其倾向于在安全 RL 后拒绝回答某些查询。如果没有安全 RL,DeepSeek-R1 可以达到超过 70% 的准确率。
DeepSeek-R1 在 IF-Eval 上也取得了令人印象深刻的结果,这是一个旨在评估模型遵循格式指令能力的基准测试。这些改进可以归因于在监督微调(SFT)和 RL 训练的最后阶段加入了指令遵循数据。此外,在 AlpacaEval2.0 和 ArenaHard 上观察到了显著的表现,表明 DeepSeek-R1 在写作任务和开放域问答方面的优势。其显著优于 DeepSeek-V3 的表现突显了大规模 RL 的泛化优势,不仅提升了推理能力,还提高了跨多个领域的性能。此外,DeepSeek-R1 生成的摘要长度简洁,在 ArenaHard 上平均为 689 个标记,在 AlpacaEval 2.0 上为 2,218 个字符。这表明 DeepSeek-R1 在 GPT 评估中避免了引入长度偏差,进一步巩固了其在多个任务中的鲁棒性。
在数学任务上,DeepSeek-R1 表现出与 OpenAI-o1-1217 相当的性能,大幅超越其他模型。在编码算法任务上,如 LiveCodeBench 和 Codeforces,推理导向的模型在这些基准测试中占据主导地位。在工程导向的编码任务上,OpenAI-o1-1217 在 Aider 上优于 DeepSeek-R1,但在 SWE Verified 上表现相当。我们相信 DeepSeek-R1 的工程性能将在下一个版本中有所提升,因为目前相关的 RL 训练数据仍然非常有限。
蒸馏模型评估
如表 5 所示,简单地蒸馏 DeepSeek-R1 的输出使高效的 DeepSeek-R1-7B(即 DeepSeek-R1-Distill-Qwen-7B,下同)在各方面都优于非推理模型如 GPT-4o-0513。DeepSeek-R1-14B 在所有评估指标上都超越了 QwQ-32B-Preview,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试上显著超越了 o1-mini。这些结果展示了蒸馏的强大潜力。此外,我们发现对这些蒸馏模型应用 RL 可以带来显著的进一步增益。我们相信这值得进一步探索,因此在这里仅展示简单 SFT 蒸馏模型的结果。
4 讨论
蒸馏与强化学习
在第 3.2 节中,我们可以看到通过蒸馏 DeepSeek-R1,小模型可以取得令人印象深刻的结果。然而,还有一个问题:模型是否可以通过本文讨论的大规模 RL 训练而不进行蒸馏达到相当的性能?
为了回答这个问题,我们在 Qwen-32B-Base 上进行了大规模 RL 训练,使用数学、代码和 STEM 数据,训练了超过 10K 步,得到了 DeepSeek-R1-Zero-Qwen-32B。实验结果如表 6 所示,表明经过大规模 RL 训练的 32B 基础模型达到了与 QwQ-32B-Preview 相当的性能。然而,从 DeepSeek-R1 蒸馏的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试上都显著优于 DeepSeek-R1-Zero-Qwen-32B。
因此,我们可以得出两个结论:首先,将更强大的模型蒸馏到较小的模型中会产生出色的结果,而依赖本文提到的大规模 RL 的小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,虽然蒸馏策略既经济又有效,但超越智能边界可能仍然需要更强大的基础模型和更大规模的强化学习。
失败的尝试
在开发 DeepSeek-R1 的早期阶段,我们也经历了一些失败和挫折。我们在这里分享我们的失败经验,以提供见解,但这并不意味着这些方法无法开发出有效的推理模型。
过程奖励模型(PRM) PRM 是一种合理的方法,可以引导模型采用更好的方法来解决推理任务(Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023)。然而,在实践中,PRM 有三个主要限制,可能会阻碍其最终成功。首先,在一般推理中明确定义细粒度步骤是具有挑战性的。其次,确定当前中间步骤是否正确是一项艰巨的任务。使用模型进行自动标注可能无法产生令人满意的结果,而手动标注不利于扩展。第三,一旦引入基于模型的 PRM,不可避免地会导致奖励攻击(Gao et al., 2022),并且重新训练奖励模型需要额外的训练资源,这会使整个训练流程复杂化。总之,虽然 PRM 展示了重新排序模型生成的前 N 个响应或辅助引导搜索的良好能力(Snell et al., 2024),但在我们实验中的大规模强化学习过程中,其优势相对于额外的计算开销是有限的。
蒙特卡罗树搜索(MCTS) 受 AlphaGo(Silver et al., )和 AlphaZero(Silver et al., )的启发,我们探索了使用蒙特卡罗树搜索(MCTS)来增强测试时计算的可扩展性。这种方法涉及将答案分解为较小的部分,以便模型能够系统地探索解决方案空间。为了促进这一点,我们提示模型生成多个标签,这些标签对应于搜索所需的特定推理步骤。对于训练,我们首先使用收集的提示通过 MCTS 找到答案,并由预训练的价值模型引导。随后,我们使用生成的问题-答案对来训练演员模型和价值模型,迭代地优化过程。
然而,这种方法在扩展训练时遇到了几个挑战。首先,与国际象棋不同,国际象棋的搜索空间相对明确,而标记生成呈现出一个指数级更大的搜索空间。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优。其次,价值模型直接影响生成的质量,因为它指导搜索过程的每一步。训练一个细粒度的价值模型本身就很困难,这使得模型难以迭代改进。虽然 AlphaGo 的核心成功依赖于训练一个价值模型以逐步提高其性能,但由于标记生成的复杂性,这一原则在我们的设置中难以复制。
总之,虽然 MCTS 在与预训练价值模型配对时可以在推理过程中提高性能,但通过自我搜索迭代提升模型性能仍然是一个重大挑战。
5 结论、局限性和未来工作
在这项工作中,我们分享了通过强化学习增强模型推理能力的历程。DeepSeek-R1-Zero 代表了一种不依赖冷启动数据的纯 RL 方法,在各种任务中表现出色。DeepSeek-R1 更强大,利用冷启动数据结合迭代 RL 微调。最终,DeepSeek-R1 在一系列任务上达到了与 OpenAI-o1-1217 相当的性能。
我们进一步探索了将推理能力蒸馏到小型密集模型中。我们使用 DeepSeek-R1 作为教师模型生成了 80 万条训练样本,并对几个小型密集模型进行了微调。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试上超越了 GPT-4o 和 Claude-3.5-Sonnet,在 AIME 上达到了 28.9%,在 MATH 上达到了 83.9%。其他密集模型也取得了令人印象深刻的结果,显著优于基于相同底层检查点的其他指令调优模型。
未来,我们计划在以下方向为 DeepSeek-R1 进行投资研究。
-
*通用能力:目前,DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务中的能力不如 DeepSeek-V3。未来,我们计划探索如何利用长 CoT 来增强这些领域的任务。
-
*语言混合:DeepSeek-R1 目前针对中文和英文进行了优化,这可能导致在处理其他语言的查询时出现语言混合问题。例如,即使查询使用的是非中文或英文的语言,DeepSeek-R1 也可能使用英文进行推理和响应。我们计划在未来的更新中解决这一限制。
-
*提示工程:在评估 DeepSeek-R1 时,我们观察到它对提示敏感。少样本提示通常会降低其性能。因此,我们建议用户直接描述问题并使用零样本设置指定输出格式以获得最佳结果。
-
*软件工程任务:由于评估时间长,影响了 RL 过程的效率,大规模 RL 尚未广泛应用于软件工程任务。因此,DeepSeek-R1 在软件工程基准测试上并未显示出比 DeepSeek-V3 的巨大改进。未来的版本将通过实施对软件工程数据的拒绝采样或在 RL 过程中引入异步评估来提高效率。
===== 第17页 =====
参考文献
-
Al@Meta (2024) Al@Meta. Llama 3.1 模型卡, 2024. URL https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/MODEL_CARD.md.
-
Anthropic (2024) Anthropic. Claude 3.5 sonnet, 2024. URL https://www.anthropic.com/news/claude-3-5-sonnet.
-
Chen et al. (2021) M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. de Oliveira Pinto, J. Kaplan, H. Edwards, Y. Burda, N. Joseph, G. Brockman, A. Ray, R. Puri, G. Krueger, M. Petrov, H. Khalaf, G. Sastry, P. Mishkin, B. Chan, S. Gray, N. Ryder, M. Pavlov, A. Power, L. Kaiser, M. Bavarian, C. Winter, P. Tillet, F. P. Such, D. Cummings, M. Plappert, F. Chantzis, E. Barnes, A. Herbert-Voss, W. H. Guss, A. Nichol, A. Paino, N. Tezak, J. Tang, I. Babuschkin, S. Balaji, S. Jain, W. Saunders, C. Hesse, A. N. Carr, J. Leike, J. Achiam, V. Misra, E. Morikawa, A. Radford, M. Knight, M. Brundage, M. Murati, K. Mayer, P. Welinder, B. McGrew, D. Amodei, S. McCandlish, I. Sutskever, and W. Zaremba. 评估在代码上训练的大语言模型. CoRR, abs/2107.03374, 2021. URL https://arxiv.org/abs/2107.03374.
-
Dubey et al. (2024) A. Dubey, A. Jaubri, A. Pandey, A. Kadian, A. Al-Dahle, A. Letman, A. Mathur, A. Schelten, A. Yang, A. Fan, 等. Llama 3 模型群. arXiv 预印本 arXiv:2407.21783, 2024.
-
Dubois et al. (2024) Y. Dubois, B. Galambosi, P. Liang, and T. B. Hashimoto. 长度控制的 alpacaeval:一种简单的去偏自动评估器的方法. arXiv 预印本 arXiv:2404.04475, 2024.
-
Feng et al. (2024) X. Feng, Z. Wan, M. Wen, S. M. McAleer, Y. Wen, W. Zhang, and J. Wang. 类似 AlphaZero 的树搜索可以指导大语言模型解码和训练, 2024. URL https://arxiv.org/abs/2309.17179.
-
Gao et al. (2022) L. Gao, J. Schulman, and J. Hilton. 奖励模型过度优化的缩放定律, 2022. URL https://arxiv.org/abs/2210.10760.
-
Gema et al. (2024) A. P. Gema, J. O. J. Leang, G. Hong, A. Devoto, A. C. M. Mancino, R. Saxena, X. He, Y. Zhao, X. Du, M. R. G. Madani, C. Barale, R. McHardy, J. Harris, J. Kaddour, E. van Krieken, and P. Minervini. 我们完成 MMLU 了吗? CoRR, abs/2406.04127, 2024. URL https://doi.org/10.48550/arXiv.2406.04127.
-
Google (2024) Google. 我们的下一代模型:Gemini 1.5, 2024. URL https://blog.google/technology/a1/google-gemini-next-generation-model-february-2024.
-
He et al. (2024) Y. He, S. Li, J. Liu, Y. Tan, W. Wang, H. Huang, X. Bu, H. Guo, C. Hu, B. Zheng, 等. 中文简单问答:针对大语言模型的中文事实性评估. arXiv 预印本 arXiv:2411.07140, 2024.
-
Hendrycks et al. (2020) D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, and J. Steinhardt. 测量大规模多任务语言理解. arXiv 预印本 arXiv:2009.03300, 2020.
-
Huang et al. (2023) Y. Huang, Y. Bai, Z. Zhu, J. Zhang, J. Zhang, T. Su, J. Liu, C. Lv, Y. Zhang, J. Lei, 等. C-Eval:一个多层次多学科的中文基础模型评估套件. arXiv 预印本 arXiv:2305.08322, 2023.
-
Jain et al. (2024) N. Jain, K. Han, A. Gu, W. Li, F. Yan, T. Zhang, S. Wang, A. Solar-Lezama, K. Sen, and I. Stoica. Livecodebench:对代码大语言模型的整体和无污染评估. CoRR, abs/2403.07974, 2024. URL https://doi.org/10.48550/arXiv.2403.07974.
===== 第18页 [文本层] =====
S. Krishna, K. Krishna, A. Mohananey, S. Schwarcz, A. Stambler, S. Upadhyay, and M. Faruqui.
事实、获取和推理:检索增强生成的统一评估. CoRR,
abs/2409.12941, 2024. doi: 10.48550/ARXIV.2409.12941. URL https://doi.org/10.485
50/arXiv.2409.12941.
A. Kumar, V. Zhuang, R. Agarwal, Y. Su, J. D. Co-Reyes, A. Singh, K. Baumli, S. Iqbal, C. Bishop,
R. Roelofs, 等. 通过强化学习训练语言模型自我纠正. arXiv
预印本 arXiv:2409.12917, 2024.
H. Li, Y. Zhang, F. Koto, Y. Yang, H. Zhao, Y. Gong, N. Duan, and T. Baldwin. CMMLU:测量
中文中的大规模多任务语言理解. arXiv 预印本 arXiv:2306.09212,
2023.
T. Li, W.-L. Chiang, E. Frick, L. Dunlap, T. Wu, B. Zhu, J. E. Gonzalez, and I. Stoica. 从众包
数据到高质量基准测试:Arena-hard 和 benchbuilder 管道. arXiv
预印本 arXiv:2406.11939, 2024.
H. Lightman, V. Kosaraju, Y. Burda, H. Edwards, B. Baker, T. Lee, J. Leike, J. Schulman,
I. Sutskever, and K. Cobbe. 让我们一步一步验证. arXiv 预印本 arXiv:2305.20050, 2023.
B. Y. Lin. ZeroEval:评估语言模型的统一框架, 2024 年 7 月. URL
https://github.com/WildEval/ZeroEval.
MAA.
美国数学邀请赛 - aime.
在美国数学邀请赛 - AIME 2024, 2024 年 2 月. URL https://maa.org/math
-competitions/american-invitational-mathematics-examination-aime.
OpenAI. 你好 GPT-4o, 2024a. URL https://openai.com/index/hello-gpt-4o/.
OpenAI. 学习用 LLMs 推理, 2024b. URL https://openai.com/index/learnin
g-to-reason-with-llms/.
OpenAI. 介绍 SimpleQA, 2024c. URL https://openai.com/index/introducing
-simpleqa/.
OpenAI. 介绍 SWE-bench 验证版,我们发布了经过人工验证的 swe-
bench 子集,更多, 2024d. URL https://openai.com/index/introducing-swe-bench
-verified/.
Qwen. Qwq:深入反思未知的边界, 2024a. URL https://qwenlm
.github.io/blog/qwq-32b-preview/.
Qwen. Qwen2.5:基础模型的聚会, 2024b. URL https://qwenlm.github.io/b
log/qwen2.5.
D. Rein, B. L. Hou, A. C. Stickland, J. Petty, R. Y. Pang, J. Dirani, J. Michael, and S. R. Bowman.
GPQA:一个研究生级别的谷歌证明问答基准. arXiv 预印本 arXiv:2311.12022, 2023.
Z. Shao, P. Wang, Q. Zhu, R. Xu, J. Song, M. Zhang, Y. Li, Y. Wu, and D. Guo. Deepseekmath:
推动开放语言模型中数学推理的极限. arXiv 预印本
arXiv:2402.03300, 2024.
D. Silver, T. Hubert, J. Schrittwieser, I. Antonoglou, M. Lai, A. Guez, M. Lanctot, L. Sifre,
D. Kumaran, T. Graepel, T. P. Lillicrap, K. Simonyan, and D. Hassabis. 通过自我对弈掌握国际象棋和
将棋的通用强化学习算法. CoRR, abs/1712.01815,
2017a. URL http://arxiv.org/abs/1712.01815.
18
===== 第19页 =====
D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. P. Lillicrap, F. Hui, L. Sifre, G. van den Driessche, T. Graepel, and D. Hassabis (2017) 在没有人类知识的情况下掌握围棋游戏. Note: https://doi.org/10.1038/nature24270 External Links: Link Cited by: SS1.
-
C. Snell, J. Lee, K. Xu, and A. Kumar (2024) 扩展 LLM 测试时计算可以比扩展模型参数更有效. Note: URL https://arxiv.org/abs/2408.03314 External Links: Link Cited by: SS2.3.
-
T. Trinh, Y. Wu, Q. Le, H. He, and T. Luong (2024) 在没有人类演示的情况下解决奥林匹克几何问题. Nature. Note: doi: 10.1038/s41586-023-06747-5 External Links: Link Cited by: SS1.
-
J. Uesato, N. Kushman, R. Kumar, F. Song, N. Siegel, L. Wang, A. Creswell, G. Irving, and I. Higgins (2022) 通过过程和结果反馈解决数学应用题. arXiv 预印本 arXiv:2211.14275. Cited by: SS1.
-
P. Wang, L. Li, Z. Shao, R. Xu, D. Dai, Y. Li, D. Chen, Y. Wu, and Z. Sui (2023) Math-shepherd:一个无标签的逐步验证器,用于 LLMs 的数学推理. arXiv 预印本 arXiv:2312.08935. Cited by: SS1.
-
X. Wang, J. Wei, D. Schuurmans, Q. Le, E. Chi, S. Narang, A. Chowdhery, and D. Zhou (2022) 自我一致性提高了语言模型中的思维链推理. arXiv 预印本 arXiv:2203.11171. Cited by: SS1.
-
Y. Wang, X. Ma, G. Zhang, Y. Ni, A. Chandra, S. Guo, W. Ren, A. Arulraj, X. He, Z. Jiang, T. Li, M. Ku, K. Wang, A. Zhuang, R. Fan, X. Yue, and W. Chen (2024) Mmlu-pro:一个更鲁棒和具有挑战性的多任务语言理解基准. CoRRabs/2406.01574. External Links: Link, 2406.01574 Cited by: SS1.
-
C. S. Xia, Y. Deng, S. Dunn, and L. Zhang (2024) 无代理:揭开基于 LLM 的软件工程代理的神秘面纱. arXiv 预印本. Cited by: SS1.
-
H. Xin, Z. Ren, J. Song, Z. Shao, W. Zhao, H. Wang, B. Liu, L. Zhang, X. Lu, Q. Du, W. Gao, Q. Zhu, D. Yang, Z. Gou, Z. F. Wu, F. Luo, and C. Ruan (2024) Deepseek-prover-v1.5:利用证明助手反馈进行强化学习和蒙特卡罗树搜索. Note: URL https://arxiv.org/abs/2408.08152 External Links: Link Cited by: SS1.
-
J. Zhou, T. Lu, S. Mishra, S. Brahma, S. Basu, Y. Luan, D. Zhou, and L. Hou (2023) 大语言模型的指令遵循评估. arXiv 预印本 arXiv:2311.07911. Cited by: SS1.
===== 第20页 =====
附录 A 贡献和致谢
核心贡献者 李辉
郭大亚 郭建忠
杨德建 李家石
张浩伟 陈景昌
宋俊晓 袁景阳
张若愚 涂金浩
徐润新 邱俊杰
朱启浩 李俊龙
马世荣 蔡俊林
王培义 倪佳琪
毕晓 梁健
张晓康 陈金
于兴凯 董凯
吴宇 胡凯*
吴志斌 游凯超
高志斌 高凯歌
邵志宏 关康
李卓舒 黄可欣
高子怡 于快
王乐安
张乐聪
贡献者 赵亮
刘爱新 王立同
薛冰 张丽月
王炳轩 徐磊
吴博超 夏乐毅
冯北 张明川
卢成达 张明华
赵成刚 唐明辉
邓成奇 周明旭
阮崇 李明
戴大麦 陈德利
陈德利 田宁
李二航 黄盼盼
林方云 张鹏
戴福通 王千成
罗福* 杜秋实
郝广博 葛瑞迪*
陈冠廷 张瑞松
李国伟 潘瑞哲
张浩 王润吉
徐汉伟 陈瑞杰
丁红辉 金瑞林
高华佐
===== 第21页 =====
陈如意 魏宇轩
卢尚浩 张阳
周尚岩 徐艳红
陈山黄 李瑶
叶胜峰 赵瑶
王世宇 孙耀峰
余水萍 王耀辉
周顺峰 张一超
潘书婷 史一凡
李思思 熊一良
周双 何颖
吴少青 朴一石
叶胜峰 王一松
云涛 谭一轩
裴天 马一阳*
王天 刘一远
曾王定 郭永强
刘文 欧元
梁文峰 王玉端
高文俊 邹宇恒
余文琴* 何玉佳
张文涛 熊云帆
肖文龙 罗宇翔
安伟 游宇翔
刘小东 刘宇轩
王晓涵 周宇阳
陈晓康 朱宇轩
聂晓涛 黄艳萍
程鑫 李耀辉
刘鑫 郑毅
谢鑫 朱宇晨
刘兴超 马云贤
杨新宇 唐颖
李新元 查宇坤
苏学成 严宇婷
林旭恒 任志志
李学强 沙张力
金翔跃 付哲
陈晓莎 徐哲安
王晓祥 谢振达
宋新义 张正岩
周新义 郝哲文
王贤祖 马志成
单新霞 严志刚
21
===== 第22页 =====
朱子佳 黄振
刘子俊* 徐志鹏
李子林 张忠宇
谢子伟 张振
宋子阳
潘子正
在每个角色中,作者按名字的字母顺序列出。标有 * 的姓名表示已离开我们团队的成员。
22