DeepSeek-R1-技术文档
模型介绍:
-
DeepSeek - R1 - Zero:通过大规模强化学习训练,不依赖监督微调作为前期步骤,展现出卓越的推理能力,在强化学习过程中自然产生了许多强大且有趣的推理行为。但它存在一些缺陷,比如生成内容可读性欠佳,出现语言混杂的情况。
-
DeepSeek - R1:为解决DeepSeek - R1 - Zero的问题并进一步提升推理性能而开发。在进行强化学习之前,采用了多阶段训练和冷启动数据的方法。在推理任务方面,其性能可与OpenAI - o1 - 1217相媲美。
开源支持:为推动研究社区的发展,团队决定开源DeepSeek - R1 - Zero和DeepSeek - R1这两款模型。此外,还将开源六个基于Qwen和Llama,并从DeepSeek - R1提炼得到的不同参数规模的稠密模型,参数规模分别为15亿、70亿、80亿、140亿、320亿和700亿 。开源这些模型有助于其他研究人员在此基础上进行更深入的研究和开发。
0 deepseek-r1 小结
1. 多阶段训练策略
DeepSeek-R1 的训练过程分为多个阶段,每个阶段都有其独特的训练目标和方法:
-
冷启动微调阶段:使用数千条高质量的冷启动数据进行监督微调(SFT),这些数据由 DeepSeek-R1-Zero 生成,经过人工筛选和优化,确保可读性和推理质量。
-
强化学习阶段:在冷启动微调后,模型进入强化学习(RL)阶段,通过准确性、格式和一致性奖励机制优化推理能力。
-
拒绝采样与数据收集:在强化学习过程中,使用拒绝采样技术筛选高质量的推理样本,并将其用于后续的微调。
-
全任务强化学习优化:最后,模型在所有任务上进行强化学习优化,进一步提升其综合性能。
2. 冷启动数据的构建
冷启动数据是 DeepSeek-R1 训练的关键,其构建方法包括:
-
少样本提示:使用少量示例引导模型生成详细的推理过程。
-
从 DeepSeek-R1-Zero 生成数据:挑选 DeepSeek-R1-Zero 中可读性较好的推理结果,并进行人工优化。
-
人工筛选和优化:通过人工审查和优化,确保数据的格式规范和表达清晰。
3. 群体相对策略优化(GRPO)
DeepSeek-R1 使用了群体相对策略优化(GRPO)算法进行强化学习:
-
动态奖励机制:通过准确性与格式双重奖励,减少对标注数据的依赖,提升模型的自主推理能力。
-
群体评分:GRPO 通过群体评分来估算基线,从而减少训练资源。
4. 模型架构
DeepSeek-R1 系列包括两个核心版本:
-
R1-Zero:完全依赖强化学习,无需监督微调,展现了自我验证和长链推理能力。
-
R1:结合监督微调和强化学习,显著提升了推理能力和响应的可读性。
5. 性能表现
DeepSeek-R1 在多个基准测试中表现出色:
-
AIME 2024:准确率达到 79.8%,超越 OpenAI 的 o1-1217。
-
MATH-500:得分 97.3%,行业领先。
-
编程任务:在 SWE-bench 验证中展现了卓越的代码生成能力。
6. 蒸馏技术
DeepSeek-R1 还通过蒸馏技术将推理能力压缩至更小的模型版本(如 15 亿至 700 亿参数),通过合成数据微调,实现低成本高性能的平衡。
7. 局限性
尽管 DeepSeek-R1 在推理能力上取得了显著进展,但仍存在一些局限性:
-
特定格式输出稳定性不足:在多语言混合场景中,模型的输出稳定性仍有待提高。
-
对提示敏感:少样本提示可能导致性能波动。
1 Introduction
这段文本围绕大语言模型推理能力提升展开,先阐述领域背景,后介绍团队基于强化学习的创新方法及成果,具体如下:
-
背景与挑战
-
大语言模型发展趋势:近年来,大语言模型快速发展,不断缩小与通用人工智能的差距。后训练成为重要环节,能在较少计算资源下提升模型多方面能力,如推理准确性、价值对齐和用户偏好适配。
-
推理能力提升的挑战:OpenAI的o1系列模型通过延长思维链推理过程提升推理性能,但测试时的有效缩放仍是难题。此前研究尝试多种方法,如基于过程的奖励模型、强化学习、搜索算法等,但通用推理性能均不如o1系列模型。
-
-
基于强化学习提升推理能力的探索
-
研究目标与方法:本文旨在通过纯强化学习提升语言模型推理能力,探索模型在无监督数据下自我进化发展推理能力的潜力。以DeepSeek - V3 - Base为基础模型,采用GRPO强化学习框架训练推理模型。
-
DeepSeek - R1 - Zero模型成果与问题:训练过程中,DeepSeek - R1 - Zero自然产生强大有趣的推理行为,在推理基准测试中表现出色,如在2024年AIME测试中,单模型准确率大幅提升,通过多数投票法分数更高,达到与OpenAI - o1 - 0912相当的水平。然而,该模型存在可读性差和语言混杂的问题。
-
-
DeepSeek - R1模型改进
-
改进方法:为解决DeepSeek - R1 - Zero的问题并进一步提升性能,提出DeepSeek - R1模型,采用多阶段训练流程并加入少量冷启动数据。首先收集冷启动数据微调DeepSeek - V3 - Base模型;接着进行类似DeepSeek - R1 - Zero的面向推理强化学习;强化学习接近收敛时,通过拒绝采样结合其他领域监督数据创建新SFT数据,再次训练模型;用新数据微调后,检查点再进行一轮考虑所有场景提示的强化学习。
-
改进成果:经过这些步骤得到的DeepSeek - R1模型性能与OpenAI - o1 - 1217相当。
-
-
模型提炼与开源
-
模型提炼:探索从DeepSeek - R1提炼更小的稠密模型,以Qwen2.5 - 32B为基础模型,直接提炼效果优于直接应用强化学习,表明大模型发现的推理模式对提升推理能力很关键。
-
模型开源:开源提炼后的Qwen和Llama系列模型,其中140亿参数模型远超同类开源模型QwQ - 32B - Preview,320亿和700亿参数模型在稠密模型推理基准测试中创新纪录。
-
1.1 Contributions
Post-Training: Large-Scale Reinforcement Learning on the Base Model
-
DeepSeek - R1 - Zero的创新训练方式:
-
传统训练大语言模型时,监督微调(SFT)常作为前期步骤。但这里直接对基础模型应用强化学习(RL),跳过SFT。这种方式让模型能够自主探索思维链(CoT)来解决复杂问题,最终开发出DeepSeek - R1 - Zero模型。
-
DeepSeek - R1 - Zero展现出了自我验证(模型能够自行检查推理结果的合理性)、反思(对推理过程进行回顾和改进)以及生成较长思维链等能力。这些能力的出现对研究界意义重大,标志着在大语言模型推理能力激发方面取得了重要进展。
-
该研究首次公开验证了大语言模型的推理能力可以完全依靠强化学习来激发,而不需要监督微调。这一成果为后续该领域的研究提供了新的方向和思路,推动了相关技术的进一步发展。
-
-
DeepSeek - R1的训练流程:
-
介绍了开发DeepSeek - R1所采用的训练流程。此流程包含两个强化学习阶段和两个监督微调阶段。
-
两个强化学习阶段的目标,一是发现更好的推理模式,让模型能够以更优的方式解决问题;二是使模型的输出与人类偏好保持一致,确保模型生成的内容符合人类的期望和价值观。
-
两个监督微调阶段则为模型的推理能力以及非推理能力(如文本生成、知识问答等一般性能力)提供基础支持,像种子一样帮助模型在不同方面更好地发展能力。整个流程有望助力创建性能更优越的模型,对行业发展具有积极意义。
-
Distillation: Smaller Models Can Be Powerful Too
-
大模型推理模式对小模型的提升:
-
研究表明,大模型所具有的推理模式能够被提炼到小模型中。相较于直接在小模型上通过强化学习去探索推理模式,这种从大模型提炼的方式能让小模型获得更好的性能表现。
-
开源的DeepSeek - R1模型及其API为研究界提供了有力工具,有助于其他研究人员在未来进一步提炼出性能更优的小模型,推动小模型性能提升的研究工作。
-
-
微调稠密小模型及卓越表现:
-
利用DeepSeek - R1生成的推理数据,对研究社区广泛使用的几个稠密模型进行了微调。经过微调后,这些提炼出的较小稠密模型在各项基准测试中成绩优异。
-
以DeepSeek - R1 - Distill - Qwen - 7B为例,在2024年AIME测试中达到了55.5%的成绩,超过了QwQ - 32B - Preview模型。DeepSeek - R1 - Distill - Qwen - 32B在不同测试中也表现出色,2024年AIME测试得分为72.6% ,MATH - 500测试得分为94.3%,LiveCodeBench测试得分为57.2%。这些成绩远超之前的开源模型,甚至可与o1 - mini相媲美。
</
-