当前位置：首页 > article >正文

DeepSeek-R1：大语言模型推理能力强化的创新探索

article 2025/2/28 14:13:14

在大语言模型（LLMs）快速发展的当下，提升模型推理能力成为研究的关键方向。DeepSeek推出的DeepSeek-R1在此背景下脱颖而出，其凭借独特的训练方式和技术创新，为LLMs推理能力的发展开辟了新路径。

一、DeepSeek-R1的诞生背景与意义

随着LLMs的广泛应用，对其推理能力的要求日益提高。传统依赖监督微调（SFT）的方式在数据收集上耗费大量时间和人力，且难以让模型真正自主地进行复杂推理。DeepSeek-R1旨在打破这一局限，通过在基础模型上直接应用强化学习，使模型能够自我进化出推理能力，减少对监督数据的依赖。这一创新不仅提升了模型在推理任务上的表现，还为LLMs的发展提供了新的思路和方法，推动整个领域朝着更加智能和自主的方向前进。

二、DeepSeek-R1-zero：奠定推理能力基础

（一）GRPO优化策略

在强化学习训练中，为降低成本，DeepSeek-R1-zero采用组相对策略优化（GRPO）。与传统近端策略优化（PPO）不同，GRPO放弃了评论模型，从组分数中估计基线。PPO在训练时需额外训练价值模型（Critic）估计优势A，而GRPO直接利用组内样本奖励计算基线。对于每个问题q，GRPO从旧策略采样一组输出，通过最大化特定目标优化策略模型。在计算过程中，裁剪概率比避免样本分布差异过大，保证训练稳定，同时引入KL散度确保新旧策略差异在合理范围。这一优化策略在节省计算资源的同时，有效提升了训练效率和模型性能。

（二）奖励建模方式

奖励系统对强化学习的优化方向起着关键作用。DeepSeek-R1-zero采用基于规则的奖励系统，主要包含准确性奖励和格式奖励。在数学和编程问题中，通过规则验证答案正确性给予准确性奖励；利用格式奖励强制模型将思考过程放在特定标签内，规范输出格式。考虑到奖励攻击风险以及训练资源和流程复杂性，未采用结果或过程神经奖励模型，也未重新训练奖励模型。

（三）训练模板设计

为引导模型生成推理过程和答案，设计了专门的指令模板。要求模型在标签内进行推理思考，在标签内给出最终答案。这种模板规范了模型输出结构，有助于提升推理的逻辑性和条理性，使模型更好地展示推理过程。

（四）性能表现与自我进化

DeepSeek-R1-zero在性能上达到与OpenAI-o1-0912相当的水平。在训练过程中，其思考时间不断增加，平均响应长度也随之增长，自发出现反思、探索替代方法等复杂行为。模型还学会重新评估初始方法，为问题分配更多思考时间，即出现“顿悟时刻”。这些现象表明模型在与强化学习环境的交互中不断进化，推理能力逐步提升，但也存在可读性差和语言混合的问题。

三、DeepSeek-R1：优化升级与能力拓展

（一）冷启动阶段

为解决DeepSeek-R1-zero训练不稳定的问题，DeepSeek-R1在训练早期进行冷启动。通过使用带有长思维链示例的少样本提示，引导模型生成详细答案，或收集DeepSeek-R1-zero的输出并人工后处理，将优化结果整理为特定格式，收集数千条数据微调DeepSeek-V3-Base，为后续训练提供稳定基础。

（二）面向推理的强化学习

在微调后的DeepSeek-V3-Base上应用与DeepSeek-R1-zero相同的强化学习过程，并引入语言一致性奖励，计算目标语言单词在思维链中的比例。虽然这一奖励机制在消融实验中使模型性能略有下降，但提升了模型输出的可读性，使最终奖励综合考虑推理任务准确性和语言一致性，增强了模型在推理密集型任务中的表现。

（三）拒绝采样和监督微调

为提升模型在写作、角色扮演等通用任务中的能力，利用强化学习训练好的模型生成监督微调数据。通过拒绝采样生成推理轨迹，过滤掉不符合要求的样本，得到60万条推理数据；对于非推理数据，重用DeepSeek-V3的部分数据并按需生成思维链，共收集20万条。用这80万条样本对DeepSeek-V3-Base进行2个epoch的监督微调，丰富了模型的能力。

（四）面向所有场景的强化学习

为使模型更符合人类偏好，进行第二阶段强化学习，提升模型的有用性和无害性。评估模型整个响应内容，包括推理过程和总结，确保最终答案有用且避免有害内容，使模型在各种场景下都能更好地满足用户需求。

四、蒸馏实验：提升小模型推理能力

为让小型模型具备类似DeepSeek-R1的推理能力，研究人员使用DeepSeek-R1生成80万条样本对开源模型Qwen和Llama进行微调。实验结果显示，这种蒸馏方法显著增强了小模型的推理能力。对比大规模强化学习训练的小模型，蒸馏得到的模型在所有基准测试上表现更优。这表明将强大模型蒸馏到小模型效果显著，而大规模强化学习训练小模型不仅需要巨大计算能力，还可能无法达到蒸馏模型的性能。

五、探索中的尝试与挑战

（一）过程奖励模型（PRM）

PRM旨在对模型生成过程分步骤打分，引导其采用更好的推理方法。但在实际应用中面临诸多挑战，如在一般推理中明确定义细粒度步骤困难，确定中间步骤正确性艰巨，引入基于模型的PRM易导致奖励攻击，且重新训练奖励模型会增加计算开销和训练流程复杂性。尽管PRM在某些方面有一定能力，但大规模强化学习中其优势难以抵消额外成本。

（二）蒙特卡罗树搜索（MCTS）

MCTS是一种树搜索算法，通过选择、拓展、模拟和反向传播四个步骤增强模型推理性能。受AlphaGo启发，研究人员尝试将其应用于大模型。先提示模型生成多个标签对应推理步骤，再用MCTS找到答案并训练模型。然而，在扩展到训练时遇到问题，token生成的指数级搜索空间远超国际象棋，设置最大拓展限制可能使模型陷入局部最优；训练一个好的价值模型难度大，影响MCTS在大模型训练中的效果。

六、DeepSeek-R1的局限性与未来展望

DeepSeek-R1虽取得显著成果，但仍存在一些局限性。在通用能力方面，其在函数调用、多轮对话等任务上不如DeepSeek-V3；语言混合问题突出，处理非中文和英文查询时可能出现语言混杂；对提示敏感，few-shot提示会降低性能；在软件工程任务中，由于评估时间长影响强化学习效率，改进效果不明显。针对这些问题，未来研究将聚焦于提升通用能力、优化多语言处理、减少提示依赖以及提高软件工程任务的强化学习效率，进一步推动DeepSeek-R1的发展和应用。

七、代码工作与社区支持

DeepSeek开源了DeepSeek-R1模型和蒸馏模型，方便研究人员和开发者进一步探索和应用。同时，社区也出现了复现DeepSeek-R1训练流程的工作，为模型的改进和拓展提供了更多思路和资源。使用https://ollama.com/可帮助用户更快地离线化部署模型，促进了模型的实际应用和推广。

DeepSeek-R1在强化学习提升LLMs推理能力的道路上迈出了重要一步。通过创新的训练方法、技术优化以及对多种策略的探索，为大语言模型的发展提供了宝贵经验和方向。尽管面临挑战，但随着研究的深入和技术的不断进步，未来有望在更多领域取得突破，实现更强大、更智能的语言处理能力。

查看全文

http://www.kler.cn/a/564633.html