全新推理模型 DeepSeek-R1 问世,全面对标 OpenAI o1
DeepSeek-R1强势来袭
2025年注定是AI大爆发的一年。就在昨天,深度求索发布了全新的推理模型——DeepSeek-R1,全面对标 OpenAI 的 o1 模型。DeepSeek-R1 遵循 MIT License 协议,这意味着用户可以自由使用模型,并通过蒸馏技术利用 R1 训练其他模型。此外,DeepSeek 还上线了 R1 的 API,用户在调用时只需设置model='deepseek-reasoner',即可轻松体验其强大的推理功能。从各个高难度benchmark结果来看,DeepSeek-R1已经比肩OpenAI-o1-1217,妥妥的第一梯队推理模型。同时蒸馏Qwen2.5-32B而来的DeepSeek-R1-32B也取得非常惊艳的效果,和OpenAI-o1-mini旗鼓相当。
训练方法
DeepSeek-R1 的训练方法与传统的 SFT+RL 方式不同。深度求索发现,即使不使用监督微调(SFT),也可以通过大规模强化学习(RL)显著提高推理能力。DeepSeek-R1 的训练过程分为以下几个阶段:
DeepSeek-R1-Zero:
算法:采用 Group Relative Policy Optimization(GRPO)算法进行强化学习。
奖励机制:结合准确性奖励和格式奖励,指导模型的学习。准确性奖励评估模型生成的响应是否正确,对于数学问题匹配标准答案,对于代码问题基于编译执行单测进行验证。格式奖励则确保推理过程以标准 <think>
标签包裹。
性能表现:在 AIME 2024 等任务上,达到了与 OpenAI-o1-0912 相当的水平。
DeepSeek-R1:
冷启动数据:通过少量高质量数据进行微调,提升模型的可读性和推理能力。使用 few-shot 提示,直接提示 DeepSeek-R1-Zero 通过反思和验证生成详细答案,再通过人工注释者的后处理来细化结果。
面向推理的强化学习:继续针对推理任务进行强化学习,增加语言一致性奖励,解决语言混杂问题。
拒绝采样与监督微调:通过拒绝采样生成新的 SFT 数据,提升模型的通用能力。推理数据采用拒绝采样方式从前一阶段得到的模型生成推理过程,同时引入无法用规则进行奖励的数据。非推理数据使用 DeepSeek-V3 生成,共计80万样本。
面向全场景的强化学习:为了平衡推理能力和通用能力,最后再进行一次 RL。对于不同的数据类型,采用不同的 prompt 和奖励。对推理数据使用基于规则的奖励,对通用数据使用通用的 RM 来进行奖励。
蒸馏技术
深度求索团队进一步探索了将 R1 的推理能力蒸馏到更小的模型中的可能性。利用 R1 生成的数据,对 Qwen 和 Llama 系列的多个小模型进行了微调,取得了显著的效果。
-
R1-Distill-Qwen-7B 在 AIME 2024 上的得分达到了 55.5%,远超 QwQ-32B-Preview。
-
R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%,这些结果显著优于之前的开源模型,并与 o1-mini 相当。
下面对比了 R1-Distill-Qwen-32B 和 R1-Zero-Qwen-32B 的性能。结果表明,直接在 Qwen-32B-Base 上进行强化学习,只能达到与 QwQ-32B-Preview 相当的水平,而经过 R1 蒸馏的 Qwen-32B 模型则远超两者。这说明,R1 学到的推理模式具有很强的通用性和可迁移性,可以通过蒸馏的方式传递给其他模型。
性能评估
在多个任务的测试中,DeepSeek-R1 展现了强大的性能:
-
推理任务:在 AIME 2024、MATH-500 等任务上,取得了与 OpenAI-o1-1217 相媲美的成绩。
-
知识密集型任务:在 MMLU、MMLU-Pro 和 GPQA Diamond 等任务上,性能显著超越了 DeepSeek-V3 模型。
-
长文本理解任务:在 FRAMES 数据集上的准确率达到了 82.5%,优于 DeepSeek-V3 模型。
-
开放式问答任务:在 AlpacaEval 2.0 和 Arena-Hard 基准测试中,分别取得了 87.6%的 LC-winrate 和 92.3%的 GPT-4-1106 评分。
模型下载
OpenCSG社区:
https://opencsg.com/models/deepseek-ai/DeepSeek-R1-Zero
https://opencsg.com/models/deepseek-ai/DeepSeek-R1