当前位置: 首页 > article >正文

全新推理模型 DeepSeek-R1 问世,全面对标 OpenAI o1

DeepSeek-R1强势来袭

2025年注定是AI大爆发的一年。就在昨天,深度求索发布了全新的推理模型——DeepSeek-R1,全面对标 OpenAI 的 o1 模型。DeepSeek-R1 遵循 MIT License 协议,这意味着用户可以自由使用模型,并通过蒸馏技术利用 R1 训练其他模型。此外,DeepSeek 还上线了 R1 的 API,用户在调用时只需设置model='deepseek-reasoner',即可轻松体验其强大的推理功能。从各个高难度benchmark结果来看,DeepSeek-R1已经比肩OpenAI-o1-1217,妥妥的第一梯队推理模型。同时蒸馏Qwen2.5-32B而来的DeepSeek-R1-32B也取得非常惊艳的效果,和OpenAI-o1-mini旗鼓相当。

图片

训练方法

DeepSeek-R1 的训练方法与传统的 SFT+RL 方式不同。深度求索发现,即使不使用监督微调(SFT),也可以通过大规模强化学习(RL)显著提高推理能力。DeepSeek-R1 的训练过程分为以下几个阶段:

DeepSeek-R1-Zero:

算法:采用 Group Relative Policy Optimization(GRPO)算法进行强化学习。

奖励机制:结合准确性奖励和格式奖励,指导模型的学习。准确性奖励评估模型生成的响应是否正确,对于数学问题匹配标准答案,对于代码问题基于编译执行单测进行验证。格式奖励则确保推理过程以标准 <think> 标签包裹。

性能表现:在 AIME 2024 等任务上,达到了与 OpenAI-o1-0912 相当的水平。

图片

DeepSeek-R1:

冷启动数据:通过少量高质量数据进行微调,提升模型的可读性和推理能力。使用 few-shot 提示,直接提示 DeepSeek-R1-Zero 通过反思和验证生成详细答案,再通过人工注释者的后处理来细化结果。

面向推理的强化学习:继续针对推理任务进行强化学习,增加语言一致性奖励,解决语言混杂问题。

拒绝采样与监督微调:通过拒绝采样生成新的 SFT 数据,提升模型的通用能力。推理数据采用拒绝采样方式从前一阶段得到的模型生成推理过程,同时引入无法用规则进行奖励的数据。非推理数据使用 DeepSeek-V3 生成,共计80万样本。

面向全场景的强化学习:为了平衡推理能力和通用能力,最后再进行一次 RL。对于不同的数据类型,采用不同的 prompt 和奖励。对推理数据使用基于规则的奖励,对通用数据使用通用的 RM 来进行奖励。

    蒸馏技术

    深度求索团队进一步探索了将 R1 的推理能力蒸馏到更小的模型中的可能性。利用 R1 生成的数据,对 Qwen 和 Llama 系列的多个小模型进行了微调,取得了显著的效果。

    • R1-Distill-Qwen-7B 在 AIME 2024 上的得分达到了 55.5%,远超 QwQ-32B-Preview。

    • R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%,这些结果显著优于之前的开源模型,并与 o1-mini 相当。

    图片

    下面对比了 R1-Distill-Qwen-32B 和 R1-Zero-Qwen-32B 的性能。结果表明,直接在 Qwen-32B-Base 上进行强化学习,只能达到与 QwQ-32B-Preview 相当的水平,而经过 R1 蒸馏的 Qwen-32B 模型则远超两者。这说明,R1 学到的推理模式具有很强的通用性和可迁移性,可以通过蒸馏的方式传递给其他模型。 

    图片

     性能评估

    在多个任务的测试中,DeepSeek-R1 展现了强大的性能:

    • 推理任务:在 AIME 2024、MATH-500 等任务上,取得了与 OpenAI-o1-1217 相媲美的成绩。

    • 知识密集型任务:在 MMLU、MMLU-Pro 和 GPQA Diamond 等任务上,性能显著超越了 DeepSeek-V3 模型。

    • 长文本理解任务:在 FRAMES 数据集上的准确率达到了 82.5%,优于 DeepSeek-V3 模型。

    • 开放式问答任务:在 AlpacaEval 2.0 和 Arena-Hard 基准测试中,分别取得了 87.6%的 LC-winrate 和 92.3%的 GPT-4-1106 评分。

      图片

    模型下载

    OpenCSG社区:

    https://opencsg.com/models/deepseek-ai/DeepSeek-R1-Zero

    https://opencsg.com/models/deepseek-ai/DeepSeek-R1


    http://www.kler.cn/a/513731.html

    相关文章:

  1. 数据结构-ArrayList和顺序表
  2. 65,【5】buuctf web [SUCTF 2019]Upload Labs 2
  3. 二叉树--堆排序
  4. ARCGIS国土超级工具集1.3更新说明
  5. vue+高德API搭建前端Echarts图表页面
  6. mybatis的多对一、一对多的用法
  7. “深入浅出”系列之C++:(10)nlohmann Json库
  8. 【gopher的java学习笔记】Java中Mapper与Entity的关系详解
  9. 虚拟mock
  10. 学Python的人…
  11. 【Spring Boot】Spring AOP动态代理,以及静态代理
  12. 代码随想录刷题day13|(链表篇)24.两两交换链表中的结点
  13. github无法访问配置
  14. ubuntu24 springboot jar设置宕机重启
  15. 【2024年华为OD机试】(C/D卷,200分)- 5G网络建设 (JavaScriptJava PythonC/C++)
  16. Qt中自定义信号与槽
  17. JAVA基础语句整理
  18. 【JsonPath】JsonPath常用示例
  19. Linux和Windows系统之间实现文件共享
  20. 【STL】list 双向循环链表的使用介绍
  21. 后盾人JS -- Set与WeakSet类型在JavaScript中的使用
  22. 《鸿蒙Next原生应用的独特用户体验之旅》
  23. PyCharm+RobotFramework框架实现UDS自动化测试- (四)项目实战0x10
  24. UDP/TCP ②-三次握手 || 四次挥手 || 确认应答 || 超时重传
  25. Single-Model and Any-Modality for Video Object Tracking——2024——cvpr-阅读笔记
  26. 深入解析迁移学习:Transfer Learning模型介绍