当前位置: 首页 > article >正文

DeepSeek-R1技术突破:基础模型强化学习+蒸馏小模型超越o1-mini

刚刚,DeepSeek-R1正式发布:API上线技术报告公开一口气开源了8个模型,DeepSeek-R1-Distill不要671B,最低只有1.5B(7B, 8B, 14B, 32B, 和70),完全可以run起来~

图片

此次DeepSeek-R1技术报告,带来两项亮点:

后训练:基础模型上的大规模强化学习

  • 直接将强化学习 (RL) 应用于基础模型,而无需依赖监督微调 (SFT) 作为初步步骤。这种方法允许模型探索解决复杂问题的思路 (CoT),从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等功能,标志着研究界的一个重要里程碑。值得注意的是,这是第一个公开研究,验证了 LLM 的推理能力可以纯粹通过 RL 来激励,而无需 SFT

  • 引入了用于开发 DeepSeek-R1 的流水线。该流水线包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。

图片

蒸馏:小模型同样强大

  • 证明了较大模型的推理模式可以提炼为较小的模型,与通过强化学习在小型模型上发现的推理模式相比,其性能更佳。开源的 DeepSeek-R1 及其 API 将有利于研究界在未来提炼出更好的小型模型。

  • 利用 DeepSeek-R1 生成的推理数据,对研究社区中广泛使用的多个稠密模型进行了微调。评估结果表明,经过提炼的较小稠密模型在基准测试中表现优异,超越OpenAI-o1-mini。向社区开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B checkpoints 。

图片

https://github.com/deepseek-ai/DeepSeek-R1/blob/dev/DeepSeek_R1.pdf

来源 | PaperAgent

赞赏二维码


http://www.kler.cn/a/515203.html

相关文章:

  • IntelliJ IDEA 2023.3 中配置 Spring Boot 项目的热加载
  • windows安装ES
  • MMYOLO:打破单一模式限制,多模态目标检测的革命性突破!
  • selenium获取登录token
  • Android系统开发(一):AOSP 架构全解析:开源拥抱安卓未来
  • postgresql15的停止
  • s/jwt-decode.js?v=534c014e‘ vue3引入jwt-decode报错
  • 电子应用设计方案101:智能家庭AI喝水杯系统设计
  • 群晖部署-Calibreweb
  • Windows系统提示RunDLL PcaWallpaperAppDetect错误修复方法
  • 新浪安卓(Android)开发面试题及参考答案(68道题,9道手撕题)
  • 人工智能学习(二)之Python 科学计算库
  • SSM开发(二) MyBatis两种SQL配置方式及其对比
  • 三篇物联网漏洞挖掘综述
  • 操作无法完成,因为文件已经在Electronic Team Virtual Serial Port Driver Service中打开
  • 软件测试 —— Postman初识
  • 最新-CentOS 7安装1 Panel Linux 服务器运维管理面板
  • JS学习之JavaScript模块化规范进化论
  • “模板”格式化发布新创诗(为《诗意 2 0 2 5》贡献力量)
  • 2024年美赛C题评委文章及O奖论文解读 | AI工具如何影响数学建模?从评委和O奖论文出发-O奖论文做对了什么?