当前位置: 首页 > article >正文

【LLM】DeepSeek R1训练成本降低分析篇

note

  • DeepSeek-R1-Zero奖励:准确性奖励+格式奖励;R1-Zero不足:可读性较差、语言混合等
  • DeepSeek-R1 在DeepSeek-R1-Zero基础上,借助冷启动数据和多阶段训练(增强推理过程可读性、增强面向通用指令的推理能力),进一步提升了模型性能

文章目录

  • note
  • 一、DeepSeek R1训练流程回顾
    • 1. DeepSeek-R1-Zero的训练
    • 2. DeepSeek-R1的训练
  • 二、Deepseek怎么压缩训练成本
  • Reference

一、DeepSeek R1训练流程回顾

1. DeepSeek-R1-Zero的训练

  • DeepSeek-R1-Zero奖励:准确性奖励+格式奖励
  • R1-Zero不足:可读性较差、语言混合等

在这里插入图片描述

2. DeepSeek-R1的训练

  • DeepSeek-R1-Zero 作为纯强化学习的成功实践,证明了大语言模型在无监督数据下通过强化学习发展推理能力的可能性;
  • DeepSeek-R1 在此基础上,借助冷启动数据和多阶段训练(增强推理过程可读性、增强面向通用指令的推理能力),进一步提升了模型性能,达到与 OpenAI-o1-1217 相媲美的水平,且在蒸馏小模型上也取得了优异成果。

在这里插入图片描述

阶段一:增强推理过程可读性

  • 冷启动
    • 以DeepSeek-V3为基础,构建并收集少量Long-CoT数据来微调模型,防止RL训练早期不稳定和可读性差问题。
  • 推理导向的强化学习
    • 以阶段1模型为基础,针对代码、数学和逻辑推理等推理密集型任务,采用与R1-Zero相同的大规模RL来进行训练。
    • 引入语言一致性奖励(CoT中目标语言单词的比例)来缓解语言混杂问题

阶段二:增强面向通用指令的推理能力

  • 拒绝采样和监督微调

    • 通过拒绝采样,使用阶段2(推理导向的强化学习)模型合成高质量推理数据;
    • 通用领域的SFT数据(V3 SFT数据+V3 COT合成数据);
    • 以DeepSeek-V3为基础,微调模型以增强模型在写作、角色扮演等通用任务中的能力。
  • 通用任务的强化学习

    • 以阶段3模型(拒绝采样和监督微调后)为基础,通过RL提高模型的有用性和无害性,同时完善其推理能力。
    • 对于推理任务,利用基于规则的奖励来指导;对于其他任务,采用奖励模型来对齐人类偏好。

二、Deepseek怎么压缩训练成本

在这里插入图片描述

完整的训练pipeline:
在这里插入图片描述

Reference

[1] 如何评价deepseek-R1与deepseek-R1-Zero模型
[2] https://pdf.dfcfw.com/pdf/H3_AP202502071642869956_1.pdf?1738953726000.pdf


http://www.kler.cn/a/539949.html

相关文章:

  • ASP.NET Core JWT Version
  • Http 的响应码有哪些? 分别代表的是什么?
  • C# OpenCvSharp 部署MOWA:多合一图像扭曲模型
  • Faveo Helpdesk存在目录遍历漏洞(CVE-2024-37700)
  • 1.2 变革里程碑:Transformer 的崛起
  • MongoDB开发规范
  • c++ haru生成pdf输出饼图
  • 安卓基础(Okhttp3)
  • ZooKeeper 技术全解:概念、功能、文件系统与主从同步
  • 【SQL技术】不同数据库引擎 SQL 优化方案剖析
  • 软件测试之通用功能测试点
  • Visual Basic语言的图形用户界面
  • 位运算算法篇:异或运算
  • webpack配置语言之---ts
  • 用DeepSeek写小程序指令技巧
  • doris:MySQL 兼容性
  • 【含开题报告+文档+PPT+源码】基于SpringBoot+Vue旅游管理网站
  • PromptSource官方文档翻译
  • 我准备做一个24H的摄像机模拟器,用录像视频模拟实时画面,如果能支持时间水印就更好了
  • user、assistant、system三大角色在大语言模型中的作用(通俗解释)
  • 荣耀已接入DeepSeek-R1,荣耀手机系统版本MagicOS8.0及以上用户可用
  • VSCode 下载与使用教程:附百度网盘地址
  • Word中Ctrl+V粘贴报错问题
  • 为什么代理了网络ip没有变化
  • chrome-base 如何实现一个BindOnce
  • 大语言模型prompt -Template