当前位置: 首页 > article >正文

DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力

论文链接:

[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

实在太长,自行扔到 Model 里,去翻译去提问吧。

工作原理:

主要技术,就是训练出一些专有用途小模型,来帮助大模型训练。   主要技术:

1. 强化学习 (RL)

核心是强化学习技术,像训练小狗一样,当模型做出正确的推理步骤或得到正确的结果时,就会获得奖励,给 <think> </think> 标记;否则受到惩罚。 通过不断地学习和调整,模型的推理能力就越来越强。 强化学习过程分为多个阶段,包括直接在基础模型上进行强化学习 (DeepSeek-R1-Zero),以及在加入少量人工整理的数据后进行强化学习。

2.  冷启动数据

为了让模型更“听话”,在 DeepSeek-R1-Zero 的基础上加入了一些人工整理的数据,并进行多阶段训练。 这些数据可以帮助模型更好地理解人类的语言和思维方式,从而提高推理的准确性和可读性。  

3. 多阶段训练

训练过程分为多个阶段,包括冷启动阶段、推理导向的强化学习阶段、拒绝采样和监督微调阶段,以及针对所有场景的强化学习阶段。 每个阶段都有不同的目标和侧重点,从而保证模型的推理能力和泛化能力都能得到提升。

4. 知识蒸馏

DeepSeek-R1 生成大量的训练数据,然后用这些数据来训练 smaller models。可以显著提高 smaller models 的推理性能,降低计算成本。  


http://www.kler.cn/a/528960.html

相关文章:

  • 前端面试笔试题目(一)
  • Nginx知识
  • CSS:跑马灯
  • MySQL CTE:解锁SQL查询新模式
  • Android13源码下载和编译过程详解
  • 5.3.2 软件设计原则
  • 当卷积神经网络遇上AI编译器:TVM自动调优深度解析
  • python算法和数据结构刷题[3]:哈希表、滑动窗口、双指针、回溯算法、贪心算法
  • 排查定位jar包大文件
  • kamailio-ACC模块介绍【kamailio6.0. X】
  • 996引擎 -地图-设置出生地
  • 在LINUX机器上 在线安装DeepSeek R1与测试
  • 【Pandas】pandas Series kurt
  • VLN视觉语言导航基础
  • (9)下:学习与验证 linux 里的 epoll 对象里的 EPOLLIN、 EPOLLHUP 与 EPOLLRDHUP 的不同。小例子的实验
  • happytime
  • (即插即用模块-特征处理部分) 二十、(TPAMI 2022) Permute-MLP 置换MLP模块
  • LeetCode题练习与总结:种花问题--605
  • C基础寒假练习(6)
  • 【数据采集】案例01:基于Scrapy采集豆瓣电影Top250的详细数据
  • 解决istoreos无法拉取青龙镜像
  • Java小白入门教程:HashSet
  • ZZNUOJ(C/C++)基础练习1031——1040(详解版)
  • 【JAVA】循环语句
  • 工作中使用到的单词(软件开发)_第一、二、三版汇总
  • TensorFlow 示例摄氏度到华氏度的转换(一)