当前位置: 首页 > article >正文

[论文笔记] Deepseek技术报告

1. 总体概述

  • 背景与目标

    • 报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。
    • 介绍了两代模型:DeepSeek-R1-Zero(纯 RL,无 SFT 冷启动数据)和 DeepSeek-R1(在 RL 前加入少量冷启动数据和多阶段训练流程,提升可读性及推理表现)。
  • 核心思路

    • 直接在基础模型上应用大规模强化学习,利用规则设计的奖励机制(包括准确性奖励和格式奖励)激励生成长链思维(CoT)。
    • 通过拒绝采样和后续的监督微调,进一步改善模型输出的可读性和对齐人类偏好。
    • 利用蒸馏技术,将大模型中学到的推理模式迁移到较小的密集模型中,提升小模型在推理任务上的表现。

2. 主要贡献

  • 纯 RL 训练推理能力

    • DeepSeek-R1-Zero

http://www.kler.cn/a/533815.html

相关文章:

  • MySQL 缓存机制与架构解析
  • github下载失败网页打开失败 若你已经知道github地址如何cmd下载
  • Node.js与嵌入式开发:打破界限的创新结合
  • Windows图形界面(GUI)-QT-C/C++ - QT Frame
  • swagger使用指引
  • Java 大视界 -- Java 大数据在智能医疗影像诊断中的应用(72)
  • 【Elasticsearch】`auto_date_histogram`聚合功能详解
  • MLA 架构
  • Ubuntu部署Deepseek-R1模型(8b)
  • 基于微信小程序的医院综合服务平台的设计与实现ssm+论文源码调试
  • 亚博microros小车-原生ubuntu支持系列:22 物体识别追踪
  • AI绘画:解锁商业设计新宇宙(6/10)
  • 使用request库实现接口测试-笔记
  • 阿里云 ubuntu22.04 中国区节点安装 Docker
  • 2024年12月 Scratch 图形化(一级)真题解析 中国电子学会全国青少年软件编程等级考试
  • arm 下 多线程访问同一变量 ,使用原子操作 性能差问题
  • 【Git】二、分支管理详解
  • 2024年12月 Scratch 图形化(三级)真题解析 中国电子学会全国青少年软件编程等级考试
  • 记录一下 在Mac下用pyinstallter 打包 Django项目
  • 自己实现的一个缓存数据库(搞着玩) .net Core/6/8/9
  • 【C语言高级特性】位操作(二):应用场景
  • python开发:爬虫示例——GET和POST请求处理
  • vue2-给data动态添加属性
  • WPS中解除工作表密码保护(忘记密码)
  • 手写MVVM框架-实现v-model(单向绑定)
  • rabbitMQ数据隔离