当前位置：首页 > article >正文

DeepSeek-R1 论文阅读总结

article 2025/3/13 23:17:41

1. QA问答（我的笔记）

Q1: DeepSeek如何处理可读性问题？

通过构建冷启动数据（数千条长CoT数据）微调基础模型，结合多阶段训练流程（RL训练、拒绝采样生成SFT数据），并优化输出格式（如特殊标记分隔），显著提升可读性。相比仅用RL的Zero版本，改进后的R1保持了推理能力且输出更易读。

Q2: DeepSeek-R1-Zero与R1的核心区别？

-R1-Zero：纯RL训练，无监督数据，输出存在语言混杂、可读性差

-R1：引入监督学习阶段

冷启动阶段用高质量CoT数据微调

拒绝采样生成600K过滤数据（移除混合语言/冗余内容）

二阶段RL（推理任务用规则奖励，通用任务用人类偏好奖励）

Q3: 如何验证推理能力蒸馏效果？

在标准评测网站（如LiveCodeBench/Codeforces）测试，经蒸馏的小模型性能超越直接用RL训练的同规模模型。

Q4: 成本节约方法？

自进化RL减少监督数据需求

GRPO算法优化RL训练效率

复用V3训练集生成思维链

2. 论文核心贡献（做了什么）

方法论创新：提出四阶段训练框架（冷启动→推理RL→数据生成→通用能力RL）

性能突破：在数学（MATH-500 97.3%）知识任务（MMLU 90.8%）达到SOTA

工程实践：解决纯RL训练的可读性缺陷，构建首个支持人类友好CoT的RL优化模型

技术验证：证明RL可通过自我进化提升推理能力，且该能力可蒸馏至小模型

3. 关键技术路径

3.1 混合奖励机制

任务类型	奖励构成	目标特性
推理任务	准确性(70%)+过程合规性(30%)	严谨性
通用任务	有用性(50%)+无害性(30%)+可读性(20%)	安全性

3.2 数据生产管线

4. 当前局限性

4.1 技术瓶颈

MCTS应用失败：语言生成空间离散性导致搜索复杂度爆炸（相比围棋增长10^3倍）

过程奖励困境：

原子步骤定义模糊（如数学证明中间态）

需人工标注百万级步骤数据（成本$380K+）

奖励黑客问题频发（模型学会伪造合规步骤）

4.2 实践缺陷

5. 未来方向

短期重点

蒸馏优化：探索RL+蒸馏联合框架（当前仅用SFT）

架构改进：

动态上下文窗口（当前固定4K）

混合专家系统（MoE）提升工程能力

长期愿景

自进化系统：构建完全闭环的RL训练生态（人工标注量<1%）

多模态推理：扩展至视觉-语言联合推理场景

安全增强：研发可解释的奖励模型（当前黑盒率>92%）

查看全文

http://www.kler.cn/a/583358.html

ubuntu 解决 DNS 代理设置错误，导致不能上网的 DoH、DoT问题

鸿基智启：东土科技为具身智能时代构建确定性底座

水雷探测用水下航行器侧扫声纳成像数据之论文阅读

Deepin通过二进制方式升级部署高版本 Docker

c语言结构体对齐

2020年蓝桥杯第十一届CC++大学B组（第一次）真题及代码

WPF 与 GMap.NET 结合实现雷达目标动态显示与地图绘制

JVM常用概念之常量

【MySQL基础-3.1】MySQL DDL 语句详解：数据库操作篇

sql语句分页的关键字是?

什么是 React 的合成事件？

paimon---同步mysql数据到paimon表中

uv python包管理工具

[极客大挑战 2019]FinalSQL【SQL布尔盲注】

Ubuntu 使用快速入门 | Android Framework

电机控制常见面试问题（九）

用TypeScript和library needle来创建视频爬虫程序

使用AI一步一步实现若依前端(6)

【每日学点HarmonyOS Next知识】路由栈问题、图片圆角、颜色资源转十六进制字符串、数据集变化崩溃、组件声明周期

Qt | 屏幕截图实现