当前位置：首页 > article >正文

大模型面试准备｜Deepseek r1技术报告

article 2025/2/25 0:52:06

前言：家人们，咱也是找到大模型的实习了，以下是我的面试准备，面完会更新一版新的，敬请期待吧！

Overview

模型	方法
DeepSeek-R1-Zero	纯强化学习
DeepSeek-R1	冷启动 SFT -> RL -> COT + 通用数据 SFT（80w）->全场景 RL
蒸馏小模型	直接用上面的 80w 数据进行SFT

DeepSeek-R1-Zero

完全摒弃传统的监督微调（SFT），直接通过大规模强化学习（RL）从基础模型（DeepSeek-V3-Base）训练，展示了纯 RL 驱动的推理能力涌现现象，但存在可读性差、语言混合等问题。

【纯强化学习推动的推理涌现】

无需 SFT 的 RL 路径：

采用 GRPO（Group Relative Policy Optimization） 算法，显著降低 RL 训练成本。
奖励机制设计为 准确性奖励（如数学答案匹配、代码执行验证）与 格式奖励（标准化思维链结构）结合，激发模型生成长链推理和自验证行为。
训练过程中观察到 “顿悟时刻”（Aha Moment），模型在中间版本突然学会为复杂问题分配更多思考步骤，展现了 RL 驱动的自主进化潜力。

DeepSeek-R1

在R1-Zero 基础上，引入少量冷启动数据（数千样本）和多阶段训练（SFT + RL），显著优化了输出质量，推理性能与 OpenAI-o1-1217 相当。

冷启动 SFT：人工筛选数千条高质量思维链数据，提升可读性。
推理场景 RL：在数学、代码任务中复用 R1-Zero 的 RL 框架，新增语言一致性奖励以抑制混合输出。
拒绝采样与通用 SFT：结合 RL 生成的数据和通用任务数据（总计 80 万样本），平衡推理与通用能力。
全场景 RL：针对不同任务类型动态调整奖励策略，最终实现性能与用户体验的平衡。

R1主要分为4个阶段，前两个阶段cold start和reasoning-oriented RL训练是为了给第3阶段产生SFT数据，在第四阶段混合rule-reward和peference reward做RL训练，解决R1-Zero问题，具有格式化、语言统一、推理模式判别、cot摘要功能。相较R1-Zero最大的特点是R1增加了对齐。

亿些小疑惑以及可能的答案

为什么GRPO（Group Relative Policy Optimization）比PPO好？

PPO为on policy路线，具体算法如下：

PPO存在的不足：
1、需要训练一个与Policy模型大小相当的Value模型，这带来了巨大的内存和计算负担；

2、LLM 通常只有最后一个 token 会被奖励模型打分，训练在每个 token 上都准确价值函数难；

因此，GRPO 避免了像 PPO 那样使用额外的 Value Model 近似，而是使用同一问题下多个采样输出的平均奖励作为baseline。

GRPO的优势：

• 无需额外的价值函数：

◦ GRPO 使用组内平均奖励作为基线，避免了训练额外的价值函数，从而减少了内存和计算负担。

• 与奖励模型的比较性质对齐：

◦ GRPO 使用组内相对奖励计算优势函数，这与奖励模型通常在同一问题的不同输出之间进行比较的性质相符。

• KL惩罚在损失函数中：

◦ GRPO 直接将训练策略 πθ 和参考策略 πref 之间的 KL 散度添加到损失中，而不是像 PPO 那样在奖励中添加 KL 惩罚项，从而避免了复杂化 A^i,t 的计算。

Cold Start的作用到底是？

GPT发布的时候为了防止各个厂商蒸馏，并未提供CoT，只提供思维摘要和最终结果。但DeepSeek开源让我们看到了模型内部的CoT具体是什么样的。

整个训练流程：

1.使用几千条高质量数据冷启动V3-Base，微调函数，解决可读性问题

2.以V3-Base为基础进行面向推理的强化学习(RL)，得到了R1-Zero

3.在R1-Zero的基础之上使用V3的蒸馏数据进行新一轮的训练拓展功能性

4.重复第二步，重新进行推理强化学习，得到DeepSeek-R1。

参考：

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning

Understanding Reasoning LLMs

https://www.zhihu.com/people/aigc-69/answers

https://github.com/chenzomi12/AIFoundation

http://www.kler.cn/a/559639.html

相关文章：

ProfiNet转EtherNet/IP攻克罗克韦尔PLC与光伏电站监控系统连接难题的通讯配置技术

golang深度学习-基础篇

51单片机-定时器中断

DeepSeek学习教程从入门到精通pdf下载：快速上手 DeepSeek

【SQL实验】触发器

说一下HashMap的底层原理

ZLMediakit开源视频服务器——配置到本地服务器

简识Kafka集群与RocketMQ集群的核心区别

Vue3大文件分片上传，断点续传TS语法（核心思路）

PyTorch 深度学习框架中 torch.cuda.empty_cache() 的妙用与注意事项

阿里云SLB负载均衡的ALB和NLB有啥区别？一个是7层一个是4层

C++ 设计模式-策略模式

Docker基于Ollama本地部署大语言模型

使用大语言模型（Deepseek）构建一个基于 SQL 数据的问答系统

Django+Vue3全栈开发实战：从零搭建博客系统

为什么Redis不支持回滚？

自签SSL实现https

PHP房屋出租出售高效预约系统小程序源码

Linux：互斥

硬核技术组合！用 DeepSeek R1、Ollama、Docker、RAGFlow 打造专属本地知识库