当前位置：首页 > article >正文

【AI学习】关于 DeepSeek-R1的几个流程图

article 2025/2/9 6:46:22

遇见关于DeepSeek-R1的几个流程图，清晰易懂形象直观，记录于此。

流程图一

来自文章《Understanding Reasoning LLMs》，
文章链接：https://magazine.sebastianraschka.com/p/understanding-reasoning-llms?continueFlag=af07b1a0954d90469bc6f6584075da3b

在这里插入图片描述
《以 DeepSeek R1 为例学习“推理型大语言模型》是翻译版。摘录其中对流程的描述：

DeepSeek-R1-Zero
该模型基于 DeepSeek 在 2024 年 12 月发布的 671B 规模预训练基础模型 DeepSeek-V3。团队对其进行强化学习（RL）训练，并使用了两类奖励作为回报信号。由于没有进行监督微调（SFT），也就是常见“RLHF”流程中的 SFT 步骤被跳过，所以他们把这称为“冷启动”的方式（Cold Start）。
DeepSeek-R1
这是 DeepSeek 的主力推理模型，也是在 DeepSeek-R1-Zero 的基础上进一步引入额外的 SFT 阶段与更多轮的 RL 训练而成，性能优于“冷启动”的 R1-Zero。
DeepSeek-R1-Distill
他们还用前述训练过程中的 SFT 数据来微调了 Qwen 和 Llama 等较小模型，以提升这些模型的推理能力。虽然他们把这个过程称为“蒸馏”，但并不是传统意义上的知识蒸馏，更像是用大模型的输出数据去监督微调（SFT）小模型（包括 Llama 8B 和 70B，以及 Qwen 1.5B–30B）。

流程图二

下面的流程图非常详细，出处不详
在这里插入图片描述

Hugging Face的复刻流程图

Hugging Face推出Open R1，这是对DeepSeek-R1的开源复现项目，复刻流程如下：
在这里插入图片描述

图解DeepSeek-R1

来自@爱可可-爱生活
【一图解读DeepSeek-R1】
穿越DeepSeek的技术进化史，让我们看到了一个令人振奋的AI发展轨迹：从无监督起步，到结构化优化，再到轻量级蒸馏，每一步都彰显着AI大众化的曙光。
DeepSeek-R1-Zero像个天赋异禀的孩子，通过GRPO这个高效的强化学习框架，自主掌握了思考的艺术。它展现出自反思和结构化思维的能力，虽然初期表达还略显生涩，但这正是“会走”之前必经的阶段。
随后，DeepSeek-R1借助精心设计的Chain-of-Thought数据集进行“冷启动”训练，就像接受了系统的教育，不仅改善了表达，更习得了清晰的推理步骤。通过强化学习和巧妙的奖励机制，它在数学、编程等领域的表现更趋近人类思维。
最令人瞩目的是蒸馏技术的突破它让我们看到了AI普及的希望。就像优秀导师能让学生青出于蓝，DeepSeek团队成功将大模型的智慧浓缩进更小的架构（如Qwen-7B和Llama-8B），几乎不损失性能。这意味着，高质量的AI助手将可以运行在更普及的设备上，真正服务于图书推荐、在线辅导等实际应用场景。
在这里插入图片描述