当前位置: 首页 > article >正文

【AI学习】关于 DeepSeek-R1的几个流程图

遇见关于DeepSeek-R1的几个流程图,清晰易懂形象直观,记录于此。

流程图一

来自文章《Understanding Reasoning LLMs》,
文章链接:https://magazine.sebastianraschka.com/p/understanding-reasoning-llms?continueFlag=af07b1a0954d90469bc6f6584075da3b

在这里插入图片描述
《以 DeepSeek R1 为例学习“推理型大语言模型》是翻译版。摘录其中对流程的描述:

  1. DeepSeek-R1-Zero
    该模型基于 DeepSeek 在 2024 年 12 月发布的 671B 规模预训练基础模型 DeepSeek-V3。团队对其进行强化学习(RL)训练,并使用了两类奖励作为回报信号。由于没有进行监督微调(SFT),也就是常见“RLHF”流程中的 SFT 步骤被跳过,所以他们把这称为“冷启动”的方式(Cold Start)。
  2. DeepSeek-R1
    这是 DeepSeek 的主力推理模型,也是在 DeepSeek-R1-Zero 的基础上进一步引入额外的 SFT 阶段与更多轮的 RL 训练而成,性能优于“冷启动”的 R1-Zero。
  3. DeepSeek-R1-Distill
    他们还用前述训练过程中的 SFT 数据来微调了 Qwen 和 Llama 等较小模型,以提升这些模型的推理能力。虽然他们把这个过程称为“蒸馏”,但并不是传统意义上的知识蒸馏,更像是用大模型的输出数据去监督微调(SFT)小模型(包括 Llama 8B 和 70B,以及 Qwen 1.5B–30B)。

流程图二

下面的流程图非常详细,出处不详
在这里插入图片描述

Hugging Face的复刻流程图

Hugging Face推出Open R1,这是对DeepSeek-R1的开源复现项目,复刻流程如下:
在这里插入图片描述

图解DeepSeek-R1

来自@爱可可-爱生活
【一图解读DeepSeek-R1】
穿越DeepSeek的技术进化史,让我们看到了一个令人振奋的AI发展轨迹:从无监督起步,到结构化优化,再到轻量级蒸馏,每一步都彰显着AI大众化的曙光。
DeepSeek-R1-Zero像个天赋异禀的孩子,通过GRPO这个高效的强化学习框架,自主掌握了思考的艺术。它展现出自反思和结构化思维的能力,虽然初期表达还略显生涩,但这正是“会走”之前必经的阶段。
随后,DeepSeek-R1借助精心设计的Chain-of-Thought数据集进行“冷启动”训练,就像接受了系统的教育,不仅改善了表达,更习得了清晰的推理步骤。通过强化学习和巧妙的奖励机制,它在数学、编程等领域的表现更趋近人类思维。
最令人瞩目的是蒸馏技术的突破它让我们看到了AI普及的希望。就像优秀导师能让学生青出于蓝,DeepSeek团队成功将大模型的智慧浓缩进更小的架构(如Qwen-7B和Llama-8B),几乎不损失性能。这意味着,高质量的AI助手将可以运行在更普及的设备上,真正服务于图书推荐、在线辅导等实际应用场景。
在这里插入图片描述


http://www.kler.cn/a/537499.html

相关文章:

  • 【R语言】apply函数族
  • Houdini subuv制作输出阵列图
  • ZZNUOJ(C/C++)基础练习1081——1090(详解版)
  • Three.js 实现海面效果
  • 详解python的单例模式
  • B站自研的第二代视频连麦系统(上)
  • 使用 Docker 和 PM2 构建高并发 Node.js API 网关
  • 基于java的美食信息推荐系统的设计与实现(LW+源码+讲解)
  • Linux C++语言函数调用栈打印
  • MySQL 8.0.41安装教程(2025年2月8号)
  • Spring Boot和SpringMVC的关系
  • kafka消费端之消费者协调器和组协调器
  • 2023 Java 面试题精选30道
  • 【ROS2】【2025】Simulate a 6DoF Robotic Arm in Gazebo and ROS2
  • Vue 入门到实战 八
  • Oracle Database Free版本的各项许可限制
  • Windows 实用设置工具 v3.6.5:一键优化系统设置
  • TCP三次握手全方面详解
  • SSD1306 128*32屏幕驱动
  • Java 读取 Word 模板文档并替换内容生成新文档
  • 探索C语言:寻找数组中连续1的最大长度
  • 软考网络安全 软考网络安全员
  • 使用Python开发PPTX压缩工具
  • 【ORACLE】这个‘‘和null不等价的场景,deepseek你怎么看?
  • 解决Element UI中el-select下拉框因为选项内容过长导致下拉框宽度显示过长问题
  • 25/2/8 <机器人基础> 阻抗控制