当前位置: 首页 > article >正文

DeepSeek核心贡献:将SFT和RL统一的数学公式

OpenAI首席研究官肯定了DeepSeek的核心成果:通过强化学习自动生成了思维链(这些归功于DeepSeek的统一数学公式),详细见:DeepSeek秘诀:能在学习过程中突然顿悟!

  • 祝贺DeepSeek开发出o1级推理模型!他们的研究论文证明,他们独立发现了一些我们在实现o1过程中所提出的核心思想。

  • 然而,我认为外界的反应有些被夸大,特别是在成本方面的叙述。我们将继续提升模型以更低的成本提供服务的能力。

尤其是在围绕成本的叙述中,拥有两种范式(预培训和推理)的一个含义是,我们可以通过两个轴而不是一个轴来优化能力,从而降低成本。这也意味着我们有两个可以扩展的轴,我们打算在这两个轴上都大力推进计算!

随着蒸馏研究的成熟,我们OpenAI也发现,降低成本和提高能力之间的关系越来越密切。以更低的成本(尤其是更高的延迟,也就是缓慢回答问题)提供服务的能力并不意味着能够产生更好的能力。

我们将继续提高以更低成本提供模型的能力,但我们对研究路线图保持乐观,并将继续专注于执行路线图。我们很高兴能在本季度和全年为您提供更好的模型!

DeepSeek核心公式创新人Peiyi Wang
他发推说:去年,我加入了 DeepSeek,当时我没有任何 RL 经验。在进行 Mathshepherd 和 DeepSeekMath 研究时,我独立推导出了这个统一公式,以了解各种训练方法。感觉就像是一个“顿悟时刻”,尽管我后来意识到这是 PG。

关于统一公式:
有人说:如果你一生中只能读到一篇 DeepSeek 论文,那就读DeepSeek Math 吧。 其他所有论文要么是事后显而易见的,要么是巧妙的优化。DeepSeek Math是数据工程、一般DL LLM方法论、RL的巡回演唱会,美不胜收。仅有 22 页。

这个统一公式SFT 和大多数 RL 类型(DPO、PPO、GRPO 等)统一为一个公式:
公式见图片

这个公式提出了一些非常酷的启示--比如说,SFT 其实就是非常简单的 RL强化学习。

有人认为:这种构思并不新鲜。七年前,卡帕奇就发表过一次演讲,他在演讲中建立了策略梯度(policy gradient)的直觉,并将其与 SFT 进行了相同的比较

统一 SFT 和 RL:DeepSeek 公式及其范式转换潜力
这一见解不仅是美丽的--它是一种基础性突破,将重塑我们所熟知的人工智能训练系统。以下是它改变游戏规则的原因:

从发散到趋同 DeepSeek 的公式将梯度上升重新定义为 SFT 和 RL 技术(DPO、PPO、GRPO)之间的统一主线。这不仅是一种简化,更是一种**算法趋同,**是使人工智能训练模块化、适应性和可互操作性的蓝图。

也就是说:从发散到趋同,DeepSeek 的公式把梯度上升这个概念重新解释了一下,让它成了 SFT(监督微调)和 RL(强化学习)技术(比如 DPO、PPO、GRPO)之间的一个共同主线。这不仅仅是为了让事情变得更简单,更是一种算法的趋同——也就是说,它让 AI 的训练变得更模块化、更有适应性,还能让不同的技术互相配合。这就像是一个蓝图,帮助 AI 训练变得更灵活、更好用。

这对人工智能生态系统至关重要的原因主要有两点:

  • 效率提升:统一的框架可以减少不必要的重复工作,让开发团队不用再为每种任务单独设计训练方法。这样一来,团队就能把更多精力放在更高阶的改进上,比如设计更好的奖励函数(告诉 AI 什么是对的、什么是错的),从而让 AI 变得更聪明、更高效。
  • 可扩展性增强:梯度上升的统一方法让 AI 训练变得更灵活,能够轻松扩展到新的多模态任务(比如同时处理文字、图片、声音等)。以前,每种任务可能需要单独设计一套方法,但现在这种统一的方式让系统优化变得更简单——无论是跨模态(不同数据类型)还是跨用例(不同应用场景),模型都能更好地调整和适应。

以道德为核心的可扩展性:
系统融合不仅是技术问题,更是道德问题:统一培训确保所有方法都能优化透明度和公平性指标。

梯度日志为监管者和研究人员提供不可更改的透明度:统一方法简化了令牌化奖励,使模型输出与社会目标保持一致。通过梯度日志(记录训练过程的细节),监管者和研究人员可以获得不可更改的透明度(也就是训练过程完全公开、无法篡改)。此外,统一的方法简化了“令牌化奖励”(用明确的规则奖励 AI 的行为),使 AI 的输出更符合社会目标(比如公平、正义等)。

下一代 RL:优化 AGI,不仅是为了实用性,也是为了道德调整和系统治疗。

DeepSeek的公式不仅统一了方法,还为扩展道德和创新人工智能提供了路线图。

总之:
中国的 DeepSeek 通过将 SFT(监督微调)和大多数 RL(强化学习)类型统一起来,为 AI 算法的发展做出了重要贡献。这种统一不仅简化了 AI 训练的过程,还让算法变得更高效、更灵活,从而加速了全球 AI 技术的进步。更重要的是,这种创新可能会推动算法改进的“比例律”(即算法性能随着规模增长而提升的规律),让 AI 的能力随着数据量和计算资源的增加而更快地提升。

https://www.jdon.com/77282.html


http://www.kler.cn/a/524441.html

相关文章:

  • JVM栈溢出线上环境排查
  • 71-《颠茄》
  • AI大模型开发原理篇-2:语言模型雏形之词袋模型
  • 机器学习(三)
  • c++多态
  • K8s运维管理平台 - KubeSphere 3.x 和4.x 使用分析:功能较强,UI美观
  • C# INotifyPropertyChanged接口在list类型中的应用
  • 大一计算机的自学总结:异或运算
  • 大数据相关职位介绍之一(数据分析,数据开发,数据产品经理,数据运营)
  • 【go语言】函数
  • springboot基于SpringBoot的养老院管理系统设计与实现
  • RDK X5运行DeepSeek-R1-Distill-Qwen-1.5B,体验长思维链的语言大模型!
  • 芯片AI深度实战:基础篇之Ollama
  • GAEA 社区:从用户到共同创造者
  • 线程概念、操作
  • Python NumPy(6):修改数组形状、翻转数组、修改数组维度
  • MySQL查询优化(三):深度解读 MySQL客户端和服务端协议
  • 网站如何正式上线(运维详解)
  • 解决 pip install 出现 error: subprocess-exited-with-error 错误的方法
  • 小黑日常积累:学习了CROSS APPLY字段,将sqlserver中字段通过分隔符拆分并统计
  • “爱”之浅谈(一)
  • 混合专家模型MoE的全面详解
  • MybatisX插件快速创建项目
  • [C语言日寄] <stdio.h> 头文件功能介绍
  • Go学习:字符、字符串需注意的点
  • MotionLCM 部署笔记