当前位置: 首页 > article >正文

DeepSeek 开源周五个开源项目,引领 AI 创新?

在这里插入图片描述

DeepSeek,作为一家领先的中国 AI 公司,最近在其五天开源周(2025 年 2 月 24 日至 28 日)中发布了五个关键项目。这些项目涵盖了 AI 基础设施、模型训练和数据处理的各个方面,旨在通过透明和社区驱动的创新推动 AI 发展。

这也解释了为什么 DeepSeek 可以用低成本训练出高质量的模型。

Day 1: FlashMLA

项目介绍

FlashMLA 是一个为 Hopper GPU 设计的高效解码内核,专门用于大型语言模型(LLM)。它支持变长序列,已在生产环境中验证,性能指标包括 3000 GB/s 内存绑定和 H800 GPU 上 580 TFLOPS 计算绑定。

  • BF16 支持
  • 分页 KV 缓存(块大小 64)
  • H800 上内存受限 3000 GB/s,计算受限 580 TFLOPS

好处和影响

1. 针对 Hopper GPU 优化的性能

FlashMLA 专门为 NVIDIAHopper GPU(例如 H800)设计,这些 GPU 是前沿的数据中心 GPU,以其先进的 Tensor CoreTransformer Engine 而闻名。 该内核实现了卓越的性能指标:

  • 3000 GB/s 内存带宽(内存受限性能),实现快速的数据访问和传输。
  • 580 TFLOPS 计算性能(计算受限性能),为 AI 工作负载提供高计算吞吐量。

这种优化确保 FlashMLA 可以高效地处理大型语言模型 (LLM) 和其他 AI 应用在高性能硬件上的密集计算需求。

2. 支持可变长度序列

FlashMLA 针对可变长度序列进行了优化,这是自然语言处理 (NLP) 任务的一项关键功能,其中输入数据(如句子或文档)的长度可能有很大差异。

这种灵活性使其成为现实世界 AI 应用的理想选择,例如聊天机器人、翻译系统和文本生成,其中序列并不统一。

3. 使用分页 KV 缓存实现高效的内存管理

该内核使用分页 KV 缓存,块大小为 64,这提高了内存效率并减少了解码期间的延迟。 键值 (KV) 缓存是 Transformer 模型中用于存储中间结果的技术,可减少冗余计算。 分页方法允许 FlashMLA 通过将数据分成可管理的块来更有效地管理内存,尤其是对于大型模型。

这对 LLM 尤其有益,其中内存限制可能会成为性能瓶颈,正如 Apple 机器学习研究论文 “LLM in a Flash” 中所强调的那样。

4. BF16 精度支持

FlashMLA 支持 BF16(Brain Float 16)精度,这是一种紧凑的数字格式,可以平衡模型精度和计算效率。 与 FP32(32 位浮点)等更高精度的格式相比,BF16 可以减少内存使用量并加快计算速度,同时保持大多数 AI 任务所需的足够精度。

这对于在资源受限的硬件上部署 LLM 或扩展到更大的模型尤其有用。

5. 启用更大规模的 AI 模型

通过利用闪存并优化数据传输(受到 FlashAttention 2&3 等项目的启发),FlashMLA 允许对超出 GPU DRAM 容量的大型语言模型进行高效推理。 根据 Apple 研究论文,类似的方法可以运行高达可用 DRAM 两倍大小的模型,速度显着提高(与简单加载相比,在 CPU 上提高 4-5 倍,在 GPU 上提高 20-25 倍)。

这意味着 FlashMLA 可以帮助在 Hopper GPU 上部署和运行大型 AI 模型,而无需昂贵的硬件升级。

6. 开源可用性

作为 DeepSeek OpenSourceWeek 的一部分,FlashMLA 可在 GitHub 上获取,它使全球的开发人员和研究人员能够访问、修改和将这项技术集成到他们的项目中。

这促进了创新,降低了开发成本,并加速了人工智能的发展,特别是对于全球开源社区而言。

7. 可投入生成

FlashMLA 已投入生产,这表明它是一种成熟且经过测试的解决方案,可以投入实际部署。

对于依赖稳定、高性能 AI 应用工具的企业和研究人员来说,这种可靠性至关重要。

8. 人工智能开发的竞争优势

FlashMLA 建立在 DeepSeek 开源计划的成功基础之上,将公司定位为高效 AI 推理领域的领导者。 通过针对 Hopper GPU 进行优化,它可以与 FlashAttention 等其他高级内核竞争,并支持对可扩展、高性能 AI 解决方案日益增长的需求,这一点从 X 上的话题活跃度可以看出(例如,提到 Grok 和其他 AI 进步)。

Day 2: DeepEP

项目介绍

DeepEP 是第一个开源的专家混合(MoE)模型训练和推理通信库。它提供高效的全对全通信,支持 NVLinkRDMA,包含 FP8 分派和 GPU 资源控制功能,适用于不同计算环境。

  • 高效、优化的全方位沟通
  • 节点内和节点间均支持 NVLink 和 RDMA
  • 用于训练和推理预填充的高吞吐量内核
  • 用于推理解码的低延迟内核
  • 原生 FP8 调度支持
  • 灵活的 GPU 资源控制,实现计算-通信重叠

为了理解 DeepEP 的工作原理,可以把它想象成一条繁忙的高速公路,其中汽车代表数据,城市代表计算机的各个组件。 如果没有规划良好的道路和交通规则,拥堵和延误将是不可避免的。 DeepEP 的功能就像一个为最大效率而设计的高级高速公路系统,通过以下几个关键特性确保平稳快速的数据流。

1. 优化的全互联通信

在混合专家模型 (MoE) 中,每个专家都必须与其他每个专家交换数据。 DeepEP 能够实现这一过程,而不会产生瓶颈,就像给每辆车提供自己的高速通道一样。

2. 支持节点内和节点间通信

节点内通信发生在单个计算机芯片内,就像车辆在城市内行驶。 DeepEP 利用 NVIDIA 的高速连接技术 NVLink 来加速这一过程。

节点间通信发生在不同的计算机或芯片之间,就像汽车在城市之间行驶。 DeepEP 利用 RDMA(远程直接内存访问) 直接在机器之间传输数据,最大限度地减少延迟并优化性能。

3. 高吞吐量、低延迟 GPU 内核

GPU 为 AI 模型提供动力,但它们的效率取决于它们处理和交换数据的能力。 DeepEP 集成了专门的 GPU 内核,可最大限度地提高处理速度,将等待时间缩短到几乎为零。

4. 灵活的资源控制

DeepEP 允许开发人员动态地跨 GPU 分配计算任务,从而无缝地适应不同的硬件配置。

通过优化每个级别的数据流,DeepEP 确保即使是最复杂和分布式的 AI 系统也能平稳高效地运行。

DeepEP 就像一个超级智能的交通系统,它能让 AI 模型中的数据更快、更流畅地在计算机内部和计算机之间流动,从而大大提升 AI 模型的运行效率。

好处和影响

MoE 模型因其可扩展性和任务多样性而日益流行,高效通信是其关键。DeepEP 的开源将允许其他研究者和公司在此基础上构建,改进 MoE 模型的性能和可扩展性。这对于处理复杂 AI 任务的团队尤为重要。

DeepEP 的发布可能加速 MoE 模型的发展,优化计算资源利用率,推动 AI 研究更快进步,尤其是在需要大规模分布式训练的场景中。

Day 3: DeepGEMM

项目介绍

DeepGEMM 是一个 FP8 通用矩阵乘法(GEMM)库,适用于密集和 MoE GEMM,支持 DeepSeek V3 和 R1 模型的训练和推理。在 Hopper GPU 上可达 1350+ FP8 TFLOPS,采用即时编译(JIT),代码仅约 300 行,但性能优于专家内核。

  • Hopper GPU 上最高可达 1350+ FP8 TFLOPS
  • 没有过多的依赖,像教程一样简洁
  • 完全即时编译
  • 核心逻辑约为 300 行 - 但在大多数矩阵大小上均优于专家调整的内核
  • 支持密集布局和两种 MoE 布局

DeepGEMM 是一款针对 AI 计算的高性能 FP8 GEMM 库,可以理解为 AI 世界里的一台涡轮增压引擎,能够以惊人的速度处理海量数据。

主要亮点:

  • 速度惊人: 在 H800 GPU 上超过 1350 TFLOPS,加速 DeepSeek-V3 和 R1 等模型的训练和运行。
  • 简洁高效: 仅 300 行核心代码,无沉重依赖,完全 JIT 编译,新手易上手。
  • 资源节约: FP8 精度降低内存占用,提升速度。
  • 灵活支持: 支持密集矩阵和两种 MoE(混合专家)模式,使复杂模型更高效。

好处和影响

DeepGEMM 使研究人员和开发人员能够以较低的硬件成本,在 H800 GPU 上获得顶级的 AI 模型训练性能。它适用于资源有限的初创公司和学术界,简化了 AI 开发流程,提高了模型可扩展性。

  • 加速新一代语言模型和推理系统的开发。
  • 构建更具适应性的 AI 模型,应用于聊天机器人和科学模拟等领域。

DeepGEMM 代表了 AI 的未来趋势:高性能不再意味着复杂性,而是更加简洁、高效和易于使用。

在这里插入图片描述

Day 4: 优化并行策略:DualPipe、EPLB 和 profile-data

项目介绍

  • DualPipe: 双向管道并行方法,可能通过重叠计算和通信减少训练时间。
  • EPLB: 专家并行负载平衡器,确保 MoE 模型中工作负载的均匀分布。
  • profile-data: 性能分析工具,用于识别训练过程中的瓶颈,优化系统性能。

好处和影响

1. 更快的训练:

DualPipe 通过重叠计算和通信来减少空闲时间,就像接力赛中接力棒永不停歇地移动一样。过去拖沓的训练现在可以更快地完成。

2. 节省成本:

通过充分利用每个 GPU,DeepSeek AI 声称他们与竞争对手相比将计算需求减少了 11 倍,使用 2,048 个 Nvidia H800 GPU 而不是更昂贵的配置。更少的硬件,更低的账单。

3. 可扩展性:

这些技巧可让您扩大模型规模(想想 DeepSeek V3 的 671B 参数),而无需投入额外的时间或资源。更大的模型,相同的阶段。

4. 资源效率:

EPLB 平衡了工作负载,因此 GPU 不会闲置,而 DualPipe 则让它们保持运转。计算和通信几乎完全重叠,最大限度地利用了硬件的每一分资源。

与大公司的比较 DeepSeek AI 的方法与 OpenAI、Google 和 Meta 等重量级公司竞争,但有一个不同之处:效率。虽然其他公司可能会在大规模集群中使用 Nvidia H100,但 DeepSeek 凭借“残缺的”H800 和巧妙的优化,打造出具有竞争力的模型。

DualPipe 和 EPLB 让他们能够以更少的计算量实现训练突破,突显出创新如何超越原始能力。这些策略的共享将丰富 AI 社区的集体知识,缩短训练时间,降低成本,可能催生更多创新的训练方法,尤其是在处理超大规模模型时。

Day 5: 3FS 和 Smallpond - 高性能数据访问解决方案

项目介绍

3FS(Fire-Flyer 文件系统)是一个为 AI 工作负载设计的高性能文件系统,Smallpond 是其配套数据处理框架。性能指标包括 180 节点集群的 6.6 TiB/s 聚合读取吞吐量,25 节点集群的 3.66 TiB/min GraySort,单客户端 KVCache 峰值超过 40 GiB/s。采用分离式架构,确保可扩展性和资源利用率。

  • 180 节点集群中的聚合读取吞吐量为 6.6 TiB/s
  • 25 节点集群中 GraySort 基准测试的吞吐量为 3.66 TiB/分钟
  • 每个客户端节点的 KVCache 查找峰值吞吐量超过 40 GiB/s
  • 具有强一致性语义的分解架构
  • 在 V3/R1 中训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找以进行推理

3FS(Fire-Flyer文件系统)就像是计算机的超高速数字图书馆。

它能帮助人工智能系统快速找到并使用所需的信息,就像你在图书馆里迅速从不同书架上取书一样。
3FS 最厉害的地方在于它非常、非常快。
想象一下,你在一秒钟内能读完 6600 本大书——3FS 处理数据的速度就这么快!
它使用称为 SSD 的特殊计算机部件(如超高速硬盘)和称为 RDMA 的特殊网络连接来快速移动数据。
与其他类似的系统(例如 WekaFS、DAOS 和 BeeGFS)相比,3FS 是专门为人工智能任务设计的,因此它在处理人工智能所需的海量数据方面表现得格外出色。

好处和影响

数据处理是 AI 的核心,尤其是 LLM 需要处理海量数据集。3FS 和 Smallpond 的开源为社区提供了高效的数据存储和处理解决方案,特别适合需要大规模数据访问的场景。

3FS 和 Smallpond 的开源可能民主化高性能数据系统的访问,降低成本,使更多研究者和组织能够处理大型数据集,加速 AI 研究和开发。

Day 6: DeepSeek-V3/R1 推理系统概述

通过以下方式优化吞吐量和延迟:

  • 跨节点 EP 驱动的批量扩展
  • 计算与通信重叠
  • 负载均衡

DeepSeek 在线服务统计:

  • 每个 H800 节点每秒有 73.7k/14.8k 个输入/输出令牌
  • 成本利润率 545%

在这里插入图片描述

在这里插入图片描述

总结

在这里插入图片描述

建议收购 OpenAI

DeepSeek 的五天开源周不仅秀了肌肉,也体现了其通过透明和协作推动 AI 社区发展的承诺。 “OpenAI不Open,DeepSeek真Deep” 。

其实从最近的国内很多公司开始都接入 DeepSeek 这个动作也能看出来, DeepSeek 的出现对 AI 大模型市场的影响还是很大的,比如之前爆火的 Kimi 现在好像也没有了声音,为什么百度搜索要接入 DeepSeek ?腾讯、飞书都开始接入 DeepSeek ?我觉得这才是一个优秀公司要做的,借用奥特曼的话说就是: DeepSeek 正站在历史正确的一面,这一点就比 百度 和 OpenAI 厉害。

加油,期待我们国产的大模型厂商有一天能够站在 TOP 1 的位置。

博客链接:DevNow


http://www.kler.cn/a/566927.html

相关文章:

  • leetcode---LCR 123.图书整理1
  • LabVIEW中交叉关联算法
  • ‘ts-node‘ 不是内部或外部命令,也不是可运行的程序
  • vue3中展示markdown格式文章的三种形式
  • 阿里云oss文件上传springboot若依java
  • 25新闻研究生复试面试问题汇总 新闻专业知识问题很全! 新闻复试全流程攻略 新闻考研复试调剂真题总结
  • 深度解读 AMS1117:从电气参数到应用电路的全面剖析
  • day02_Java基础
  • 网络安全技术与应用
  • C++题解(31) 2025顺德一中少科院信息学创新班(四期)考核:U537296 青蛙的距离 题解
  • Tomcat的server.xml配置详解
  • Tomcat10下载安装教程
  • ssh配置 远程控制 远程协作 github本地配置
  • 量子计算 + 药物开发:打开分子模拟的新纪元
  • java面试笔记(二)
  • 版图自动化连接算法开发 00002 ------ 添加一个中间点实现 Manhattan 方式连接两个给定的坐标点
  • Brave 132 编译指南 Android 篇 - 编译准备:系统要求与推荐工具 (三)
  • 苹果iPhone 17 Pro系列将配备12GB内存,AI功能成升级关键
  • 512台无人机!GCBF+如何实现大规模多智能体动态避障的?
  • 单链表删除算法(p=L; j=0;与p=p->next;j=1的辨析)