当前位置：首页 > article >正文

最新！！！DeepSeek开源周发布内容汇总

article 2025/3/4 12:05:03

本周，人工智能领域的新锐力量DeepSeek宣布将于本周举办“开源周”（Open Source Week），连续五天每日开源一个核心代码库，以透明的方式与全球开发者分享其在通用人工智能（AGI）探索中的最新成果。以下是对DeepSeek在开源周期间每日发布内容的详细整理：

第一天：FlashMLA

🚀 开源周第1天：FlashMLA

我们荣幸推出FlashMLA——专为Hopper GPU设计的高效MLA解码内核，针对可变长度序列进行优化，现已投入生产环境。

✅ 支持 BF16

✅ 分页 KV 缓存（块大小64）

⚡ H800显卡实测性能：内存带宽3000 GB/s，计算峰值580 TFLOPS

🔗 GitHub 仓库地址：https://github.com/deepseek-ai/FlashMLA

2月24日，开源周的首日，DeepSeek发布了FlashMLA（Flash Matrix Library for AI）。该库旨在提升AI模型在有限资源GPU上的运行效率，特别是针对H800等算力相对有限的设备。FlashMLA通过优化矩阵运算，加速模型训练和推理过程，使开发者能够在成本更低的硬件上实现高性能AI应用。

在这里插入图片描述

第二天：DeepEP

🚀 开源周第2天：DeepEP

激动推出DeepEP——首个面向MoE模型训练与推理的开源EP通信库。

✅ 高效优化的全连接通信

✅ 支持NVLink和RDMA的节点内/跨节点通信

✅ 训练和推理预填充阶段的高吞吐量内核

✅ 推理解码阶段的低延迟内核

✅ 原生支持FP8调度

✅ 灵活GPU资源控制实现计算-通信重叠

🔗 GitHub仓库：https://github.com/deepseek-ai/DeepEP

2月25日，DeepSeek推出了DeepEP（Deep Expert Parallelism），这是为稀疏专家模型（MoE）和专家并行（EP）量身定制的通信库。DeepEP旨在优化模型的通信效率，提升训练速度和模型性能。目前，该库主要针对英伟达GPU进行优化，未来可能会扩展到其他硬件平台。

在这里插入图片描述

第三天：DeepGEMM

🚀 开源周第3天：DeepGEMM

隆重推出 DeepGEMM —— 一款支持稠密计算与混合专家（MoE）计算的 FP8 GEMM 库，为 V3/R1 训练与推理提供强劲动力。

⚡ 在 Hopper 架构 GPU 上实现 1350+ FP8 万亿次浮点运算/秒

✅ 零臃肿依赖，代码简洁如教学示例

✅ 完全即时编译（JIT）实现

✅ 核心逻辑仅约300行代码，却在多数矩阵尺寸下超越专家调优的算子

✅ 支持稠密布局与两种MoE布局

🔗 GitHub: https://github.com/deepseek-ai/DeepGEMM

2月26日，DeepSeek发布了DeepGEMM，这是一个高效的FP8 GEMM（通用矩阵乘法）库。DeepGEMM采用8位浮点数进行矩阵运算，旨在减少内存占用和带宽需求，同时保持高计算效率。该库的开源为开发者提供了在深度学习和高性能计算中优化矩阵运算的新工具。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第四天：DualPipe

🚀 开源周第四天：优化并行策略

✅ DualPipe - 一种面向V3/R1训练中计算-通信重叠的双向流水线并行算法。

🔗 https://github.com/deepseek-ai/DualPipe

✅ EPLB - 专为V3/R1设计的专家并行负载均衡器。

🔗 https://github.com/deepseek-ai/eplb

📊 分析V3/R1中的计算-通信重叠特性。

🔗 https://github.com/deepseek-ai/profile-data

2月27日，DeepSeek推出了DualPipe，这是一个用于深度学习模型训练的双流水线并行框架。DualPipe通过将模型训练过程中的前向传播和反向传播分离到不同的流水线中，提升了训练效率，减少了训练时间。该框架的开源为开发者提供了新的模型训练加速方案。

在这里插入图片描述

第五天：3FS

🚀 开源周第5天：3FS，为所有DeepSeek数据访问提供动力的推进器。

Fire-Flyer文件系统（3FS）—— 一款能充分发挥现代SSD和RDMA网络带宽优势的并行文件系统。

⚡ 在180节点集群中实现6.6 TiB/s聚合读取吞吐量。

⚡ 25节点集群GraySort基准测试达3.66 TiB/分钟吞吐量。

⚡ 单客户端节点KVCache查询峰值吞吐超40+ GiB/s。

🧬 采用强一致性语义的分离式架构。

✅ 已支持V3/R1版本的训练数据预处理、数据集加载、检查点保存与重载、嵌入向量搜索及推理场景的KVCache查询。

📥 3FS → https://github.com/deepseek-ai/3FS

⛲ Smallpond - data processing framework on 3FS → https://github.com/deepseek-ai/smallpond

2月28日，开源周的最后一天，DeepSeek发布了3FS（Fire-Flyer File System），这是一款高性能的并行文件系统。3FS支持训练数据预处理、数据集加载、检查点保存/重载，以及推理阶段的向量嵌入搜索和KVCache查找等功能。在180节点集群中，3FS实现了高达6.6 TiB/s的聚合读取吞吐量，为大规模AI训练和推理提供了强有力的支持。

在这里插入图片描述