当前位置: 首页 > article >正文

最新!!!DeepSeek开源周发布内容汇总

本周,人工智能领域的新锐力量DeepSeek宣布将于本周举办“开源周”(Open Source Week),连续五天每日开源一个核心代码库,以透明的方式与全球开发者分享其在通用人工智能(AGI)探索中的最新成果。以下是对DeepSeek在开源周期间每日发布内容的详细整理:

第一天:FlashMLA

🚀 开源周第1天:FlashMLA


我们荣幸推出FlashMLA——专为Hopper GPU设计的高效MLA解码内核,针对可变长度序列进行优化,现已投入生产环境。


✅ 支持 BF16

✅ 分页 KV 缓存(块大小64)

⚡ H800显卡实测性能:内存带宽3000 GB/s,计算峰值580 TFLOPS


🔗 GitHub 仓库地址:https://github.com/deepseek-ai/FlashMLA

2月24日,开源周的首日,DeepSeek发布了FlashMLA(Flash Matrix Library for AI)。该库旨在提升AI模型在有限资源GPU上的运行效率,特别是针对H800等算力相对有限的设备。FlashMLA通过优化矩阵运算,加速模型训练和推理过程,使开发者能够在成本更低的硬件上实现高性能AI应用。

在这里插入图片描述

第二天:DeepEP

🚀 开源周第2天:DeepEP


激动推出DeepEP——首个面向MoE模型训练与推理的开源EP通信库。


✅ 高效优化的全连接通信

✅ 支持NVLink和RDMA的节点内/跨节点通信

✅ 训练和推理预填充阶段的高吞吐量内核

✅ 推理解码阶段的低延迟内核

✅ 原生支持FP8调度

✅ 灵活GPU资源控制实现计算-通信重叠


🔗 GitHub仓库:https://github.com/deepseek-ai/DeepEP

2月25日,DeepSeek推出了DeepEP(Deep Expert Parallelism),这是为稀疏专家模型(MoE)和专家并行(EP)量身定制的通信库。DeepEP旨在优化模型的通信效率,提升训练速度和模型性能。目前,该库主要针对英伟达GPU进行优化,未来可能会扩展到其他硬件平台。

在这里插入图片描述

第三天:DeepGEMM

🚀 开源周第3天:DeepGEMM


隆重推出 DeepGEMM —— 一款支持稠密计算与混合专家(MoE)计算的 FP8 GEMM 库,为 V3/R1 训练与推理提供强劲动力。


⚡ 在 Hopper 架构 GPU 上实现 1350+ FP8 万亿次浮点运算/秒

✅ 零臃肿依赖,代码简洁如教学示例

✅ 完全即时编译(JIT)实现

✅ 核心逻辑仅约300行代码,却在多数矩阵尺寸下超越专家调优的算子

✅ 支持稠密布局与两种MoE布局


🔗 GitHub: https://github.com/deepseek-ai/DeepGEMM

2月26日,DeepSeek发布了DeepGEMM,这是一个高效的FP8 GEMM(通用矩阵乘法)库。DeepGEMM采用8位浮点数进行矩阵运算,旨在减少内存占用和带宽需求,同时保持高计算效率。该库的开源为开发者提供了在深度学习和高性能计算中优化矩阵运算的新工具。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第四天:DualPipe

🚀 开源周第四天:优化并行策略


✅ DualPipe - 一种面向V3/R1训练中计算-通信重叠的双向流水线并行算法。

🔗 https://github.com/deepseek-ai/DualPipe


✅ EPLB - 专为V3/R1设计的专家并行负载均衡器。

🔗 https://github.com/deepseek-ai/eplb


📊 分析V3/R1中的计算-通信重叠特性。

🔗 https://github.com/deepseek-ai/profile-data

2月27日,DeepSeek推出了DualPipe,这是一个用于深度学习模型训练的双流水线并行框架。DualPipe通过将模型训练过程中的前向传播和反向传播分离到不同的流水线中,提升了训练效率,减少了训练时间。该框架的开源为开发者提供了新的模型训练加速方案。

在这里插入图片描述

第五天:3FS

🚀 开源周第5天:3FS,为所有DeepSeek数据访问提供动力的推进器。



Fire-Flyer文件系统(3FS)—— 一款能充分发挥现代SSD和RDMA网络带宽优势的并行文件系统。



⚡ 在180节点集群中实现6.6 TiB/s聚合读取吞吐量。

⚡ 25节点集群GraySort基准测试达3.66 TiB/分钟吞吐量。

⚡ 单客户端节点KVCache查询峰值吞吐超40+ GiB/s。

🧬 采用强一致性语义的分离式架构。

✅ 已支持V3/R1版本的训练数据预处理、数据集加载、检查点保存与重载、嵌入向量搜索及推理场景的KVCache查询。



📥 3FS → https://github.com/deepseek-ai/3FS

⛲ Smallpond - data processing framework on 3FS → https://github.com/deepseek-ai/smallpond

2月28日,开源周的最后一天,DeepSeek发布了3FS(Fire-Flyer File System),这是一款高性能的并行文件系统。3FS支持训练数据预处理、数据集加载、检查点保存/重载,以及推理阶段的向量嵌入搜索和KVCache查找等功能。在180节点集群中,3FS实现了高达6.6 TiB/s的聚合读取吞吐量,为大规模AI训练和推理提供了强有力的支持。

在这里插入图片描述

通过这一系列的开源举措,DeepSeek展示了其在AI基础设施领域的深厚技术积累和对开源社区的坚定支持。这些开源项目不仅为全球开发者提供了强大的工具和资源,也有望加速AI技术的普及和应用,推动整个行业的创新与发展。

值得一提的是,DeepSeek的开源周活动引起了业界的广泛关注和积极反馈。多所高校,如上海交通大学、深圳大学和浙江大学,纷纷宣布开设DeepSeek相关课程,旨在帮助学生了解最新的AI技术和应用。 此外,DeepSeek的开源举措也得到了政府和企业的支持,进一步巩固了其在AI领域的领先地位。

DeepSeek的“开源周”活动不仅体现了其技术实力和开放精神,也为全球AI开发者提供了宝贵的资源和合作机会。期待未来有更多类似的开源活动,推动AI技术的共同进步。


http://www.kler.cn/a/567246.html

相关文章:

  • 小程序性能优化-预加载
  • 【网络安全】敏感字段扫描工具(可用于漏洞挖掘、代码审计)
  • 【linux】详谈 环境变量
  • 【Python】基础语法三
  • Redis的过期策略及其优缺点
  • 独立开发者的内容营销教程
  • Java 并发编程之synchronized
  • 线代[9]|线性代数主要内容及其发展简史(任广千《线性代数的几何意义》的附录1)
  • 面试基础---Spring 生态---深入剖析 Spring 中 @Bean 与 @Component
  • VUE3+Vite使用TailwindCSS【若依前后端分离框架】
  • 1-PostgreSQL 简介
  • 【网络安全】从NA到P1,我是如何扩大思路的?
  • 自然语言处理:词频-逆文档频率
  • 脚本无法获取响应主体(原因:CORS Missing Allow Credentials)
  • FREERTOS的三种调度方式
  • 【网络安全 | 渗透工具】小程序反编译分析源码 | 图文教程
  • React Native 核心技术知识点快速入门
  • MacDroid for Mac v2.3 安卓手机文件传输助手 支持M、Intel芯片 4.7K
  • 7.2 - 定时器之计算脉冲宽度实验
  • JMeter 引入 JAR 包的几种方法