当前位置：首页 > article >正文

DeepSeek开源周-汇总

article 2025/3/7 0:30:56

当 ChatGPT、Claude 这些闭源大模型严防死守技术秘密时，DeepSeek 却反其道而行，选择了全面开源，为整个 AI 生态注入新的活力。

在过去短短一周内，DeepSeek 连续在 GitHub 开源了 8 个核心技术项目，完成了一次震撼业界的技术开源盛宴。

与以往那些包装鲜艳的应用不同，DeepSeek 这次分享的，都是能让大模型真正“跑起来”的底层技术。

下面就让我们一起看看，DeepSeek 是如何用这八大项目，重新构建 AI 未来的基础设施吧！

第一天：计算加速的秘密武器

开源周的第一天，DeepSeek 带来了 FlashMLA，这是一款为 Hopper GPU 优化的高效 MLA 解码内核。

想象一下，如果普通的计算方式是骑自行车送快递，FlashMLA 就相当于装上了超级引擎，让送货速度提升了好几倍！

GitHub：https://github.com/deepseek-ai/FlashMLA

在 H800 SXM5 GPU 上，FlashMLA 实现了惊人的性能：内存受限配置下达到 3000 GB/s 的吞吐量，计算受限配置下实现 580 TFLOPS。

相当于让模型处理信息的速度提升了数倍，大大降低了推理成本。

更令人惊喜的是，这个项目不仅支持英伟达 GPU，还得到了国产 GPU 厂商的广泛支持。

包括 MetaX、摩尔线程、海光 DCU 等都提供了对应版本，为国产 AI 硬件生态注入了一剂强心针。

第二天：专家模型的通信利器

到了第二天，DeepSeek 开源了 DeepEP，这是一个专为混合专家(MoE)模型设计的通信库。

想象一下，如果 MoE 模型是一个大公司，各个专家就像不同部门的员工，他们需要高效地交换信息才能协同工作。

GitHub：https://github.com/deepseek-ai/DeepEP

DeepEP 就是这样一套高效的“企业通信系统”，提供了两大核心功能：高吞吐普通内核和低延迟解码内核。

其中低延迟内核特别厉害，它能在不占用任何 GPU 计算资源的情况下，让通信在后台悄悄完成，这就像是你一边开会一边有人帮你整理文档，两不耽误！

在 H800 上测试，DeepEP 几乎达到了硬件理论上限：NVLink 通信带宽 158 GB/s，RDMA 通信带宽 47 GB/s。

这些惊人的数据意味着专家模型可以更快速地交换信息，训练和推理效率大大提升。

第三天：矩阵计算的极致优化

第三天，DeepSeek 带来了 DeepGEMM，这是一个轻量级 FP8 矩阵乘法库。

矩阵乘法听起来很枯燥，但它实际上是 AI 模型中最常见、最耗时的操作之一，就像是汽车的发动机，决定了整体的性能。

GitHub：https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 的神奇之处在于它的极致简洁，核心内核函数仅约 300 行代码，却实现了令人印象深刻的性能：在多种常见矩阵形状上，性能提升达 1.1x-2.7x。

它避开了繁重的模板和代数依赖，设计简洁明了，让你不仅能用它，还能轻松理解它的工作原理。

这种清晰易懂的实现方式，在高性能计算领域实属罕见。

第四天：流水线并行的革新

进入第四天，DeepSeek 一口气开源了三个项目，首先是 DualPipe，这是一个创新的双向流水线并行算法。

传统的训练方式就像是流水线上一个接一个的工人，必须等前一个人完成工作才能开始下一步。而 DualPipe 相当于让流水线同时从两头开始工作，大大减少了等待时间。

schedules

GitHub：https://github.com/deepseek-ai/DualPipe

README 中展示了 8 个流水线并行 rank 和 20 个微批次的调度示例图，通过这种双向调度策略，DualPipe 明显减少了流水线气泡，让训练效率获得了显著提升。

第二个项目是 EPLB（Expert Parallelism Load Balancer），专门解决专家并行中的负载均衡问题。

GitHub：https://github.com/deepseek-ai/eplb

想象一个班级里，有些老师总是课多学生多，有些却很清闲。EPLB 就像是一个智能排课系统，确保每位老师的工作量都均衡合理。

第三个项目是 Profiling Data，公开了 DeepSeek 训练和推理框架的性能分析数据，这些数据就像是一面 “透视镜”，让我们能看清复杂 AI 系统内部是如何运转的。

train

GitHub：https://github.com/deepseek-ai/profile-data

通过这些数据，我们可以清楚地看到 DeepSeek 如何优化训练过程中的通信-计算重叠，如何均衡预填充阶段的计算负载，以及如何在解码阶段实现高效的资源利用。

尤其对于想要深入了解大模型系统优化的开发者来说，这简直是一份珍贵的“宝藏”！

第五天：数据基础设施的强大支撑

在开源周的最后一天，DeepSeek 推出了两个数据处理项目，首先是 Fire-Flyer File System (3FS)，这是一个为 AI 工作负载设计的高性能分布式文件系统。

如果把普通文件系统比作个人书柜，那么 3FS 就相当于一个超大型图书馆，不仅容量惊人，还有高效的检索系统。

Large block read throughput under stress test on a 180-node cluster

GitHub：https://github.com/deepseek-ai/3FS

在由 180 个存储节点组成的集群上，3FS 实现了约 6.6 TiB/s 的聚合读取吞吐量。简直令人震惊！相当于每秒读取超过 6600GB 的数据。

与 3FS 配套的是 smallpond，这是一个基于 DuckDB 和 3FS 构建的轻量级数据处理框架。它就像是图书馆的智能助手，帮你快速找到并处理需要的信息。

GitHub：https://github.com/deepseek-ai/smallpond

在 GraySort 基准测试中，smallpond 仅用 30 分钟 14 秒就完成了 110.5TiB 数据的排序，平均吞吐量达 3.66TiB/分钟。

这两个项目共同解决了大模型训练和推理中的数据处理难题，让 AI 开发者能够更高效地管理和利用海量数据。

意外惊喜：推理系统全面揭秘

在大家以为开源周结束时，DeepSeek 继续放大招：全面公开了 V3/R1 推理系统的设计细节。

这套系统的核心优化目标就是：更高的吞吐量和更低的延迟。为此，DeepSeek 巧妙地应用了跨节点专家并行，在预填充阶段使用 32 个专家并行，解码阶段则扩展到 144 个。

Cost And Theoretical Income.jpg

GitHub：https://t.co/x1rt3mCxF5

服务规模令人震惊：峰值达 278 个节点（每节点 8 个 H800 GPU），日成本高达 $87,072。24 小时内处理了 608B 输入 tokens 和 168B 输出 tokens。

这份系统揭秘完美印证了前面介绍的开源项目在实战中的价值。DeepEP、EPLB、FlashMLA 等技术正是这套高效推理系统的核心组件，而 3FS 则为其提供了关键的 KV 缓存支持。

查看全文

http://www.kler.cn/a/571309.html

VB6网络通信软件开发，上位机开发，TCP网络通信，读写数据并处理，完整源码下载

Leetcode 3472. Longest Palindromic Subsequence After at Most K Operations

【零基础到精通Java合集】第十六集：多线程与并发编程

vue2(笔记)4.0vueRouter.声明式/编程式导航以及跳转传参.重定向

浅谈汽车系统电压优缺点分析

PyTorch 中结合迁移学习和强化学习的完整实现方案

【2025rust笔记】超详细，小白，rust基本语法

vue 提升html2canvas渲染速度

第十天-字符串：编程世界的文本基石

深入 Vue.js 组件开发：从基础到实践

深入探索像ChatGPT这样的大语言模型

记一次渗透测试实战：SQL注入漏洞的挖掘与利用

Trae：国内首款AI原生IDE，编程效率大提升

AI大模型-提示工程学习笔记21-图提示 (Graph Prompting)

从0到1，动漫短剧源码搭建，动漫短剧小程序

【暴力枚举】P1618 三连击（升级版）

Mac远程桌面软件哪个好用？

conda环境管理 kernel注册到jupyter notebook

C++20中的std::format

Python-测试代码