当前位置: 首页 > article >正文

DeepSeek开源周-汇总

当 ChatGPT、Claude 这些闭源大模型严防死守技术秘密时,DeepSeek 却反其道而行,选择了全面开源,为整个 AI 生态注入新的活力。

在过去短短一周内,DeepSeek 连续在 GitHub 开源了 8 个核心技术项目,完成了一次震撼业界的技术开源盛宴。

与以往那些包装鲜艳的应用不同,DeepSeek 这次分享的,都是能让大模型真正“跑起来”的底层技术。

下面就让我们一起看看,DeepSeek 是如何用这八大项目,重新构建 AI 未来的基础设施吧!

第一天:计算加速的秘密武器

开源周的第一天,DeepSeek 带来了 FlashMLA,这是一款为 Hopper GPU 优化的高效 MLA 解码内核。

想象一下,如果普通的计算方式是骑自行车送快递,FlashMLA 就相当于装上了超级引擎,让送货速度提升了好几倍!

image-20250301141950664

GitHub:https://github.com/deepseek-ai/FlashMLA

在 H800 SXM5 GPU 上,FlashMLA 实现了惊人的性能:内存受限配置下达到 3000 GB/s 的吞吐量,计算受限配置下实现 580 TFLOPS。

相当于让模型处理信息的速度提升了数倍,大大降低了推理成本。

更令人惊喜的是,这个项目不仅支持英伟达 GPU,还得到了国产 GPU 厂商的广泛支持。

包括 MetaX、摩尔线程、海光 DCU 等都提供了对应版本,为国产 AI 硬件生态注入了一剂强心针。

第二天:专家模型的通信利器

到了第二天,DeepSeek 开源了 DeepEP,这是一个专为混合专家(MoE)模型设计的通信库。

想象一下,如果 MoE 模型是一个大公司,各个专家就像不同部门的员工,他们需要高效地交换信息才能协同工作。

image-20250301142151931

GitHub:https://github.com/deepseek-ai/DeepEP

DeepEP 就是这样一套高效的“企业通信系统”,提供了两大核心功能:高吞吐普通内核和低延迟解码内核。

其中低延迟内核特别厉害,它能在不占用任何 GPU 计算资源的情况下,让通信在后台悄悄完成,这就像是你一边开会一边有人帮你整理文档,两不耽误!

image-20250301142709030

在 H800 上测试,DeepEP 几乎达到了硬件理论上限:NVLink 通信带宽 158 GB/s,RDMA 通信带宽 47 GB/s。

这些惊人的数据意味着专家模型可以更快速地交换信息,训练和推理效率大大提升。

第三天:矩阵计算的极致优化

第三天,DeepSeek 带来了 DeepGEMM,这是一个轻量级 FP8 矩阵乘法库。

矩阵乘法听起来很枯燥,但它实际上是 AI 模型中最常见、最耗时的操作之一,就像是汽车的发动机,决定了整体的性能。

image-20250301142749186

GitHub:https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 的神奇之处在于它的极致简洁,核心内核函数仅约 300 行代码,却实现了令人印象深刻的性能:在多种常见矩阵形状上,性能提升达 1.1x-2.7x。

image-20250301142913935

它避开了繁重的模板和代数依赖,设计简洁明了,让你不仅能用它,还能轻松理解它的工作原理。

这种清晰易懂的实现方式,在高性能计算领域实属罕见。

第四天:流水线并行的革新

image-20250301143057806

进入第四天,DeepSeek 一口气开源了三个项目,首先是 DualPipe,这是一个创新的双向流水线并行算法。

传统的训练方式就像是流水线上一个接一个的工人,必须等前一个人完成工作才能开始下一步。而 DualPipe 相当于让流水线同时从两头开始工作,大大减少了等待时间。

schedules

GitHub:https://github.com/deepseek-ai/DualPipe

README 中展示了 8 个流水线并行 rank 和 20 个微批次的调度示例图,通过这种双向调度策略,DualPipe 明显减少了流水线气泡,让训练效率获得了显著提升。

第二个项目是 EPLB(Expert Parallelism Load Balancer),专门解决专家并行中的负载均衡问题。

img

GitHub:https://github.com/deepseek-ai/eplb

想象一个班级里,有些老师总是课多学生多,有些却很清闲。EPLB 就像是一个智能排课系统,确保每位老师的工作量都均衡合理。

第三个项目是 Profiling Data,公开了 DeepSeek 训练和推理框架的性能分析数据,这些数据就像是一面 “透视镜”,让我们能看清复杂 AI 系统内部是如何运转的。

train

GitHub:https://github.com/deepseek-ai/profile-data

通过这些数据,我们可以清楚地看到 DeepSeek 如何优化训练过程中的通信-计算重叠,如何均衡预填充阶段的计算负载,以及如何在解码阶段实现高效的资源利用。

尤其对于想要深入了解大模型系统优化的开发者来说,这简直是一份珍贵的“宝藏”!

第五天:数据基础设施的强大支撑

image-20250301143450930

在开源周的最后一天,DeepSeek 推出了两个数据处理项目,首先是 Fire-Flyer File System (3FS),这是一个为 AI 工作负载设计的高性能分布式文件系统。

如果把普通文件系统比作个人书柜,那么 3FS 就相当于一个超大型图书馆,不仅容量惊人,还有高效的检索系统。

Large block read throughput under stress test on a 180-node cluster

GitHub:https://github.com/deepseek-ai/3FS

在由 180 个存储节点组成的集群上,3FS 实现了约 6.6 TiB/s 的聚合读取吞吐量。简直令人震惊!相当于每秒读取超过 6600GB 的数据。

与 3FS 配套的是 smallpond,这是一个基于 DuckDB 和 3FS 构建的轻量级数据处理框架。它就像是图书馆的智能助手,帮你快速找到并处理需要的信息。

image-20250301143904249

GitHub:https://github.com/deepseek-ai/smallpond

在 GraySort 基准测试中,smallpond 仅用 30 分钟 14 秒就完成了 110.5TiB 数据的排序,平均吞吐量达 3.66TiB/分钟。

这两个项目共同解决了大模型训练和推理中的数据处理难题,让 AI 开发者能够更高效地管理和利用海量数据。

意外惊喜:推理系统全面揭秘

image-20250301144023356

在大家以为开源周结束时,DeepSeek 继续放大招:全面公开了 V3/R1 推理系统的设计细节。

这套系统的核心优化目标就是:更高的吞吐量和更低的延迟。为此,DeepSeek 巧妙地应用了跨节点专家并行,在预填充阶段使用 32 个专家并行,解码阶段则扩展到 144 个。

Cost And Theoretical Income.jpg

GitHub:https://t.co/x1rt3mCxF5

服务规模令人震惊:峰值达 278 个节点(每节点 8 个 H800 GPU),日成本高达 $87,072。24 小时内处理了 608B 输入 tokens 和 168B 输出 tokens。

这份系统揭秘完美印证了前面介绍的开源项目在实战中的价值。DeepEP、EPLB、FlashMLA 等技术正是这套高效推理系统的核心组件,而 3FS 则为其提供了关键的 KV 缓存支持。


http://www.kler.cn/a/571309.html

相关文章:

  • VB6网络通信软件开发,上位机开发,TCP网络通信,读写数据并处理,完整源码下载
  • Leetcode 3472. Longest Palindromic Subsequence After at Most K Operations
  • 【零基础到精通Java合集】第十六集:多线程与并发编程
  • vue2(笔记)4.0vueRouter.声明式/编程式导航以及跳转传参.重定向
  • 浅谈汽车系统电压优缺点分析
  • PyTorch 中结合迁移学习和强化学习的完整实现方案
  • 【2025rust笔记】超详细,小白,rust基本语法
  • vue 提升html2canvas渲染速度
  • 第十天-字符串:编程世界的文本基石
  • 深入 Vue.js 组件开发:从基础到实践
  • 深入探索像ChatGPT这样的大语言模型
  • 记一次渗透测试实战:SQL注入漏洞的挖掘与利用
  • Trae:国内首款AI原生IDE,编程效率大提升
  • AI大模型-提示工程学习笔记21-图提示 (Graph Prompting)
  • 从0到1,动漫短剧源码搭建,动漫短剧小程序
  • 【暴力枚举】P1618 三连击(升级版)
  • Mac远程桌面软件哪个好用?
  • conda环境管理 kernel注册到jupyter notebook
  • C++20中的std::format
  • Python-测试代码