当前位置: 首页 > article >正文

DeepSeek-DeepEP – 专为混合专家模型打造的高效专家并行通信库

清华大学出品《DeepSeek:从入门到精通》分享

DeepEP 是由 DeepSeek 开源团队推出的首个专门用于混合专家模型(MoE)训练和推理的专家并行(EP)通信库。该库通过全对全(all-to-all)的 GPU 内核实现了高吞吐量与低延迟,支持节点内的 NVLink 通信以及节点间的 RDMA 协议。特别地,DeepEP 针对 DeepSeek-V3 中提出的组限制门控算法进行了深度优化,同时引入了 FP8 数据格式调度和基于 Hook 的通信与计算重叠技术,从而确保不占用 GPU 流多处理器(SM)的计算资源。推理解码阶段的低延迟内核表现尤为出色,其延迟低至 163 微秒。
系统要求:Hopper 架构 GPU、Python 3.8+、CUDA 12.3+ 和 PyTorch 2.1+。

在这里插入图片描述


核心特性

  • 高速通信内核
    提供专为 MoE 中分发与合并操作设计的高吞吐量 GPU 内核,确保各节点之间数据交换高效稳定。
  • 低精度计算支持
    除了 BF16 格式,DeepEP 还支持 FP8 数据格式,有效提升计算效率,减少内存占用。
  • 针对组限制门控的优化
    为适配 DeepSeek-V3 中的组限制门控算法,DeepEP 在内核设计上实现了从 NVLink 到 RDMA 的非对称带宽调度,适用于训练与预填充推理任务。
  • 极致低延迟推理解码
    利用纯 RDMA 技术,针对推理解码场景实现了低延迟内核,确保响应时间低至 163 微秒。
  • 通信与计算并行
    采用 Hook 机制实现通信与计算的重叠调度,不干扰 GPU 计算核心,进一步提升整体效率。
  • 灵活资源管理
    支持用户自定义 SM 使用策略,以便在不同负载下实现资源的最优配置。
  • 网络流量隔离
    在 InfiniBand 网络环境下,通过虚拟通道(VL)实现流量隔离,避免不同任务间的干扰。

项目地址

  • Github 仓库:DeepEP on GitHub

性能亮点

在高性能硬件平台上,DeepEP 展示了出色的通信性能:

  • 内节点通信(NVLink)

    • 分发操作:瓶颈带宽高达 153 GB/s
    • 合并操作:瓶颈带宽达到 158 GB/s
  • 跨节点通信(RDMA)

    • 分发与合并操作:瓶颈带宽分别在 43-47 GB/s 范围内
  • 低延迟推理解码

    • 当处理

      8 个专家

      时:

      • 分发延迟为 163 微秒
      • 合并延迟为 318 微秒
      • RDMA 带宽达到 46 GB/s
    • 随着专家数量增至 256,延迟仅略有上升(分发约 194 微秒,合并约 360 微秒

  • 系统兼容性

    • 完美支持 InfiniBand 环境,同时兼容 RDMA over Converged Ethernet (RoCE)
    • 必须运行在 Hopper 架构 GPU 上,并依赖 Python 3.8+、CUDA 12.3+ 与 PyTorch 2.1+ 的生态

系统与环境要求

硬件

  • GPU:必须使用支持 Hopper 架构的 GPU(如 H100、H800),未来版本可能会扩展至更多架构。
  • 通信设备:需要支持 GPUDirect RDMA 的硬件,具体可参照 NVSHMEM 的硬件规范。
  • 网络:节点内依赖 NVLink 进行数据交换,节点间则通过 RDMA 网络实现高效通信。

软件

  • Python 3.8 及以上版本
  • CUDA 12.3 及以上版本
  • PyTorch 2.1 及以上版本
  • 必须安装修改版 NVSHMEM,详细指南请参见相关文档。
  • 推荐使用 GDRCopy (v2.4+) 以实现低延迟 GPU 内存拷贝。

网络配置

  • 主要环境:测试在 InfiniBand 网络环境下,支持 RDMA over Converged Ethernet (RoCE)
  • 流量管理:利用虚拟通道(VL)实现流量隔离,确保不同数据流互不干扰。

其他注意事项

  • 在容器环境下,请确保宿主机已加载必要内核模块(如 gdrdrv)并正确安装相关 DEB 包。
  • 完成安装后,请配置环境变量(如 NVSHMEM_DIR),以便 DeepEP 正常运行。

典型应用场景

  • 大规模模型训练
    利用高效通信能力,加速混合专家模型(MoE)的训练流程,显著提升模型收敛速度。
  • 低延迟推理
    特别适用于对延迟要求极高的推理解码任务,提高在线服务响应能力。
  • 高性能计算
    支持 Hopper GPU 及高带宽网络环境,为各类科学计算和数据处理任务提供强有力的支撑。
  • 智能客服系统
    优化推理过程,使智能客服能更迅速地处理海量请求,提升用户体验。
  • 金融风控与自动化报告
    借助 DeepEP 加速数据处理和风险评估,助力金融行业实现高效的决策支持和报告生成。

通过 DeepEP 的全面优化与强大功能,混合专家模型的训练和推理工作流将获得显著性能提升。如果你在寻找一款高性能、低延迟的通信解决方案,不妨试试 DeepEP。


http://www.kler.cn/a/561668.html

相关文章:

  • [RH342]tcpdump
  • RPC 框架项目剖析
  • 微博的IP属地是随定位改的吗?深入解析
  • Python----数据分析(Numpy三:连接数组,分割数组,数组元素的添加和删除)
  • C++ | 面向对象 | 类
  • wifi5和wifi6,WiFi 2.4G、5G,五类网线和六类网线,4G和5G的区别
  • 嵌入式硬件篇---各种插头介绍
  • 华为交换机堆叠方法
  • Jmeter接口测试断言
  • Web自动化之Selenium execute_script函数常用JS脚本
  • kubernetes-完美下载
  • el-table
  • 代码随想录算法【Day54】
  • 2025-02-25 学习记录--C/C++-用C语言实现删除字符串中的子串
  • Python学习第十七天之PyTorch保姆级安装
  • 夜莺监控 - 边缘告警引擎架构详解
  • 解锁DeepSeek,未来为语音直播交友软件源码开发搭建注入新活力
  • Vue的项目创建以及项目目录与组合式API
  • linux--多进程开发(5)--进程
  • 大数据与Hadoop综合解析