当前位置: 首页 > article >正文

DeepSeek再推开源力作,DeepEP高效通信库来袭

 人工智能咨询培训老师叶梓 转载标明出处

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

更多分享,关注视频号:sphuYAMr0pGTk27  抖音号:44185842659

DeepSeek在开源周第二天推出DeepEP,这是一个专为大模型中的专家混合(MoE)架构设计的通信库,旨在解决分布式训练和推理中的通信瓶颈。它通过优化的通信内核,实现了高吞吐量和低延迟的GPU间通信,显著提升了大模型的运行效率。

高吞吐量内核:NVLink与RDMA的协同优化

DeepEP的正常内核(Normal kernels)针对大规模训练任务进行了优化,支持从NVLink到RDMA的高效数据转发。在H800 GPU上,DeepEP利用NVLink的高带宽(约160 GB/s)和RDMA网络(400 Gb/s InfiniBand,约50 GB/s)进行通信,确保了节点内和节点间的高效数据传输。

具体测试结果显示,在节点内(Intranode)通信中,当有8个专家(Experts)时,NVLink的瓶颈带宽可达153 GB/s;在节点间(Internode)通信中,当有16个专家时,RDMA的瓶颈带宽为43 GB/s。这种高效的通信能力使得DeepEP能够轻松应对大规模训练任务中的数据传输需求。

低延迟内核:针对推理任务的优化

除了高吞吐量内核,DeepEP还提供了低延迟内核(Low-latency kernels),专门用于推理阶段的解码任务。这些内核通过纯RDMA实现,显著降低了通信延迟。在测试中,当有8个专家时,低延迟内核的RDMA带宽可达46 GB/s,而延迟仅为163微秒。这种低延迟特性使得DeepEP在需要快速响应的推理任务中表现出色。

通信与计算的重叠设计

DeepEP引入了一种基于钩子(hook)的通信-计算重叠方法,允许在不占用GPU流处理器(SM)资源的情况下进行通信。这种设计不仅提高了资源利用率,还进一步优化了整体运行效率。例如,在推理解码阶段,DeepEP通过接收钩子接口(receive hook)在后台处理RDMA网络流量,无需占用GPU的SM资源。

网络配置与优化

DeepEP支持通过InfiniBand网络的虚拟通道(Virtual Lanes, VL)实现流量隔离,以防止不同类型流量之间的干扰。此外,它还支持自适应路由(Adaptive routing),在低延迟内核中可以完全消除由路由冲突引起的网络拥塞。然而,对于高吞吐量内核,自适应路由可能会导致死锁或数据损坏,因此建议在高负载环境下启用自适应路由,而在轻负载环境下使用静态路由。

示例代码与使用场景

DeepEP提供了详细的示例代码,展示了如何在大模型的训练和推理阶段使用其内核。在训练阶段,DeepEP的高吞吐量内核通过优化的all-to-all通信实现了高效的模型分发和合并。而在推理阶段,低延迟内核则通过RDMA实现了快速的数据转发。

例如,在推理解码阶段,DeepEP的低延迟内核可以实现两微批次的重叠处理,进一步提升效率。这种设计使得DeepEP能够灵活应对不同场景下的通信需求,无论是大规模训练还是高实时性推理任务。

DeepEP通过优化的通信内核和灵活的网络配置,为大模型中的MoE架构提供了高效的通信解决方案。其高吞吐量和低延迟特性,结合通信-计算重叠设计,使得DeepEP在大规模训练和推理任务中表现出色,显著提升了大模型的运行效率。

https://github.com/deepseek-ai/DeepEP


http://www.kler.cn/a/564518.html

相关文章:

  • ES6模块化详解:导入与导出方式
  • 空中机械臂仿真问题
  • Java List实现类面试题
  • 华为AP 4050DN-HD的FIT AP模式改为FAT AP,家用FAT基本配置
  • 前端代理,解决跨域问题讲解
  • PXE批量网络装机与Kickstart自动化安装工具
  • 算法每日一练 (6)
  • 【愚公系列】《Python网络爬虫从入门到精通》033-DataFrame的数据排序
  • 51c嵌入式~电路~合集12
  • LabVIEW 项目长时间稳定运行注意事项
  • Hadoop第一课(配置linux系统)
  • 在android 平台上添加新的遥控器码值
  • Leetcode 141 Linked List Cycle and Leetcode 142 Linked List Cycle II
  • 串口解析的服务器流程优化
  • Android构建系统 - 06 添加编译模块
  • 大湾区经济网报道:拉美电商交易额连续三年增速超35%
  • 每天一个Flutter开发小项目 (4) : 构建收藏地点应用 - 深入Flutter状态管理
  • 网络安全 机器学习算法 计算机网络安全机制
  • kafka-web管理工具cmak
  • 设备健康管理系统在制造业的深度应用探索