DeepSeek再推开源力作,DeepEP高效通信库来袭
人工智能咨询培训老师叶梓 转载标明出处
想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
更多分享,关注视频号:sphuYAMr0pGTk27 抖音号:44185842659
DeepSeek在开源周第二天推出DeepEP,这是一个专为大模型中的专家混合(MoE)架构设计的通信库,旨在解决分布式训练和推理中的通信瓶颈。它通过优化的通信内核,实现了高吞吐量和低延迟的GPU间通信,显著提升了大模型的运行效率。
高吞吐量内核:NVLink与RDMA的协同优化
DeepEP的正常内核(Normal kernels)针对大规模训练任务进行了优化,支持从NVLink到RDMA的高效数据转发。在H800 GPU上,DeepEP利用NVLink的高带宽(约160 GB/s)和RDMA网络(400 Gb/s InfiniBand,约50 GB/s)进行通信,确保了节点内和节点间的高效数据传输。
具体测试结果显示,在节点内(Intranode)通信中,当有8个专家(Experts)时,NVLink的瓶颈带宽可达153 GB/s;在节点间(Internode)通信中,当有16个专家时,RDMA的瓶颈带宽为43 GB/s。这种高效的通信能力使得DeepEP能够轻松应对大规模训练任务中的数据传输需求。
低延迟内核:针对推理任务的优化
除了高吞吐量内核,DeepEP还提供了低延迟内核(Low-latency kernels),专门用于推理阶段的解码任务。这些内核通过纯RDMA实现,显著降低了通信延迟。在测试中,当有8个专家时,低延迟内核的RDMA带宽可达46 GB/s,而延迟仅为163微秒。这种低延迟特性使得DeepEP在需要快速响应的推理任务中表现出色。
通信与计算的重叠设计
DeepEP引入了一种基于钩子(hook)的通信-计算重叠方法,允许在不占用GPU流处理器(SM)资源的情况下进行通信。这种设计不仅提高了资源利用率,还进一步优化了整体运行效率。例如,在推理解码阶段,DeepEP通过接收钩子接口(receive hook)在后台处理RDMA网络流量,无需占用GPU的SM资源。
网络配置与优化
DeepEP支持通过InfiniBand网络的虚拟通道(Virtual Lanes, VL)实现流量隔离,以防止不同类型流量之间的干扰。此外,它还支持自适应路由(Adaptive routing),在低延迟内核中可以完全消除由路由冲突引起的网络拥塞。然而,对于高吞吐量内核,自适应路由可能会导致死锁或数据损坏,因此建议在高负载环境下启用自适应路由,而在轻负载环境下使用静态路由。
示例代码与使用场景
DeepEP提供了详细的示例代码,展示了如何在大模型的训练和推理阶段使用其内核。在训练阶段,DeepEP的高吞吐量内核通过优化的all-to-all通信实现了高效的模型分发和合并。而在推理阶段,低延迟内核则通过RDMA实现了快速的数据转发。
例如,在推理解码阶段,DeepEP的低延迟内核可以实现两微批次的重叠处理,进一步提升效率。这种设计使得DeepEP能够灵活应对不同场景下的通信需求,无论是大规模训练还是高实时性推理任务。
DeepEP通过优化的通信内核和灵活的网络配置,为大模型中的MoE架构提供了高效的通信解决方案。其高吞吐量和低延迟特性,结合通信-计算重叠设计,使得DeepEP在大规模训练和推理任务中表现出色,显著提升了大模型的运行效率。
https://github.com/deepseek-ai/DeepEP