当前位置：首页 > article >正文

DeepSeek再推开源力作，DeepEP高效通信库来袭

article 2025/2/28 12:16:16

人工智能咨询培训老师叶梓转载标明出处

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

更多分享，关注视频号：sphuYAMr0pGTk27 抖音号：44185842659

DeepSeek在开源周第二天推出DeepEP，这是一个专为大模型中的专家混合（MoE）架构设计的通信库，旨在解决分布式训练和推理中的通信瓶颈。它通过优化的通信内核，实现了高吞吐量和低延迟的GPU间通信，显著提升了大模型的运行效率。

高吞吐量内核：NVLink与RDMA的协同优化

DeepEP的正常内核（Normal kernels）针对大规模训练任务进行了优化，支持从NVLink到RDMA的高效数据转发。在H800 GPU上，DeepEP利用NVLink的高带宽（约160 GB/s）和RDMA网络（400 Gb/s InfiniBand，约50 GB/s）进行通信，确保了节点内和节点间的高效数据传输。

具体测试结果显示，在节点内（Intranode）通信中，当有8个专家（Experts）时，NVLink的瓶颈带宽可达153 GB/s；在节点间（Internode）通信中，当有16个专家时，RDMA的瓶颈带宽为43 GB/s。这种高效的通信能力使得DeepEP能够轻松应对大规模训练任务中的数据传输需求。

低延迟内核：针对推理任务的优化

除了高吞吐量内核，DeepEP还提供了低延迟内核（Low-latency kernels），专门用于推理阶段的解码任务。这些内核通过纯RDMA实现，显著降低了通信延迟。在测试中，当有8个专家时，低延迟内核的RDMA带宽可达46 GB/s，而延迟仅为163微秒。这种低延迟特性使得DeepEP在需要快速响应的推理任务中表现出色。

通信与计算的重叠设计

DeepEP引入了一种基于钩子（hook）的通信-计算重叠方法，允许在不占用GPU流处理器（SM）资源的情况下进行通信。这种设计不仅提高了资源利用率，还进一步优化了整体运行效率。例如，在推理解码阶段，DeepEP通过接收钩子接口（receive hook）在后台处理RDMA网络流量，无需占用GPU的SM资源。

网络配置与优化

DeepEP支持通过InfiniBand网络的虚拟通道（Virtual Lanes, VL）实现流量隔离，以防止不同类型流量之间的干扰。此外，它还支持自适应路由（Adaptive routing），在低延迟内核中可以完全消除由路由冲突引起的网络拥塞。然而，对于高吞吐量内核，自适应路由可能会导致死锁或数据损坏，因此建议在高负载环境下启用自适应路由，而在轻负载环境下使用静态路由。