当前位置: 首页 > article >正文

DeepSeek 的组网方案介绍

DeepSeek 的组网方案会因不同的应用场景和硬件配置而有所不同,以下是一些常见的 DeepSeek 组网方案介绍:

  • 分离网络架构:分为 Prefill 网络和 Decode 网络,分别负责本集群内流量,两个集群之间的流量通过互联网络实现。其优点是两个网络可分别运维管理,但缺点是 Prefill 和 Decode GPU 之间的流量至少需要 3 跳。

  • 统一网络架构:单个网络同时负责集群内和集群间流量,借助 QoS、自适应路由技术对 Prefill 和 Decode 流量分别处理。网络统一运维管理,Prefill 和 Decode GPU 之间流量可一跳直达。在 GPU 服务器内部,每四个 GPU 作为一组,共享一个并行推理网卡,连接到同一个 PCI Switch,两组 GPU 之间的通信通过两个 PCI Switch 之间的直连通道完成;GPU 服务器之间,同一组号的 GPU 之间的通信通过交换机直接完成,不同组号的 GPU 之间的通信,先通过 PCI Switch 将流量路由到另一组的网卡,然后通过交换机完成。例如,16 个推理服务器(128 张 GPU)和 2 个 CX7 32Q - N 可组成一个 PoD,采用星融元提供的 CX - N 系列 AI 智算网络产品,包括基于 SONiC 的开放 NOS(AsterNOS)和 100G/200G/400G/800G 超低时延以太网交换机硬件,全端口支持 RoCEv2 和 EasyRoCE Toolkit。

  • 单机部署方案:适用于本地低并发需求场景,如个人用户或小型团队进行简单的模型测试、开发和轻度使用。只需一台具备足够性能的服务器,安装好 DeepSeek 模型、相关框架及依赖软件即可。服务器需有大容量内存和较强的 CPU、GPU 计算能力,如配备 NVIDIA RTX 3090 及以上显卡、8GB 以上内存、20GB 可用磁盘空间,以支持模型的加载和运行。通过 Ollama 等工具可直接下载模型并在本地运行,若专网无法访问公网,可提前通过离线存储介质导入模型文件。

  • 推理集群组网方案:对于需要高并发处理的大集群平台部署,常采用推理集群组网方案。当使用 Prefill - Decode 分离架构时,分为 Prefill 网络和 Decode 网络,或采用统一网络架构。

  • 多机分布式部署方案:在一些企业级应用中,若单台服务器的计算资源仍无法满足需求,可采用多台服务器组成分布式集群。如配置 2 台 8 卡 H20 GPU 服务器,用于 DeepSeek 的推理服务,并通过 InfiniBand(IB)组网来确保网络性能达到最佳水平。根据 H20 机器配备的 CX7 400G 单口网卡,需组建 400G 的 IB 网,因此需要型号为 MQM9700 - NS2R 的 NDR 交换机,以及 800G 的光模块、400G 的光模块和 400G 的 mpo 光纤。管理网络包括带内和带外,由于 H20 配置的是 10G×2 的网卡和一个千兆的 BMC 管理口,管理网交换机需要上联到数据中心的核心交换机上或者 VPM 防火墙上。

案例分享

以部署DeepSeek 671B模型为集群推理,采用BF16数据格式进行推理,模型需要的HBM内存约为1340GB,推理最低配置4台Atlas 800I A2(8*64GB)或Atlas 800T A2(313T),需部署参数面网络(200G)。4台Atlas 800I A2集群共32个200G口,交换机出16个400G 1分2连到服务器。

推荐XH9210(32*400G),可扩至8机。

DeepSeek 4机组网案例参考:

图片

组网说明:

1. 业务面网络(CE6885,至少1/推荐2台以增强健壮性)

    用途:

  • 推理平台与昇腾AI推理区之间的互访,例如任务调度、镜像拉取;

  • 模型推理请求和响应通过业务面网络与外界交互 ;

  • 推理平台或者互联网访问高性能文件存储(推理服务器和高性能文件存储都需要接入业务面网络)。

2. 推理参数面网络(XH92101台带4服务器,可扩至8机)

多机推理区的多机并行推理,采用ROCE网络互联

3. 推理存储面网络(CE6885

4机方案原则上服务器自带SAS盘即可,存储面网络用于内置存储空间共享,后续扩容可选配独立存储(需部署ROCE)

4. 带外管理网络(CE5855-48T4XS

计算、存储、网络设备通过带外网络与管理区的网管或运维设备对接。

5. 8机以上集群参数面需改为两层盒盒组网。更大集群规模参数面组网参考下图

图片

备注:参数面采用Spine-Leaf网络架构,遵从以下部署原则

  • 根据业务需求确认服务器和推理卡数量,根据推理卡数量选择组网规模

  • 单服务器的8网口接入到1台leaf交换机,1台leaf交换机可以接入4台服务器

  • 平滑扩容要求初始部署最终规划规模的全部Spine设备,否则扩容Spine设备时需要修改leaf上行连线,会中断推理任务,Leaf可以按需部署,以1台的粒度扩容

  • 参数面采用两层CLOS组网,Spine-Leaf间无收敛,即Leaf交换机上/下行收敛比为1:1

  • 同一台Leaf交换机,需要保证与每台Spine交换机的Link数相同,即参数面Spine交换机数量能被Leaf交换机上行端口数量整除

  • Leaf上行口按照从左到右从上到下从小到大的端口顺序配置IP地址

配置说明(仅供参考)

1. Vlan配置
      vlan batch 100

2. 无损参数配置
使能PFC功能基于DSCP映射后的优先级进行反压
          dcb pfc dscp-mapping enable slot 1 
手工配置芯片级Headroom缓存空间大小
         qos buffer headroom-pool size 6 mbytes slot 1 
 全局使能PFC,使能无损队列为4队列,缺省情况下,优先级队列3已使能PFC功能,取消优先级队列3的PFC功能
         dcb pfc 
            priority 4 
            undo priority 3
            priority 4 turn-off threshold 90

3. 服务器接入配置
端口加入VLAN
          interface 400GE 1/0/31:1
            port default vlan 100
端口下使能PFC 
          dcb pfc enable mode manual
配置无损队列的缓存空间大小
         dcb pfc buffer 4 guaranteed 5 kbytes 
         dcb pfc buffer 4 hdrm 1024 kbytes 
         dcb pfc buffer 4 xoff dynamic 4 xon offset 6 kbytes
         qos buffer queue 4 shared-threshold static 33280 kbytes
配置接口队列0和4的调度模式为DRR模式及权值
         qos drr 0 4
         qos queue 0 drr weight 10
         qos queue 4 drr weight 90
服务器信任DSCP时,配置信任报文的DSCP映射内部优先级
         trust dscp


http://www.kler.cn/a/600761.html

相关文章:

  • 详解vector容器
  • WPF Binding转换器Converter
  • 浅尝AI编程工具Trae
  • 嵌入式八股文学习——基类构造与析构、成员初始化及继承特性详解
  • Zerotier虚拟局域网在树莓派的应用和Syncthing配合Zerotier实现端到端文件同步
  • linux命令行工具进阶
  • 定时器(java)
  • python每日十题(10)
  • JS—script标签加载:1分钟掌握async与defer
  • TensorDataser和DataLoader的解释与使用
  • 最长公共子序列LCS -- 全面分析版
  • 爱普生SG-3031CMA有源晶振在汽车雷达中的应用
  • vue2相关 基础命令
  • [NO-WX179]基于springboot+微信小程序的在线选课系统
  • W、M、C练题笔记(持续更新中)
  • 适合各个层次的 7 个计算机视觉项目【1】:植物病害检测
  • 内核编程十二:打印内核态进程的属性
  • 传统 embedding vs. P-Tuning 里的 embedding
  • (二)手眼标定——概述+原理+常用方法汇总+代码实战(C++)
  • 稳定运行的以Microsoft Azure Cosmos DB数据库为数据源和目标的ETL性能变差时提高性能方法和步骤