GPU — 8 卡 GPU 服务器与 NVLink/NVSwitch 互联技术
目录
文章目录
- 目录
- 8 卡 GPU 服务器
- GPU 互联技术分类
- PCIe 直连
- PCIe Switch 互联
- NVLink 互联
-
- NVLink 1.0 与 DGX-1 系统
- NVLink 2.0 与 DGX-1 系统
- NVSwitch 全互联
-
- NVSwitch 1.0 与 DGX-2 系统
- NVLink 3.0、NVSwitch 2.0 与 DGX A100
- NVLink 4.0、NVSwitch 3.0 与 DGX H100
- NVSwitch v.s. PCIe Switch
- GPU 互联的带宽性能测试
8 卡 GPU 服务器
随着模型复杂程度增加,单张 GPU 无法完成训练任务,需要联合多张 GPU,尤其在 LLM 时代,8 卡 GPU 服务器已经成为了新的常态。
在 8 卡 GPU 服务器中,CPU 仍然承担着系统管理、任务调度、逻辑运算等工作,而 GPU 则主要负责大规模并行计算任务。
GPU 互联技术分类
在深度学习的训练过程中,随着 GPU 算力的飞速飙升,GPU 之间的互联数据传输速度已经成为了制约训练效率的瓶颈。从网络构成的角度,可以分为:
- GPU 卡间互联
- GPU 服务器件互联
本文讨论的是单机 GPU 卡间互联。解决的问题就是如何将 8 张 GPU 互联起来,使其能够互相进行高效的通信。从互联技术的层面有以下 3 大类:
- PCIe 直连
- NVLink 互联
- NVSwitch 全互联
PCIe 直连
PCIe 直连