当前位置: 首页 > article >正文

【NLP高频面题 - 分布式训练篇】分布式训练主要解决大模型训练中的哪些问题?

【NLP高频面题 - 分布式训练篇】分布式训练主要解决大模型训练中的哪些问题?

重要性:★

传统的单机单卡模式已经无法满足超大模型进行训练的要求,这一趋势背后有几个原因。

  • 模型规模迅速增加。
  • 数据集规模迅速增加。
  • 计算能力越来越强。

使用单机、单卡训练大模型时必须面临计算墙、显存墙、时间墙等问题。

  • 计算墙:单个计算设备所能提供的计算能力与大语言模型所需的总计算量之间存在巨大差异。2022 年 3 年 发布的 NVIDIA H100 SXM 的单卡 FP16 算力也只有 2000 TFLOPs,而 GPT-3 则需要 314 ZFLOPs 的总算 力,两者相差了 8 个数量级。
  • 显存墙:单个计算设备无法完整存储一个大语言模型的参数。GPT-3 包含 1750 亿参数, 如果采用FP16 格 式进行存储,需要 700GB 的计算设备内存空间,而 NVIDIA H100 GPU 只有 80 GB 显存。
  • 时间墙:大语言模型训练周期使用单计算设备需要花费几十年。

计算墙和显存墙源于单计算设备的计算和存储能力有限, 与模型对庞大计算和存储需求之间存在矛盾。这个问题可以通过采用分布式训练方法来解决, 但分布式训练又会面临通信墙的挑战。同时, 在大型集群 进行长时间训练时,设备故障可能会影响或中断训练过程,对分布式系统的问题性也提出了很高要求。

分布式训练(Distributed Training)是指将机器学习或深度学习模型训练任务分解成多个子任务,并在多个计算设备上并行地进行训练。

单计算设备计算和多计算设备示例:


NLP 大模型高频面题汇总

NLP基础篇
BERT 模型面
LLMs 微调面

http://www.kler.cn/a/505055.html

相关文章:

  • TCP-IP详解卷 TCP的超时与重传
  • uni-app的学习
  • PHP 字符串
  • OpenCV的TIF红外可见光融合算法
  • MMDetection框架下的常见目标检测与分割模型综述与实践指南
  • 服务器数据恢复—EMC存储POOL中数据卷被删除的数据恢复案例
  • Android中下载 HAXM 报错 HAXM installation failed,如何解决?
  • Jmeter进行http接口并发测试
  • MyBatis 中动态 SQL 标签
  • 后端技术选型 sa-token校验学习 中 文档学习
  • 庖丁解java(一篇文章学java)
  • 浅谈PHP之线程锁
  • 【实践】操作系统智能助手OS Copilot新功能测评
  • C语言初阶习题【30】字符串左旋
  • ECharts 折线图隐藏标点
  • Maven 配置本地仓库
  • 矩阵碰一碰发视频之视频剪辑功能开发全解析,支持OEM
  • 音频语言模型与多模态体系结构
  • redis监控会不会统计lua里面执行的命令次数
  • Docker save load 镜像 tag 为 <none>
  • 学习threejs,使用RollControls相机控制器
  • JavaScript-正则表达式方法(RegExp)
  • ref useRef React.createRef React.forwardRef
  • PostgreSQL 语法
  • MySQL数据库基本操作命令
  • gitlab runner正常连接 提示 作业挂起中,等待进入队列 解决办法