当前位置：首页 > article >正文

模型参数量与显存占用分析

article 2025/2/26 19:33:04

常用模型参数量-显存占用估计统计如下表：

训练显存

由于反向传播、Adam优化和Transformer架构等因素，保守估计，训练所需的显存是模型参数所占显存的4倍（1x 为模型、1x 为梯度、1~2x 为优化器）。

注1：使用AdamW优化器，显存需求为2x；使用SGD优化器，显存需求为1x

为了确保训练期间模型收敛，参数类型一般不能是int8或int4。通常使用FP32或量化到BF16。

例如，使用单浮点精度FP32训练一个1B模型大约需要16GB（4GB x 4）。

训练所需的显存是模型参数所占显存的1倍（1x 为模型）。

例如，使用单浮点精度FP32训练一个1B模型大约需要4GB（4GB x 1）。

transformer系列5---transformer显存占用分析_transformer 占用显存大小-CSDN博客

https://cuiyuhao.com/posts/c87c0f5d/

陀螺匠·企业助手v1.8 产品介绍

angular贪吃蛇

mysql 迁移到人大金仓数据库

MySQL 面试

Plumelog与ELK集成Springboot

探索Grover算法的原理及其实际应用

C# Json序列化的常用几种方式

Dubbo RPC 原理

什么是谷歌富媒体搜索

axios几种请求类型的格式

45.matlab产生正弦叠加信号