评估训练模型所需的算力
1.模型规模(核心因素)
1.1 参数量决定算力下限:
-
10亿参数模型:需约1-10 PetaFLOP/s-days(等效1万亿次浮点运算持续1天)
-
千亿参数(如GPT-3):约3,000-5,000 PetaFLOP/s-days
-
万亿参数模型:超过50,000 PetaFLOP/s-days
1.2 显存需求公式:
显存(GB) ≈ (参数量 × 20 bytes) / 10^9
175B模型需约3.5TB显存,需使用8路A100(40GB)并行
2. 训练数据规模
2.1 数据-算力关系:
总计算量(FLOP) ≈ 6 × 参数量 × token数
-
1万亿token训练:175B模型需1.05e+24 FLOP
-
等效于1,000张A100连续运行34天(假设150 TFLOPS/GPU&#