评估训练模型所需的算力
1.模型规模(核心因素)
1.1 参数量决定算力下限:
-
10亿参数模型:需约1-10 PetaFLOP/s-days(等效1万亿次浮点运算持续1天)
-
千亿参数(如GPT-3):约3,000-5,000 PetaFLOP/s-days
-
万亿参数模型:超过50,000 PetaFLOP/s-days
1.2 显存需求公式:
显存(GB) ≈ (参数量 × 20 bytes) / 10^9
175B模型需约3.5TB显存,需使用8路A100(40GB)并行
2. 训练数据规模
2.1 数据-算力关系:
总计算量(FLOP) ≈ 6 × 参数量 × token数
-
1万亿token训练:175B模型需1.05e+24 FLOP
-
等效于1,000张A100连续运行34天(假设150 TFLOPS/GPU&#
原文地址:https://blog.csdn.net/happyAnger6/article/details/145393361
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/525382.html 如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/525382.html 如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!