玄学调参实践篇 | 深度学习模型 + 预训练模型 + 大模型LLM
😍 这篇主要简单记录一些调参实践,无聊时会不定期更新~
文章目录
- 0、学习率与batch_size判断
- 1、Epoch数判断
- 2、判断模型架构是否有问题
- 3、大模型 - 计算量、模型、和数据大小的关系
- 4、大模型调参相关论文经验总结
- 5、训练时模型的保存
0、学习率与batch_size判断
- batch_size: 这不用多说,一般按2的指数设置如:2、4、8、16…。设多大基本看你的显卡显存能不能hold得住咯。
- 学习率: 常用的一些自适应学习率调整策略如:linear_with_warmup、cosine_with_warmup。现在像一些大模型如ChatGLM、LLaMA等的训练里基本都用的cosine。学习率基本就是:3e-5, 4e-5, 5e-5…这样调。
- 学习率与batch_size的关系: