当前位置: 首页 > article >正文

玄学调参实践篇 | 深度学习模型 + 预训练模型 + 大模型LLM

😍 这篇主要简单记录一些调参实践,无聊时会不定期更新~

在这里插入图片描述

文章目录

  • 0、学习率与batch_size判断
  • 1、Epoch数判断
  • 2、判断模型架构是否有问题
  • 3、大模型 - 计算量、模型、和数据大小的关系
  • 4、大模型调参相关论文经验总结
  • 5、训练时模型的保存

0、学习率与batch_size判断

  • batch_size: 这不用多说,一般按2的指数设置如:2、4、8、16…。设多大基本看你的显卡显存能不能hold得住咯。
  • 学习率: 常用的一些自适应学习率调整策略如:linear_with_warmup、cosine_with_warmup。现在像一些大模型如ChatGLM、LLaMA等的训练里基本都用的cosine。学习率基本就是:3e-5, 4e-5, 5e-5…这样调。
  • 学习率与batch_size的关系:

http://www.kler.cn/a/153986.html

相关文章:

  • mysql 的乐观锁和 mvcc 是一回事吗
  • 数据分析24.11.13
  • 逆向攻防世界CTF系列41-EASYHOOK
  • 数据处理与统计分析——05-Pandas中DataFrame的方法、属性、索引等一系列操作
  • Qt 之 qwt和QCustomplot对比
  • 15分钟学 Go 第 59 天 :更高级的Go话题——接触微服务
  • java学习part26线程安全
  • Maven终端打包时报Unknown lifecycle phase “.test.skip=true“
  • Java Servlet
  • MySQL安全相关——TDE和数据脱敏功能介绍
  • C++的类和对象(一)
  • 分享88个节日PPT,总有一款适合您
  • 【slab/0x40 UAF】TPCTF2023 - core 一题多解
  • 微信小程序实现打分效果代码整理
  • Golang分布式事务
  • 尝试修改vim光标的思路
  • 文件搜索工具HoudahSpot mac中文版特点
  • 网站更换IP的四大注意事项
  • MagicPipe3D地下管网三维建模数据规格
  • 医疗器械设备模组的具体应用
  • UniApp项目中 使用微信小程序原生语言 进行开发
  • 如何在vs2017及以前版本(vs2010、vs2015)上添加 添加类型库中的MFC类
  • C++作业4
  • 解决了布局问题1和布局问题2,接下来,你的Main函数如果写成下面这样,直接运行,什么也不会显示?
  • java设计模式学习之【建造者模式】
  • TCP网络常见名词