当前位置：首页 > article >正文

玄学调参实践篇 | 深度学习模型 + 预训练模型 + 大模型LLM

article 2025/2/22 4:30:35

😍 这篇主要简单记录一些调参实践，无聊时会不定期更新~

在这里插入图片描述

文章目录

0、学习率与batch_size判断
1、Epoch数判断
2、判断模型架构是否有问题
3、大模型 - 计算量、模型、和数据大小的关系
4、大模型调参相关论文经验总结
5、训练时模型的保存

0、学习率与batch_size判断

batch_size： 这不用多说，一般按2的指数设置如：2、4、8、16…。设多大基本看你的显卡显存能不能hold得住咯。
学习率： 常用的一些自适应学习率调整策略如：linear_with_warmup、cosine_with_warmup。现在像一些大模型如ChatGLM、LLaMA等的训练里基本都用的cosine。学习率基本就是：3e-5, 4e-5, 5e-5…这样调。
学习率与batch_size的关系：

http://www.kler.cn/a/153986.html

相关文章：

java学习part26线程安全

Maven终端打包时报Unknown lifecycle phase “.test.skip=true“

Java Servlet

MySQL安全相关——TDE和数据脱敏功能介绍

C++的类和对象（一）

分享88个节日PPT，总有一款适合您

【slab/0x40 UAF】TPCTF2023 - core 一题多解

微信小程序实现打分效果代码整理

Golang分布式事务

尝试修改vim光标的思路

文件搜索工具HoudahSpot mac中文版特点

网站更换IP的四大注意事项

MagicPipe3D地下管网三维建模数据规格

医疗器械设备模组的具体应用

UniApp项目中使用微信小程序原生语言进行开发

如何在vs2017及以前版本(vs2010、vs2015)上添加添加类型库中的MFC类

C++作业4

解决了布局问题1和布局问题2，接下来，你的Main函数如果写成下面这样，直接运行，什么也不会显示？

java设计模式学习之【建造者模式】

TCP网络常见名词