当前位置: 首页 > article >正文

余弦退火算法与学习率预热

余弦退火算法与学习率预热

总述:

(1)标准余弦退火算法(Cosine Annealing)是通过单次的余弦曲线调整学习率,在一个周期内让学习率从一个最大值平滑下降η_max到最小值η_min,这种调整模式是非周期性的,完成一次后学习率保持最小不变,

(2)带热重启的余弦退火(SGDR)是余弦退火的周期性扩展版本。它在每个周期结束时将学习率重置回初始最大值,并开始新的余弦衰减周期,形成周期性波动。周期往往是动态的:Tmax = Tmax *2^n

(3)Warmup(学习率预热)是独立于余弦退火的策略,其目的是在训练初期逐步提高学习率(例如线性增长),避免模型因随机初始权重导致训练不稳定


余弦退火算法的学习率表达:(区别在于周期结束后,SGDR会讲T_设置成0)

image


使用场景:

标准余弦退火算法常常在短周期训练(epoch<50),需要稳定收敛的情况下使用。SGDR算法的热重启通过周期性地升高学习率,帮助模型跳出局部最优解,探索更广参数空间。


http://www.kler.cn/a/600733.html

相关文章:

  • 依肤婗:以科研实力引领 问题性肌肤护理新标准
  • Apache HBase平衡器架构
  • 16种二极管综合对比——《器件手册--二极管》
  • JAVA学习*String类
  • 解密Java内存模型:从happens-before原则到实战可见性问题
  • Java全栈项目 - 智能停车场管理系统(2)
  • 《基于SpringBoot的图书网购平台的设计与实现》开题报告
  • Go语言中context.Context的
  • Rust从入门到精通之精通篇:22.Unsafe Rust 详解
  • Android 静态壁纸设置实现方案
  • 企业级全栈开发终极指南:Spring Boot+Vue3+Kubernetes实战,从0到上线高并发系统
  • Linux Shell 基础操作笔记
  • 区间端点(java)(贪心问题————区间问题)
  • [CLS] Token 在 ViT(Vision Transformer)中的作用与实现
  • vscode ssh连接ubantu显示管道不存在,VMware Virtual Ethernet Adapter for VMnet8不存在
  • Redis原理:multiexec命令
  • C/S与B/S架构
  • ThreadLocal 的用途与用法全解析:Java 多线程开发的利器
  • C++中将记录集的数据复制到Excel工作表中的CRange类CopyFromRecordset函数异常怎么捕获
  • 【c++入门系列】:引用以及内联函数详解