当前位置: 首页 > article >正文

深度学习中的优化方法(Momentum,AdaGrad,RMSProp,Adam)详解及调用

深度学习中常用的优化方法包括啦momentum(动量法),Adagrad(adaptive gradient自适应梯度法),RMSProp(root mean square propagation均方根传播算法),Adam(adaptive moment estimation自适应矩估计法)

指数加权平均算法

所谓指数加权平均算法是上述优化算法的基础,其作用是对历史数据和当前数据进行加权求和,具体公式如下

if t==0:

v_0 = x_0

if t > 0

v_t = \beta v_{t-1} + (1 - \beta) x_t

其中

  • v_t为时间步t的加权平均值
  • v_{t-1}为为时间步t-1的加权平均值
  • x_t为时间步t的观测值
  • \beta为平滑因子,0 < \beta < 1

可以较为明显地看出,所谓指数加权平均算法的关键就在于\beta的大小,其越大,当前时间步的值就会越偏向过去的值,换句话说,整体数值序列就会更加平滑

指数加权平均算法的可视化

import torch
import torch.nn as nn
import matplotlib.pyplot as plt
from numpy.array_api import linspace

torch.manual_seed(0)


def exponential_wma(data,beta=0.9):
    list1 = []
    for n,i in enumerate(data):
        if n ==0:
            list1.append(i)
        else:
            list1.append(beta * list1[n-1] + (1-beta) * i)
    return list1

if __name__ == '__main__':


    data = torch.randn(50)*10

    x = torch.linspace(1,50,50)

    fig = plt.figure()
    axes1 = plt.subplot(1,2,1)
    axes1.scatter(x,data)
    axes1.plot(x,data)
    axes1.set_xlabel('x')
    axes1.set_ylabel('y')
    axes1.set_title('original data')
    print(data)

    axes2 = plt.subplot(1,2,2)
    axes2.scatter(x,data,label='original_data')
    axes2.plot(x,exponential_wma(data),  label='ewma_curve')
    axes2.set_xlabel('x')
    axes2.set_ylabel('y')
    axes2.set_title('ewma')
    print(exponential_wma(data))
    axes2.legend()
    plt.subplots_adjust(wspace=0.4)
    fig.savefig('ewma.png')
    plt.show()

# tensor([-11.2584, -11.5236,  -2.5058,  -4.3388,   8.4871,   6.9201,  -3.1601,
#         -21.1522,   3.2227, -12.6333,   3.4998,   3.0813,   1.1984,  12.3766,
#          11.1678,  -2.4728, -13.5265, -16.9593,   5.6665,   7.9351,   5.9884,
#         -15.5510,  -3.4136,  18.5301,   7.5019,  -5.8550,  -1.7340,   1.8348,
#          13.8937,  15.8633,   9.4630,  -8.4368,  -6.1358,   0.3159,  10.5536,
#           1.7784,  -2.3034,  -3.9175,   5.4329,  -3.9516,   2.0553,  -4.5033,
#          15.2098,  34.1050, -15.3118, -12.3414,  18.1973,  -5.5153, -13.2533,
#           1.8855])
# [tensor(-11.2584), tensor(-11.2849), tensor(-10.4070), tensor(-9.8002), tensor(-7.9715), tensor(-6.4823), tensor(-6.1501), tensor(-7.6503), tensor(-6.5630), tensor(-7.1700), tensor(-6.1030), tensor(-5.1846), tensor(-4.5463), tensor(-2.8540), tensor(-1.4518), tensor(-1.5539), tensor(-2.7512), tensor(-4.1720), tensor(-3.1881), tensor(-2.0758), tensor(-1.2694), tensor(-2.6976), tensor(-2.7692), tensor(-0.6392), tensor(0.1749), tensor(-0.4281), tensor(-0.5587), tensor(-0.3193), tensor(1.1020), tensor(2.5781), tensor(3.2666), tensor(2.0962), tensor(1.2730), tensor(1.1773), tensor(2.1150), tensor(2.0813), tensor(1.6428), tensor(1.0868), tensor(1.5214), tensor(0.9741), tensor(1.0822), tensor(0.5237), tensor(1.9923), tensor(5.2036), tensor(3.1520), tensor(1.6027), tensor(3.2621), tensor(2.3844), tensor(0.8206), tensor(0.9271)]

这里设置的平滑因子为0.9,通常情况下使用动量法的时候平滑因子也会设置为0.9

平滑因子越大,理论上曲线就会越平滑

Momentum动量法

Momentum动量法的原理就是在梯度下降的时候使用指数加权平均法计算下降的梯度

动量更新方法如下

v_{t+1} = \beta v_t + (1 - \beta) \nabla_{\theta} J(\theta_t)

其中

  • v_{t+1}是动量项(累积的梯度),用于更新参数。
  • \beta 是动量系数(通常 0 < \beta < 1 ,例如  0.9 ),它决定了之前梯度对当前更新的影响程度。
  • v_t 是前一步的动量值。
  • \nabla_{\theta} J(\theta_t) 是当前时间步  t  计算得到的梯度。
  • \theta_t 是当前模型参数。

参数更新方法如下

\theta_{t+1} = \theta_t - \eta v_{t+1}

其中

  • \theta_{t+1}是更新后的参数。
  • \theta_t 是当前的参数。
  • \eta 是学习率。
  • v_{t+1} 是当前的动量项(累积梯度)。

动量法的调用

动量法的调用一般集成在SGD优化器中,通过设置SGD优化器中的momentum参数来配置,momentum参数的值就是动量系数(平滑因子)

import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import torch.optim as optim

model = nn.Linear(5, 1)
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
print(model)
print(optimizer)

# Linear(in_features=5, out_features=1, bias=True)
# SGD (
# Parameter Group 0
#     dampening: 0
#     differentiable: False
#     foreach: None
#     fused: None
#     lr: 0.001
#     maximize: False
#     momentum: 0.9
#     nesterov: False
#     weight_decay: 0
# )

AdaGrad自适应梯度

AdaGrad(自适应梯度法)的作用是随着训练的进行,对学习率进行逐步衰减

累计梯度平方和

G_t = G_{t-1} + g_t^2

其中

  • G_t 是参数梯度平方的累积和(是一个对角矩阵,表示每个参数的梯度平方和)。
  • g_t  是当前时间步  t  的梯度
  •  G_{t-1}  是前面所有时间步的梯度平方和

参数更新方式

\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{G_t} + \epsilon} \cdot g_t

其中

  • \theta_t 是当前的参数
  • \eta  是全局的学习率
  • G_t 是梯度平方的累积和
  • \epsilon  是一个小常数,用于防止除以零,通常取值为  10^{-8}

自适应梯度法的调用

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.fc1 = nn.Linear(10, 100)
        self.fc2 = nn.Linear(100, 5)
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

if __name__ == '__main__':
    my_net = SimpleNet()
    optimizer = optim.Adagrad(my_net.parameters(), lr=0.01)
    print(my_net)
    print(optimizer)

# SimpleNet(
#   (fc1): Linear(in_features=10, out_features=100, bias=True)
#   (fc2): Linear(in_features=100, out_features=5, bias=True)
# )
# Adagrad (
# Parameter Group 0
#     differentiable: False
#     eps: 1e-10
#     foreach: None
#     fused: None
#     initial_accumulator_value: 0
#     lr: 0.01
#     lr_decay: 0
#     maximize: False
#     weight_decay: 0
# )

RMSProp均方根传播法

RMSProp均方根传播法是在Adagrad的基础上做了优化,由于Adagrad中的累计平方和,会导致学习率快速下降导致模型收敛变慢

所以RMSProp对累计平方和进行了优化,转为了加权平均算法

梯度平方的指数加权平均算法

E[g^2]t = \beta E[g^2]{t-1} + (1 - \beta) g_t^2

其中

  • E[g^2]_t  是梯度平方的指数加权移动平均值(即该参数梯度的平滑历史平方值)
  • \beta  是衰减系数(通常取值接近 1,例如 0.9 或 0.99)
  • g_t  是当前时刻  t  的梯度
  • E[g^2]_{t-1}  是前一时刻的梯度平方的指数加权移动平均

参数更新

\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}} \cdot g_t

其中

  • \theta_t  是当前的参数
  • \eta 是当前的学习率
  • E[g^2]_t 是梯度平方的指数加权移动平均
  • \epsilon  是一个小常数(通常取  10^{-8} ),用于防止除以零的情况

同时RMSProp也支持动量法用于记录历史梯度,但是与SGD中国的动量法有所不同

动量项 v_t 的更新

v_t = \beta v_{t-1} + \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}} g_t

其中

  • v_t 是当前动量项
  • v_{t-1}  是前一时刻的动量项
  • \beta  是动量系数,通常接近 1(例如 0.9 或 0.99),表示过去动量的影响
  • \eta  是学习率
  • g_t 是当前的梯度
  • E[g^2]_t  是梯度平方的指数加权移动平均,用来动态调整每个参数的学习率

这里动量项的加入会使模型加快熟练

均方根传播法的调用

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.fc1 = nn.Linear(10, 100)
        self.fc2 = nn.Linear(100, 5)
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

if __name__ == '__main__':
    my_net = SimpleNet()
    optimizer = optim.RMSprop(my_net.parameters(), lr=0.01, alpha=0.99,momentum=0.9)
    print(my_net)
    print(optimizer)

# SimpleNet(
#   (fc1): Linear(in_features=10, out_features=100, bias=True)
#   (fc2): Linear(in_features=100, out_features=5, bias=True)
# )
# RMSprop (
# Parameter Group 0
#     alpha: 0.99
#     capturable: False
#     centered: False
#     differentiable: False
#     eps: 1e-08
#     foreach: None
#     lr: 0.01
#     maximize: False
#     momentum: 0.9
#     weight_decay: 0
# )

Adam自适应矩估计法

Adam自适应矩估计法,与RMSProp不同,其完整融合了Momentum和AdaGrad方法

一阶矩估计(动量)

  • m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t
  • m_t 是梯度的一阶矩的指数加权移动平均值(即动量)
  • \beta_1  是控制动量的衰减系数,通常取  0.9 
  • g_t  是当前时刻的梯度

二阶矩估计(梯度平方的指数加权移动平均)

  • v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2
  • v_t 是梯度平方的指数加权移动平均值(相当于 RMSProp 中的累积梯度平方)
  • \beta_2  是控制二阶矩的衰减系数,通常取  0.999 

一阶矩和二阶矩的偏差校正

由于一阶矩和二阶矩在初始化的时候,不具备前一时刻的动量,所以由于(1-衰减系数)的存在,刚开始的梯度下降幅度偏小,所以这里使用了偏差校正去放大一开始的下降幅度

  • \hat{m_t} = \frac{m_t}{1 - \beta_1^t}
  • \hat{v_t} = \frac{v_t}{1 - \beta_2^t}
  • \hat{m_t}  是一阶矩的偏差校正值
  • \hat{v_t}  是二阶矩的偏差校正值

参数更新

  • \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v_t}} + \epsilon} \hat{m_t}
  • \theta_t  是当前的参数
  • \eta  是学习率
  • \epsilon  是一个小常数,通常取  10^{-8} ,用于防止除以零的情况
  • \hat{m_t}  是偏差校正后的一阶矩
  • \hat{v_t}  是偏差校正后的二阶矩

参数设置说明

  • \beta_1  和  \beta_2 :分别控制一阶矩和二阶矩的衰减速率。通常推荐值为 \beta_1  = 0.9  和 \beta_2  = 0.999 
  • \epsilon :用于防止除以零的问题,保证数值稳定性,通常设置为  10^{-8} 
  • 学习率  \eta :这是 Adam 的全局学习率,通常设置为  0.001 
  • \beta_1^t  是  \beta_1  的  t  次方,随着迭代步数  t  的增加,\beta_1^t  趋近于 0,从而消除偏差

自适应矩估计法的调用

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.fc1 = nn.Linear(10, 100)
        self.fc2 = nn.Linear(100, 5)
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

if __name__ == '__main__':
    my_net = SimpleNet()
    optimizer = optim.Adam(my_net.parameters(), lr=0.01, betas=(0.9, 0.999), eps=1e-8)
    print(my_net)
    print(optimizer)

# SimpleNet(
#   (fc1): Linear(in_features=10, out_features=100, bias=True)
#   (fc2): Linear(in_features=100, out_features=5, bias=True)
# )
# Adam (
# Parameter Group 0
#     amsgrad: False
#     betas: (0.9, 0.999)
#     capturable: False
#     differentiable: False
#     eps: 1e-08
#     foreach: None
#     fused: None
#     lr: 0.01
#     maximize: False
#     weight_decay: 0
# )

补充

在以上四个优化器中,都支持配置weight_decay参数,其为正则化系数,添加后可以对模型添加L2正则


http://www.kler.cn/a/330129.html

相关文章:

  • 二手车交易系统的设计与实现(代码+数据库+LW)
  • 【EI 会议征稿】第四届材料工程与应用力学国际学术会议(ICMEAAE 2025)
  • LeetCode 热题 100_从前序与中序遍历序列构造二叉树(47_105_中等_C++)(二叉树;递归)
  • ClickHouse大数据准实时更新
  • 对比学习 (Contrastive Learning) 算法详解与PyTorch实现
  • TypeScript Jest 单元测试 搭建
  • 后台管理系统脚手架
  • ICM20948 DMP代码详解(58)
  • 深入探索 Pygwalker:Python 数据可视化的强大工具
  • STM32-MPU6050+DAM库源码(江协笔记)
  • Ps:打开与置入
  • C++——函数功能是:将两个两位数的正整数a、b合并成一个整数c,合并规则是将a的十位和个位分别放在c的千位和个位,将b的十位和个位分别放在c的十位和百位。
  • 小论树形dp
  • 游戏如何对抗改包
  • 【JavaScript】JIT
  • 【gradio】gradio构建webui demo时只支持一个访问?
  • [BCSP-X2024.小高3] 学习计划
  • 网络编程套接字TCP
  • DNS与ICMP
  • 毕业设计选题:基于ssm+vue+uniapp的校园水电费管理小程序
  • 查找与排序-归并排序
  • rabbitMq-----broker服务器
  • 解决nginx+tomcat宕机完美解决方案
  • 【数据结构】堆(Heap)详解----定义堆、初始化,删除、插入、销毁、判空、取堆顶
  • 试用Foxit PDF: 在网页中单页展示PDF
  • 计算机网络期末复习真题(附真题答案)