当前位置: 首页 > article >正文

【深度学习】常见优化算法的NumPy和PyTorch实现

以下是NumPy和PyTorch实现的几种常见优化算法:

其中参数含义如下:

  • w:待优化参数。

  • grad:参数的梯度。

  • lr:学习率。

  • mu:动量系数(仅对Momentum算法有用)。

  • eps:防止除0操作的小量。

  • cache:参数的暂存值,在不同算法中有不同的含义。

  • decay_rate:衰减率,仅在RMSprop和Adam算法中使用。

  • t:迭代步骤数,仅在Adam算法中使用。

  • m:动量梯度的暂存值,仅在Adam算法中使用。

  • v:平方梯度的暂存值,仅在Adam算法中使用。

    cb0ed52b3a2e6d3738cd37873c68127c.png

1. 随机梯度下降(SGD)

随机梯度下降算法是最基本的优化算法之一,每次更新参数时,使用一个样本的梯度来更新参数,这样可以避免在大数据集中计算整个数据集的梯度。

算法公式:

其中,表示次迭代时的参数值,表示参数的梯度,为学习率。这个算法每次迭代只计算一个样本的梯度,速度快,但可能会引起算法的震荡。

Numpy实现代码:

import numpy as np

def sgd(w, grad, lr):
    w -= lr * grad
    return w

PyTorch实现代码:

import torch.optim as optim

optimizer = optim.SGD(model.parameters(), lr=learning_rate)

2. 动量(Momentum)

动量算法可以加速梯度下降,并减少梯度下降的震荡。它引入一个额外的动量参数,用于记住之前梯度下降的方向,从而减少在各个方向上波动的情况。

算法公式:

其中,表示次迭代时的参数值,表示参数的梯度,为学习率,是动量参数。这个算法将之前梯度下降方向的信息与当前梯度下降方向结合起来,可以更好地适应数据集。

Numpy实现代码:

import numpy as np

def momentum(v, grad, lr, mu):
    v = mu * v - lr * grad
    return v

PyTorch实现代码:

import torch.optim as optim

optimizer = optim.SGD(model.parameters(), lr=learning_rate, momentum=momentum)

3. Adagrad

Adagrad是一种自适应学习率算法,它根据每个参数的梯度值来适应学习率的调整,并对使用频率高的参数进行更快的学习率更新。

算法公式:

其中,表示次迭代时的参数值,表示参数的梯度,为学习率,为所有梯度的平方和的累加量,是一个很小的数,用来避免除以0。

Adagrad的缺点是在处理大规模数据集时,学习率会变得过小,导致算法收敛缓慢,并且不能区分参数的重要性。

Numpy实现代码:

import numpy as np

def adagrad(w, grad, lr, eps, cache):
    cache += grad ** 2
    w -= lr * grad / (np.sqrt(cache) + eps)
    return w, cache

PyTorch实现代码:

import torch.optim as optim

optimizer = optim.Adagrad(model.parameters(), lr=learning_rate)

4. RMSprop

RMSprop是一种自适应学习率算法,它根据梯度的有限滑动平均值来调整每个参数的学习率。

算法公式:

其中,表示次迭代时的参数值,表示参数的梯度,为学习率,为所有梯度的平方的滑动平均值,是一个很小的数,用来避免除法时出现除以0的情况,是衰减率。

RMSprop是Adagrad的扩展,它使用了滑动平均,解决了Adagrad不能区分参数重要性的问题。

Numpy实现代码:

import numpy as np

def rmsprop(w, grad, lr, eps, decay_rate, cache):
    cache = decay_rate * cache + (1 - decay_rate) * grad ** 2
    w -= lr * grad / (np.sqrt(cache) + eps)
    return w, cache

PyTorch实现代码:

import torch.optim as optim

optimizer = optim.RMSprop(model.parameters(), lr=learning_rate)

5. Adam

Adam是一种自适应学习率算法,它结合了动量算法和自适应学习率算法,可以对不同梯度的参数调整学习率,对不同方向上的梯度进行更好的调整。

算法公式:

其中,表示次迭代时的参数值,表示参数的梯度,为学习率,为动量估计值,为带平方梯度的指数加权平均数,是一个很小的数,用来避免除以0,是动量系数,是偏差校正数。

Adam算法相对于其他优化算法,具有更好的适应性和计算效率,被广泛应用在深度学习中。

Numpy实现代码:

import numpy as np

def adam(w, grad, lr, eps, decay_rate_1, decay_rate_2, t, m, v):
    m = decay_rate_1 * m + (1 - decay_rate_1) * grad
    v = decay_rate_2 * v + (1 - decay_rate_2) * (grad ** 2)
    mb = m / (1 - decay_rate_1 ** t)
    vb = v / (1 - decay_rate_2 ** t)
    w -= lr * mb / (np.sqrt(vb) + eps)
    return w, m, v

PyTorch实现代码:

import torch.optim as optim

optimizer = optim.Adam(model.parameters(), lr=learning_rate)

以上就是numpy和PyTorch实现的几种优化算法的代码,大家可以根据实际需求选择合适的优化算法。


http://www.kler.cn/a/4426.html

相关文章:

  • HarmonyOS 鸿蒙 ArkTs(5.0.1 13)实现Scroll下拉到顶刷新/上拉触底加载,Scroll滚动到顶部
  • Git的基本命令以及其原理(公司小白学习)
  • 【初识扫盲】厚尾分布
  • 接口测试Day09-数据库工具类封装
  • SimpleFOC01|基于STM32F103+CubeMX,移植核心的common代码
  • Python在Excel工作表中创建数据透视表
  • WebRTC技术分析
  • 【C语言蓝桥杯每日一题】——跑步锻炼
  • SpringBoot启动流程源码分析一、入口参数研究和创建对象
  • python基础篇:什么是装饰器?装饰器有什么用?
  • 【设计模式】单例模式
  • 蓝桥杯冲刺 - week1
  • ESP IDF docker 使用方法
  • C语言基础——运算符(定义变量、转义字符、输入输出语句、运算符、32个关键字)
  • 【华为OD机试 2023最新 】 识图谱新词挖掘(C++)
  • 用户态--fork函数创建进程
  • vue 监听器及计算属性高阶用法
  • vue Teleport和ref结合复用弹框组件
  • 统计字符串中每个字符出现的次数
  • C语言基础——流程控制语句
  • 深度学习的面试小记
  • VUE3 学习笔记(五)UI框架Element Plus
  • C/C++开发,编译环境搭建
  • HDFS概述
  • 查看mysql InnoDB引擎 线程模型信息
  • Modelsim仿真使用教程