当前位置: 首页 > article >正文

机器学习算法模型系列——Adam算法

Adam是一种自适应学习率的优化算法,结合了动量和自适应学习率的特性。

主要思想是根据参数的梯度来动态调整每个参数的学习率。

核心原理包括:

  1. 动量(Momentum):Adam算法引入了动量项,以平滑梯度更新的方向。这有助于加速收敛并减少震荡。

  2. 自适应学习率:Adam算法计算每个参数的自适应学习率,允许不同参数具有不同的学习速度。

  3. 偏差修正(Bias Correction):Adam算法在初期迭代中可能受到偏差的影响,因此它使用偏差修正来纠正这个问题。

Adam相关公式

初始化:

  • 参数:eq?%5Cbeta

  • 学习率:eq?%5Calpha

  • 梯度估计的移动平均(一阶矩):eq?m%3D0

  • 梯度平方的移动平均(二阶矩):eq?v%3D0

  • 时间步数:eq?t%3D0

每个迭代步骤:

  1. eq?t%3Dt+1
  2. 计算梯度:eq?g_%7Bt%7D%20%3D%5Cbigtriangledown%20f%20_%7Bt%7D%28%5Ctheta%20_%7Bt%7D%29

  3. 更新一阶矩:eq?m_%7Bt%7D%20%3D%5Cbeta_%7B1%7D%5Ccdot%20m_%7Bt-1%7D+%281-%5Cbeta_%7B1%7D%29%5Ccdot%20g_%7Bt%7D

  4. 更新二阶矩:eq?v_%7Bt%7D%20%3D%5Cbeta_%7B2%7D%5Ccdot%20v_%7Bt-1%7D+%281-%5Cbeta_%7B2%7D%29%5Ccdot%20g_%7Bt%7D%5E%7B2%7D

  5. 修正偏差(Bias Correction): eq?%5Chat%7Bm%7D_%7Bt%7D%20%3D%5Cfrac%7Bm_%7Bt%7D%7D%7B%281-%5Cbeta_%7B1%7D%5E%7Bt%7D%29%7D和 eq?%5Chat%7Bv%7D_%7Bt%7D%20%3D%5Cfrac%7Bv%7Bt%7D%7D%7B%281-%5Cbeta_%7B2%7D%5E%7Bt%7D%29%7D

  6. 更新参数:eq?%7B%5Ctheta%7D_%7Bt+1%7D%20%3D%7B%5Ctheta%7D_%7Bt%7D%20-%5Calpha%20%5Ccdot%20%5Cfrac%7B%5Chat%7Bm%7D%7Bt%7D%7D%7B%28%5Csqrt%7Bv_%7Bt%7D%7D-%5Cvarepsilon%20%29%7D,其中 eq?%5Cvarepsilon 是一个小的常数,以防分母为零。

项目:基于Adam优化算法的神经网络训练

在这个项目中,我们将使用Adam优化算法来训练一个简单的神经网络,以解决二分类问题。我们将深入讨论Adam算法的原理和公式,并展示如何在Python中实施它。最后,我们将绘制学习曲线,以可视化模型的训练进展。

项目:基于Adam优化算法的神经网络训练

在这个项目中,我们将使用Adam优化算法来训练一个简单的神经网络,以解决二分类问题。我们将深入讨论Adam算法的原理和公式,并展示如何在Python中实施它。最后,我们将绘制学习曲线,以可视化模型的训练进展。

模型训练

使用Python代码实现Adam算法来训练一个二分类的神经网络。

使用Python中的NumPy库来进行计算,并使用一个合成的数据集来演示。

import numpy as np
import matplotlib.pyplot as plt

# 定义模型和数据
np.random.seed(42)
X = np.random.rand(100, 2)  # 特征数据
y = (X[:, 0] + X[:, 1] > 1).astype(int)  # 二分类标签

# 定义神经网络模型
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def predict(X, weights):
    return sigmoid(np.dot(X, weights))

# 初始化参数和超参数
theta = np.random.rand(2)  # 参数初始化
alpha = 0.1  # 学习率
beta1 = 0.9  # 一阶矩衰减因子
beta2 = 0.999  # 二阶矩衰减因子
epsilon = 1e-8  # 用于防止分母为零

# 初始化Adam算法所需的中间变量
m = np.zeros(2)
v = np.zeros(2)
t = 0

# 训练模型
num_epochs = 100
for epoch in range(num_epochs):
    for i in range(len(X)):
        t += 1
        gradient = (predict(X[i], theta) - y[i]) * X[i]
        m = beta1 * m + (1 - beta1) * gradient
        v = beta2 * v + (1 - beta2) * gradient**2
        m_hat = m / (1 - beta1**t)
        v_hat = v / (1 - beta2**t)
        theta -= alpha * m_hat / (np.sqrt(v_hat) + epsilon)

# 输出训练后的参数
print("训练完成后的参数:", theta)


# 定义损失函数
def loss(X, y, weights):
    y_pred = predict(X, weights)
    return -np.mean(y * np.log(y_pred) + (1 - y) * np.log(1 - y_pred))

# 记录损失值
loss_history = []
for i in range(len(X)):
    loss_history.append(loss(X[i], y[i], theta))

# 绘制损失函数曲线
plt.plot(range(len(X)), loss_history)
plt.xlabel("Iteration")
plt.ylabel("Loss Function Value")
plt.title("Change in Loss Function Over Time")
plt.show()

这个图形将显示损失函数值随着迭代次数的减小而减小,这表明Adam优化算法成功地训练了模型。

 

0c28a34bb095b6c7dd66ad815c82823e.png

 

 


http://www.kler.cn/a/402870.html

相关文章:

  • DataGear 企业版 1.3.0 发布,数据可视化分析平台
  • flutter 专题十七 Flutter Flar动画实战
  • Python 中的三重引号
  • element-plus教程:Checkbox 多选框
  • 《生成式 AI》课程 作业6 大语言模型(LLM)的训练微调 Fine Tuning -- part2
  • 力扣-位运算-1【算法学习day.41】
  • 量子计算机全面解析:技术、应用与未来
  • 连接数据库:通过链和代理查询鲜花信息
  • 如何拆解问题
  • Git入门图文教程 -- 深入浅出 ( 保姆级 )
  • 【生物服务器】数据分析//论文润色/组学技术服务 、表观组分析、互作组分析、遗传转化实验、生物医学
  • ESP32移植Openharmony外设篇(6)光敏电阻ADC读取
  • Vue前端框架开发 npm安装Vite或CLI
  • 使用Python编写脚本,为Excel表格添加水印
  • 前端两大利器:Vue与TypeScript的渊源
  • 使用Python生成卡方分布表并导出为Excel文件
  • K8S数据存储持久化Volume和高级存储之PV、PVC
  • Git分布式版本控制系统
  • 【Linux】基础02
  • CommonsBeanutils与Shiro发序列化利用的学习
  • Python毕业设计选题:基于python的豆瓣电影数据分析可视化系统-flask+spider
  • React Native 全栈开发实战班 - 网络与数据之 websock与服务端交互
  • Ansible一键部署Kubernetes集群
  • 2024一带一路暨金砖国家技能发展与技术创新大赛第二届企业信息系统安全赛项选拔赛(北部赛区)
  • react 如何修改弹出的modal的标题
  • 知从科技加入SOAFEE组织,携手推动汽车软件创新