当前位置: 首页 > article >正文

机器学习中的优化算法-1-梯度下降及其变体

Optimization Algorithms in Machine Learning,机器学习中的优化算法。

优化算法是机器学习模型的支柱,因为它们使建模过程能够从给定的数据集中学习。这些算法用于查找目标函数的最小值或最大值,该函数在机器学习上下文中代表误差或损失。在本文中,讨论了不同的优化方法以及它们在机器学习中的用途及其意义。

目录

  • 了解机器学习中的优化
  • 机器学习中的优化算法类型
    • 1. 一阶算法
    • 2. 二阶算法
  • 针对特定机器学习任务的优化
    • 1. 分类任务:Logistic 回归优化
    • 2. 回归任务:线性回归优化
  • 优化算法的挑战和局限性

了解机器学习中的优化

优化是从各种可用的可行解决方案中选择最佳解决方案的过程。换句话说,优化可以定义为获得给定函数的最佳值或最小值的一种方式。在大多数问题中,目标函数 f(x) 是受约束的,目的是确定最小化或最大化 f(x) 的 ?x 值。

关键概念:

  • 目标函数:必须优化的目标或函数是利润函数。
  • 变量:以下是必须调整的参数:
  • Constraints解决方案要满足的约束。
  • Feasible Region(可行区域):在给定约束的情况下可行的所有潜在解决方案的子集。

机器学习中的优化算法类型

有各种类型的优化算法,每种算法都有其优点和缺点。 这些算法大致可分为两类:一阶算法和二阶算法

1. 一阶算法

  • 梯度下降
  • 随机优化技术
  • 进化算法
  • 元启发式优化
  • Swarm 智能算法
  • 超参数优化
  • 深度学习中的优化
  1. 梯度下降及其变体

Gradient Descent 是一种基本的优化算法,用于通过迭代向最小值移动来最小化目标函数。它是一种一阶迭代算法,用于查找可微分多元函数的局部最小值。该算法的工作原理是在当前点的函数梯度 (或近似梯度) 的相反方向上采取重复步骤,因为这是最陡下降的方向。

假设我们想要最小化函数 f(x)=x2使用 Gradient Descent。

import numpy as np



# Define the gradient function for f(x) = x^2

def gradient(x):

    return 2 * x



# Gradient descent optimization function

def gradient_descent(gradient, start, learn_rate, n_iter=50, tolerance=1e-06):

    vector = start

    for _ in range(n_iter):

        diff = -learn_rate * gradient(vector)

        if np.all(np.abs(diff) <= tolerance):

            break

        vector += diff

    return vector



# Initial point

start = 5.0

# Learning rate

learn_rate = 0.1

# Number of iterations

n_iter = 50

# Tolerance for convergence

tolerance = 1e-6



# Gradient descent optimization

result = gradient_descent(gradient, start, learn_rate, n_iter, tolerance)

print(result)

输出

7.136238463529802e-05

梯度下降的变体:

  • 随机梯度下降 SGD):此变体建议一次使用单个训练示例更新模型,不需要大量计算,因此适用于大型数据集。因此,它们是随机的,可能会产生嘈杂的更新,因此可能需要仔细选择学习率。
  • Mini-Batch Gradient Descent此方法的设计方式是为每个小批量数据计算它,在时间和精度之间取得平衡。它的收敛速度比 SGD 快,在实践中广泛用于训练许多深度学习模型。
  • MomentumMomentum 通过将算法的前面步骤的信息添加到下一步来改进 SGD。通过将当前更新向量的一部分添加到之前的更新中,它使算法能够穿透平坦区域和嘈杂的梯度,从而有助于最大限度地减少训练和查找收敛的时间。

http://www.kler.cn/news/350769.html

相关文章:

  • Lua for循环语句
  • 纳斯达克大屏投放:为什么越来越多的企业要投放纳斯达克户外广告
  • iPhone当U盘使用的方法 - iTunes共享文件夹无法复制到电脑怎么办 - 如何100%写入读出
  • Android 自定义 Dialog 实现列表 单选,多选,搜索
  • windows|常见的文件伪装方法
  • 数组中的算法
  • docker常用命令及用法
  • linux证明变量扩展在路径名扩展之前执行
  • 【微服务】全面构建微服务监控体系:确保系统稳定与性能优化的关键
  • 企业专线:构建高效企业网络
  • Linux 外设驱动 应用 3 串口
  • MySQL插入优化-性能对比
  • K3s部署指南
  • 【算法篇】动态规划类(4)——子序列(笔记)
  • CentOS 7 将 YUM 源更改为国内镜像源
  • 原理代码解读:基于DiT结构视频生成模型的ControlNet
  • 【v5.3.0】修复订单批量发货提示 isPicUpload is not defined
  • 【笔记】Day2.5.1查询运费模板列表(未完
  • windows mysql 8.0版本重置root密码
  • 【STM32】C语言复习以及底层寄存器映射
  • 深度学习论文: T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy
  • 利用Python filestream实现文件流读
  • Python设计方差分析实验
  • 【AI绘画】Midjourney进阶:留白构图详解
  • Docker 安装 Oracle创建表空间并导入数据库
  • 初尝类型萃取--typename、模板偏特化、和traits之(一)typename