当前位置：首页 > article >正文

机器学习中的优化算法-1-梯度下降及其变体

article 2025/2/28 20:23:12

Optimization Algorithms in Machine Learning,机器学习中的优化算法。

优化算法是机器学习模型的支柱，因为它们使建模过程能够从给定的数据集中学习。这些算法用于查找目标函数的最小值或最大值，该函数在机器学习上下文中代表误差或损失。在本文中，讨论了不同的优化方法以及它们在机器学习中的用途及其意义。

了解机器学习中的优化
机器学习中的优化算法类型
- 1. 一阶算法
- 2. 二阶算法
针对特定机器学习任务的优化
- 1. 分类任务：Logistic 回归优化
- 2. 回归任务：线性回归优化
优化算法的挑战和局限性

了解机器学习中的优化

优化是从各种可用的可行解决方案中选择最佳解决方案的过程。换句话说，优化可以定义为获得给定函数的最佳值或最小值的一种方式。在大多数问题中，目标函数 f（x）是受约束的，目的是确定最小化或最大化 f（x）的？x 值。

关键概念：

目标函数：必须优化的目标或函数是利润函数。
变量：以下是必须调整的参数：
Constraints：解决方案要满足的约束。
Feasible Region（可行区域）：在给定约束的情况下可行的所有潜在解决方案的子集。

机器学习中的优化算法类型

有各种类型的优化算法，每种算法都有其优点和缺点。 这些算法大致可分为两类：一阶算法和二阶算法。

1. 一阶算法

梯度下降
随机优化技术
进化算法
元启发式优化
Swarm 智能算法
超参数优化
深度学习中的优化

梯度下降及其变体

Gradient Descent 是一种基本的优化算法，用于通过迭代向最小值移动来最小化目标函数。它是一种一阶迭代算法，用于查找可微分多元函数的局部最小值。该算法的工作原理是在当前点的函数梯度（或近似梯度）的相反方向上采取重复步骤，因为这是最陡下降的方向。

假设我们想要最小化函数 f（x）=x2使用 Gradient Descent。

import numpy as np



# Define the gradient function for f(x) = x^2

def gradient(x):

    return 2 * x



# Gradient descent optimization function

def gradient_descent(gradient, start, learn_rate, n_iter=50, tolerance=1e-06):

    vector = start

    for _ in range(n_iter):

        diff = -learn_rate * gradient(vector)

        if np.all(np.abs(diff) <= tolerance):

            break

        vector += diff

    return vector



# Initial point

start = 5.0

# Learning rate

learn_rate = 0.1

# Number of iterations

n_iter = 50

# Tolerance for convergence

tolerance = 1e-6



# Gradient descent optimization

result = gradient_descent(gradient, start, learn_rate, n_iter, tolerance)

print(result)

输出

7.136238463529802e-05

梯度下降的变体：

随机梯度下降 （SGD）：此变体建议一次使用单个训练示例更新模型，不需要大量计算，因此适用于大型数据集。因此，它们是随机的，可能会产生嘈杂的更新，因此可能需要仔细选择学习率。
Mini-Batch Gradient Descent：此方法的设计方式是为每个小批量数据计算它，在时间和精度之间取得平衡。它的收敛速度比 SGD 快，在实践中广泛用于训练许多深度学习模型。
Momentum：Momentum 通过将算法的前面步骤的信息添加到下一步来改进 SGD。通过将当前更新向量的一部分添加到之前的更新中，它使算法能够穿透平坦区域和嘈杂的梯度，从而有助于最大限度地减少训练和查找收敛的时间。

查看全文

http://www.kler.cn/a/350769.html