当前位置: 首页 > article >正文

动手学深度学习11.6. 动量法-笔记练习(PyTorch)

以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。

本节课程地址:72 优化算法【动手学深度学习v2】_哔哩哔哩_bilibili

本节教材地址:11.6. 动量法 — 动手学深度学习 2.0.0 documentation

本节开源代码:...>d2l-zh>pytorch>chapter_optimization>momentum.ipynb


动量法

在 11.4节 一节中,我们详述了如何执行随机梯度下降,即在只有嘈杂的梯度可用的情况下执行优化时会发生什么。 对于嘈杂的梯度,我们在选择学习率需要格外谨慎。 如果衰减速度太快,收敛就会停滞。 相反,如果太宽松,我们可能无法收敛到最优解。

基础

本节将探讨更有效的优化算法,尤其是针对实验中常见的某些类型的优化问题。

泄漏平均值

上一节中我们讨论了小批量随机梯度下降作为加速计算的手段。 它也有很好的副作用,即平均梯度减小了方差。 小批量随机梯度下降可以通过以下方式计算:

\mathbf{g}_{t, t-1} = \partial_{\mathbf{w}} \frac{1}{|\mathcal{B}_t|} \sum_{i \in \mathcal{B}_t} f(\mathbf{x}_{i}, \mathbf{w}_{t-1}) = \frac{1}{|\mathcal{B}_t|} \sum_{i \in \mathcal{B}_t} \mathbf{h}_{i, t-1}.

为了保持记法简单,在这里我们使用 \mathbf{h}_{i, t-1} = \partial_{\mathbf{w}} f(\mathbf{x}_i, \mathbf{w}_{t-1}) 作为样本 i 的随机梯度下降,使用时间 t-1 时更新的权重 t-1 。 如果我们能够从方差减少的影响中受益,甚至超过小批量上的梯度平均值,那很不错。 完成这项任务的一种选择是用泄漏平均值(leaky average)取代梯度计算:

\mathbf{v}_t = \beta \mathbf{v}_{t-1} + \mathbf{g}_{t, t-1}

其中 \beta \in (0, 1) 。 这有效地将瞬时梯度替换为多个“过去”梯度的平均值。 \mathbf{v} 被称为动量(momentum), 它累加了过去的梯度。 为了更详细地解释,让我们递归地将 \mathbf{v}_t 扩展到

\begin{aligned} \mathbf{v}_t = \beta^2 \mathbf{v}_{t-2} + \beta \mathbf{g}_{t-1, t-2} + \mathbf{g}_{t, t-1} = \ldots, = \sum_{\tau = 0}^{t-1} \beta^{\tau} \mathbf{g}_{t-\tau, t-\tau-1}. \end{aligned}

其中,较大的 \beta 相当于长期平均值,而较小的 \beta 相对于梯度法只是略有修正。 新的梯度替换不再指向特定实例下降最陡的方向,而是指向过去梯度的加权平均值的方向。 这使我们能够实现对单批量计算平均值的大部分好处,而不产生实际计算其梯度的代价。

上述推理构成了"加速"梯度方法的基础,例如具有动量的梯度。 在优化问题条件不佳的情况下(例如,有些方向的进展比其他方向慢得多,类似狭窄的峡谷),"加速"梯度还额外享受更有效的好处。 此外,它们允许我们对随后的梯度计算平均值,以获得更稳定的下降方向。 诚然,即使是对于无噪声凸问题,加速度这方面也是动量如此起效的关键原因之一。

正如人们所期望的,由于其功效,动量是深度学习及其后优化中一个深入研究的主题。 例如,请参阅文章,观看深入分析和互动动画。 动量是由(Polyak, 1964)提出的。 (Nesterov, 2018)在凸优化的背景下进行了详细的理论讨论。 长期以来,深度学习的动量一直被认为是有益的。 有关实例的详细信息,请参阅 (Sutskeveret al., 2013)的讨论。

条件不佳的问题

为了更好地了解动量法的几何属性,我们复习一下梯度下降,尽管它的目标函数明显不那么令人愉快。 回想我们在 11.3节 中使用了 f(\mathbf{x}) = x_1^2 + 2 x_2^2 ,即中度扭曲的椭球目标。 我们通过向 x_1 方向伸展它来进一步扭曲这个函数

f(\mathbf{x}) = 0.1 x_1^2 + 2 x_2^2.

与之前一样, f 在 (0, 0) 有最小值, 该函数在 x_1 的方向上非常平坦。 让我们看看在这个新函数上执行梯度下降时会发生什么。

%matplotlib inline
import torch
from d2l import torch as d2l

eta = 0.4
def f_2d(x1, x2):
    return 0.1 * x1 ** 2 + 2 * x2 ** 2
def gd_2d(x1, x2, s1, s2):
    return (x1 - eta * 0.2 * x1, x2 - eta * 4 * x2, 0, 0)

d2l.show_trace_2d(f_2d, d2l.train_2d(gd_2d))

输出结果:
epoch 20, x1: -0.943467, x2: -0.000073

从构造来看, x_2 方向的梯度比水平 x_1 方向的梯度大得多,变化也快得多。 因此,我们陷入两难:如果选择较小的学习率,我们会确保解不会在 x_2 方向发散,但要承受在 x_1 方向的缓慢收敛。相反,如果学习率较高,我们在 x_1 方向上进展很快,但在 x_2 方向将会发散。 下面的例子说明了即使学习率从0.4略微提高到0.6,也会发生变化。 x_1 方向上的收敛有所改善,但整体来看解的质量更差了。

eta = 0.6
d2l.show_trace_2d(f_2d, d2l.train_2d(gd_2d))

输出结果:
epoch 20, x1: -0.387814, x2: -1673.365109

动量法

动量法(momentum)使我们能够解决上面描述的梯度下降问题。 观察上面的优化轨迹,我们可能会直觉到计算过去的平均梯度效果会很好。 毕竟,在 x_1 方向上,这将聚合非常对齐的梯度,从而增加我们在每一步中覆盖的距离。 相反,在梯度振荡的 x_2 方向,由于相互抵消了对方的振荡,聚合梯度将减小步长大小。 使用 \mathbf{v}_t 而不是梯度 \mathbf{g}_t 可以生成以下更新等式:

\begin{aligned} \mathbf{v}_t &\leftarrow \beta \mathbf{v}_{t-1} + \mathbf{g}_{t, t-1}, \\ \mathbf{x}_t &\leftarrow \mathbf{x}_{t-1} - \eta_t \mathbf{v}_t. \end{aligned}

请注意,对于 \beta = 0 ,我们恢复常规的梯度下降。 在深入研究它的数学属性之前,让我们快速看一下算法在实验中的表现如何。

def momentum_2d(x1, x2, v1, v2):
    v1 = beta * v1 + 0.2 * x1
    v2 = beta * v2 + 4 * x2
    return x1 - eta * v1, x2 - eta * v2, v1, v2

eta, beta = 0.6, 0.5
d2l.show_trace_2d(f_2d, d2l.train_2d(momentum_2d))

输出结果:
epoch 20, x1: 0.007188, x2: 0.002553

正如所见,尽管学习率与我们以前使用的相同,动量法仍然很好地收敛了。 让我们看看当降低动量参数时会发生什么。 将其减半至 \beta = 0.25 会导致一条几乎没有收敛的轨迹。 尽管如此,它比没有动量时解将会发散要好得多。

eta, beta = 0.6, 0.25
d2l.show_trace_2d(f_2d, d2l.train_2d(momentum_2d))

输出结果:
epoch 20, x1: -0.126340, x2: -0.186632

请注意,我们可以将动量法与随机梯度下降,特别是小批量随机梯度下降结合起来。 唯一的变化是,在这种情况下,我们将梯度 \mathbf{g}_{t, t-1} 替换为 \mathbf{v}_t 。 为了方便起见,我们在时间 t=0 初始化 \mathbf{v}_0 = 0 。

有效样本权重

回想一下 \mathbf{v}_t = \sum_{\tau = 0}^{t-1} \beta^{\tau} \mathbf{g}_{t-\tau, t-\tau-1} 。 极限条件下, \sum_{\tau=0}^\infty \beta^\tau = \frac{1}{1-\beta} 。 换句话说,不同于在梯度下降或者随机梯度下降中取步长 \eta ,我们选取步长 \frac{\eta}{1-\beta} ,同时处理潜在表现可能会更好的下降方向。 这是集两种好处于一身的做法。 为了说明 \beta 的不同选择的权重效果如何,请参考下面的图表。

# 不同 beta 值的指数衰减曲线
d2l.set_figsize()
betas = [0.95, 0.9, 0.6, 0]
for beta in betas:
    x = torch.arange(40).detach().numpy()
    d2l.plt.plot(x, beta ** x, label=f'beta = {beta:.2f}')
d2l.plt.xlabel('time')
d2l.plt.legend()

实际实验

让我们来看看动量法在实验中是如何运作的。 为此,我们需要一个更加可扩展的实现。

从零开始实现

相比于小批量随机梯度下降,动量方法需要维护一组辅助变量,即速度。 它与梯度以及优化问题的变量具有相同的形状。 在下面的实现中,我们称这些变量为states

def init_momentum_states(feature_dim):
    v_w = torch.zeros((feature_dim, 1))
    v_b = torch.zeros(1)
    return (v_w, v_b)
def sgd_momentum(params, states, hyperparams):
    for p, v in zip(params, states):
        with torch.no_grad():
            v[:] = hyperparams['momentum'] * v + p.grad
            p[:] -= hyperparams['lr'] * v
        p.grad.data.zero_()

让我们看看它在实验中是如何运作的。

def train_momentum(lr, momentum, num_epochs=2):
    d2l.train_ch11(sgd_momentum, init_momentum_states(feature_dim),
                   {'lr': lr, 'momentum': momentum}, data_iter,
                   feature_dim, num_epochs)

data_iter, feature_dim = d2l.get_data_ch11(batch_size=10)
train_momentum(0.02, 0.5)

输出结果:
loss: 0.244, 0.009 sec/epoch

当我们将动量超参数momentum增加到0.9时,它相当于有效样本数量增加到 \frac{1}{1 - 0.9} = 10 。 我们将学习率略微降至0.01,以确保可控。

train_momentum(0.01, 0.9)

输出结果:
loss: 0.248, 0.009 sec/epoch

降低学习率进一步解决了任何非平滑优化问题的困难,将其设置为0.005会产生良好的收敛性能。

train_momentum(0.005, 0.9)

输出结果:
loss: 0.245, 0.009 sec/epoch

简洁实现

由于深度学习框架中的优化求解器早已构建了动量法,设置匹配参数会产生非常类似的轨迹。

trainer = torch.optim.SGD
d2l.train_concise_ch11(trainer, {'lr': 0.005, 'momentum': 0.9}, data_iter)

输出结果:
loss: 0.246, 0.010 sec/epoch

理论分析

f(x) = 0.1 x_1^2 + 2 x_2^2 的2D示例似乎相当牵强。 下面我们将看到,它在实际生活中非常具有代表性,至少最小化凸二次目标函数的情况下是如此。

二次凸函数

考虑这个函数

h(\mathbf{x}) = \frac{1}{2} \mathbf{x}^\top \mathbf{Q} \mathbf{x} + \mathbf{x}^\top \mathbf{c} + b.

这是一个普通的二次函数。 对于正定矩阵 \mathbf{Q} \succ 0 ,即对于具有正特征值的矩阵,有最小化器为 \mathbf{x}^* = -\mathbf{Q}^{-1} \mathbf{c} ,最小值为 b - \frac{1}{2} \mathbf{c}^\top \mathbf{Q}^{-1} \mathbf{c} 。 因此我们可以将 h 重写为

h(\mathbf{x}) = \frac{1}{2} (\mathbf{x} - \mathbf{Q}^{-1} \mathbf{c})^\top \mathbf{Q} (\mathbf{x} - \mathbf{Q}^{-1} \mathbf{c}) + b - \frac{1}{2} \mathbf{c}^\top \mathbf{Q}^{-1} \mathbf{c}.

梯度由 \partial_{\mathbf{x}} f(\mathbf{x}) = \mathbf{Q} (\mathbf{x} - \mathbf{Q}^{-1} \mathbf{c}) 给出。 也就是说,它是由 \mathbf{x} 和最小化器之间的距离乘以 \mathbf{Q} 所得出的。 因此,动量法还是 \mathbf{Q} (\mathbf{x}_t - \mathbf{Q}^{-1} \mathbf{c}) 的线性组合。

由于 \mathbf{Q} 是正定的,因此可以通过 \mathbf{Q} = \mathbf{O}^\top \boldsymbol{\Lambda} \mathbf{O} 分解为正交(旋转)矩阵 \mathbf{O} 和正特征值的对角矩阵 \boldsymbol{\Lambda} 。 这使我们能够将变量从 \mathbf{x} 更改为\mathbf{z} := \mathbf{O} (\mathbf{x} - \mathbf{Q}^{-1} \mathbf{c}) ,以获得一个非常简化的表达式:

h(\mathbf{z}) = \frac{1}{2} \mathbf{z}^\top \boldsymbol{\Lambda} \mathbf{z} + b'.

这里 b' = b - \frac{1}{2} \mathbf{c}^\top \mathbf{Q}^{-1} \mathbf{c} 。 由于 \mathbf{O} 只是一个正交矩阵,因此不会真正意义上扰动梯度。 以 \mathbf{z} 表示的梯度下降变成

\mathbf{z}_t = \mathbf{z}_{t-1} - \boldsymbol{\Lambda} \mathbf{z}_{t-1} = (\mathbf{I} - \boldsymbol{\Lambda}) \mathbf{z}_{t-1}.

这个表达式中的重要事实是梯度下降在不同的特征空间之间不会混合。 也就是说,如果用 \mathbf{Q} 的特征系统来表示,优化问题是以逐坐标顺序的方式进行的。 这在动量法中也适用。

\begin{aligned} \mathbf{v}_t & = \beta \mathbf{v}_{t-1} + \boldsymbol{\Lambda} \mathbf{z}_{t-1} \\ \mathbf{z}_t & = \mathbf{z}_{t-1} - \eta \left(\beta \mathbf{v}_{t-1} + \boldsymbol{\Lambda} \mathbf{z}_{t-1}\right) \\ & = (\mathbf{I} - \eta \boldsymbol{\Lambda}) \mathbf{z}_{t-1} - \eta \beta \mathbf{v}_{t-1}. \end{aligned}

在这样做的过程中,我们只是证明了以下定理:带有和带有不凸二次函数动量的梯度下降,可以分解为朝二次矩阵特征向量方向坐标顺序的优化。

标量函数

鉴于上述结果,让我们看看当我们最小化函数 f(x) = \frac{\lambda}{2} x^2 时会发生什么。 对于梯度下降我们有

x_{t+1} = x_t - \eta \lambda x_t = (1 - \eta \lambda) x_t.

每 |1 - \eta \lambda| < 1 时,这种优化以指数速度收敛,因为在 t 步之后我们可以得到 x_t = (1 - \eta \lambda)^t x_0 。 这显示了在我们将学习率 \eta 提高到 \eta \lambda = 1 之前,收敛率最初是如何提高的。 超过该数值之后,梯度开始发散,对于 \eta \lambda > 2 而言,优化问题将会发散。

lambdas = [0.1, 1, 10, 19]
eta = 0.1
d2l.set_figsize((6, 4))
for lam in lambdas:
    t = torch.arange(20).detach().numpy()
    d2l.plt.plot(t, (1 - eta * lam) ** t, label=f'lambda = {lam:.2f}')
d2l.plt.xlabel('time')
d2l.plt.legend()

为了分析动量的收敛情况,我们首先用两个标量重写更新方程:一个用于 x ,另一个用于动量 v 。这产生了:

\begin{bmatrix} v_{t+1} \\ x_{t+1} \end{bmatrix} = \begin{bmatrix} \beta & \lambda \\ -\eta \beta & (1 - \eta \lambda) \end{bmatrix} \begin{bmatrix} v_{t} \\ x_{t} \end{bmatrix} = \mathbf{R}(\beta, \eta, \lambda) \begin{bmatrix} v_{t} \\ x_{t} \end{bmatrix}.

我们用 \mathbf{R} 来表示 2 \times 2 管理的收敛表现。 在 t 步之后,最初的值 [v_0, x_0] 变为 \mathbf{R}(\beta, \eta, \lambda)^t [v_0, x_0] 。 因此,收敛速度是由 R 的特征值决定的。 请参阅文章 (Goh, 2017)了解精彩动画。 请参阅 (Flammarion and Bach, 2015)了解详细分析。 简而言之,当 0 < \eta \lambda < 2 + 2 \beta 时动量收敛。 与梯度下降的 0 < \eta \lambda < 2 相比,这是更大范围的可行参数。 另外,一般而言较大值的 \beta 是可取的。

小结

  • 动量法用过去梯度的平均值来替换梯度,这大大加快了收敛速度。
  • 对于无噪声梯度下降和嘈杂随机梯度下降,动量法都是可取的。
  • 动量法可以防止在随机梯度下降的优化过程停滞的问题。
  • 由于对过去的数据进行了指数降权,有效梯度数为 \frac{1}{1-\beta} 。
  • 在凸二次问题中,可以对动量法进行明确而详细的分析。
  • 动量法的实现非常简单,但它需要我们存储额外的状态向量(动量 \mathbf{v} )。

练习

  1. 使用动量超参数和学习率的其他组合,观察和分析不同的实验结果。
    解:
    组合不同动量超参数和学习率后发现,高学习率和低动量参数、低学习率和高动量参数的组合,收敛速度快且loss低,分析原因如下:
  • 高学习率可以加快收敛,而低动量参数减少了由于噪声或震荡带来的不利影响。
  • 高动量参数可以平滑震荡,而低学习率可以防止由于步长过大导致的不利影响。

代码如下:

train_momentum(0.002, 0.9)

输出结果:
loss: 0.243, 0.009 sec/epoch

train_momentum(0.02, 0.2)

输出结果:
loss: 0.243, 0.009 sec/epoch

2. 试试梯度下降和动量法来解决一个二次问题,其中有多个特征值,即 f(x) = \frac{1}{2} \sum_i \lambda_i x_i^2 ,例如 \lambda_i = 2^{-i} 。绘制出 x 的值在初始化 x_i = 1 时如何下降。
解:
代码如下:

# 定义目标函数
def f(x, lambdas):
    return 0.5 * torch.sum(lambdas * x**2)

# 动量法的更新规则
def momentum(x, v, lambdas, eta, beta):
    with torch.no_grad():
        v = beta * v + lambdas * x
        x -= x - eta * v
    return x, v

# 初始化参数
feature_dim = 5
x = torch.ones(feature_dim)  # 初始化x
v = torch.zeros(feature_dim)  # 初始化动量v
lambdas = torch.tensor([2**(-i) for i in range(feature_dim)])  # 特征值
eta, beta, num_epochs = 0.1, 0.9, 10  # 学习率

# 动量法
x_values = [x.clone().detach().numpy()]
for _ in range(num_epochs):
    x, v = momentum(x, v, lambdas, eta, beta)
    x_values.append(x.clone().detach().numpy())

# 绘制结果
d2l.set_figsize()
for i in range(len(x_values[-1])):
    d2l.plt.plot([x_values[j][i] for j in range(num_epochs + 1)], 
                 label=f'x{i+1}={x_values[-1][i]:.3f}')
d2l.plt.xlabel('epochs')
d2l.plt.ylabel('x_values')
d2l.plt.legend()

3. 推导 h(\mathbf{x}) = \frac{1}{2} \mathbf{x}^\top \mathbf{Q} \mathbf{x} + \mathbf{x}^\top \mathbf{c} + b 的最小值和最小化器。
解:
h(\mathbf{x}) 关于 \mathbf{x} 的梯度为:
\nabla h(\mathbf{x}) = \mathbf{Q} \mathbf{x} + \mathbf{c}
最小值为梯度为0的点,即令上式为0,可解得最小化器为:
\mathbf{x} = -\mathbf{Q}^{-1} \mathbf{c}
将最小化器代入 h(\mathbf{x}) 可得最小值: 
h(-\mathbf{Q}^{-1} \mathbf{c}) = \frac{1}{2} (-\mathbf{Q}^{-1} \mathbf{c})^\top \mathbf{Q} (-\mathbf{Q}^{-1} \mathbf{c}) + (-\mathbf{Q}^{-1} \mathbf{c})^\top \mathbf{c} + b \\ = \frac{1}{2} \mathbf{c}^\top (\mathbf{Q}^{-1})^\top \mathbf{c} - \mathbf{c}^\top \mathbf{Q}^{-1} \mathbf{c} + b 
由于 (\mathbf{Q}^{-1})^\top = (\mathbf{Q}^\top)^{-1} ,且 \mathbf{Q} 是对称的,故 \mathbf{Q}^\top = \mathbf{Q} ,则上式可以简化为: h(-\mathbf{Q}^{-1} \mathbf{c}) = b - \frac{1}{2} \mathbf{c}^\top \mathbf{Q}^{-1} \mathbf{c}

4. 当我们执行带动量法的随机梯度下降时会有什么变化?当我们使用带动量法的小批量随机梯度下降时会发生什么?试验参数如何?
解:
相同lr下,对于sgd,带动量法后由于增加了计算量,计算用时略增加了一些,loss上相差无几。
相同lr下,对于小批量sgd,带动量法后计算用时和loss都差别不大。
代码如下:

def sgd(params, states, hyperparams):
    for p in params:
        p.data.sub_(hyperparams['lr'] * p.grad)
        p.grad.data.zero_()

def train_sgd(lr, batch_size, num_epochs=2):
    data_iter, feature_dim = d2l.get_data_ch11(batch_size)
    return d2l.train_ch11(
        sgd, None, {'lr': lr}, data_iter, feature_dim, num_epochs)
# sgd
sgd = train_sgd(0.005, 1)

输出结果:
loss: 0.244, 0.055 sec/epoch

# minibatchsgd
minisgd = train_sgd(0.4, 100)

输出结果:
loss: 0.246, 0.002 sec/epoch

def train_momentum(lr, momentum, batch_size, num_epochs=2):
    data_iter, feature_dim = d2l.get_data_ch11(batch_size)
    return d2l.train_ch11(
        sgd_momentum, init_momentum_states(feature_dim), {'lr': lr, 'momentum': momentum}, data_iter, feature_dim, num_epochs)
# sgd with momentum
sgd_mom = train_momentum(0.005, 0.4, 1)

输出结果:
loss: 0.243, 0.068 sec/epoch

# minibatchsgd with momentum
minisgd_mom = train_momentum(0.4, 0.4, 100)

输出结果:
loss: 0.247, 0.002 sec/epoch

d2l.set_figsize([6, 3])
d2l.plot(*list(map(list, zip(sgd, minisgd, sgd_mom, minisgd_mom))),
         'time (sec)', 'loss', xlim=[1e-2, 1],
         legend=['sgd', 'minisgd', 'sgd with momentum', 'minisgd with momentum'])
d2l.plt.gca().set_xscale('log')


http://www.kler.cn/a/513351.html

相关文章:

  • 如何使用CRM数据分析优化销售和客户关系?
  • linux下一些参数的说明
  • 1.2.神经网络基础
  • pthread_exit函数
  • Vscode:问题解决办法 及 Tips 总结
  • 【Leetcode 每日一题 - 扩展】421. 数组中两个数的最大异或值
  • golang网络编程
  • 【leetcode100】验证二叉搜索树
  • 【力扣:新动计划,编程入门 —— 题解 ①】
  • 重学SpringBoot3-WebClient配置与使用详解
  • Spring Boot 中的 InitializingBean:Bean 初始化背后的故事
  • 2025年前端面试题汇总
  • 深度解析:CentOS 系统的硬件资源优化技巧
  • IoTDB Pipe 数据同步提示内存不足,如何调整
  • 亚博microros小车-原生ubuntu支持系列:2-摄像头控制
  • 小型分布式发电项目优化设计方案
  • SD换脸插件Reactor的安装教程
  • Kotlin 2.1.0 入门教程(三)
  • 使用插件SlideVerify实现滑块验证
  • 每日一题洛谷P2669 [NOIP2015 普及组] 金币c++
  • 使用 Babylon.js 开发时如何通过 CSS 实现 UI 自适应
  • 算法竞赛之差分进阶——等差数列差分 python
  • 【Pytest】基础到高级功能的理解使用
  • AI时代:安全的新挑战与新机遇
  • colmap ninja 时遇到undefined reference to `TIFFFieldTag@LIBTIFF_4.0‘错误
  • vite共享选项之---css.preprocessorOptions