当前位置：首页 > article >正文

【pytorch源码剖析系列】优化器

article 2025/3/15 15:59:17

写在前言： pyotrch优化器从源码的角度带你理解优化器的由来，实现，作用。

pytorch的优化器：管理并更新模型中可学习参数的值，使得模型输出更接近真是标签。

导数：函数在指定坐标轴上的变化率

方向导数：指定方向上的变化率

梯度：一个向量，方向为方向导数取得最大的方向

梯度下降法（Gradient Descent）

$\text{[math]}$

其中模型参数为θ，损失函数为J(θ)，损失函数J(θ)关于参数θ的偏导数 $\text{[math]}$ ,学习率为α。

梯度下降法目前主要是三种方法：区别在于每次参数更新时计算的样本数量不同，批量梯度下降法（BGD,Batch Gradient Descent）,随机梯度下降法（SGD, Stochastic Gradient Descent）及小批量梯度下降法（Mini-batch Gradient Descent）

批量梯度下降法BGD

假设训练样本总数为n，样本为 $\text{[math]}$ ,模型参数为θ，损失函数为J(θ)，在第i对样本 $\text{[math]}$ 上损失函数关于参数的梯度 $\text{[math]}$ ,学习率为α，则使用BGD更新参数为：