方差缩减梯度算法
方差缩减梯度算法
方差缩减梯度算法(Variance-Reduced Gradient Methods)
方差缩减梯度算法是机器学习中优化随机梯度下降(SGD)的一类重要技术,旨在减少梯度估计的方差,从而加速收敛并提高稳定性。其核心思想是通过引入校正项或周期性全梯度计算,平衡随机梯度的方差与计算效率。
核心原理
传统SGD每次迭代仅使用一个样本的梯度,导致方差较大,可能使优化过程震荡甚至发散。方差缩减算法通过以下方式改进:
- 周期性全梯度计算:定期计算全梯度(如每K个迭代),作为基准梯度。
- 梯度校正:在随机梯度中加入校正项(如历史梯度与当前梯度的差异),降低方差。
- 梯度累加:维护每个样本的梯度历史,减少重复计算。
典型算法
-
SVRG(Stochastic