当前位置: 首页 > article >正文

吴恩达《机器学习》2-5->2-7:梯度下降算法与理解

一、梯度下降算法

梯度下降算法的目标是通过反复迭代来更新模型参数,以便最小化代价函数。代价函数通常用于衡量模型的性能,我们希望找到使代价函数最小的参数值。这个过程通常分为以下几个步骤:

  1. 初始化参数: 随机或设定初始参数的数值,如 𝜃0, 𝜃1, ..., 𝜃𝑛。

  2. 计算代价函数的梯度: 对于每个参数 𝜃𝑗,计算代价函数 J(𝜃0, 𝜃1, ..., 𝜃𝑛) 对该参数的偏导数,即梯度,表示为 ∂J/∂𝜃𝑗。

  3. 更新参数: 使用梯度信息来更新参数,根据以下规则更新每个参数 𝜃𝑗

    𝜃𝑗 := 𝜃𝑗 - 𝛼 * ∂J/∂𝜃𝑗
    其中,𝛼是学习率(learning rate),它决定了每次参数更新的步长。
  4. 重复迭代: 重复步骤2和步骤3,直到满足停止条件,如达到最大迭代次数或梯度足够小。

二、批量梯度下降

批量梯度下降(Batch Gradient Descent)是一种梯度下降的变体,其中在每一次参数更新时,使用整个训练数据集的信息。更新规则如下:

Repeat {
    𝜃𝑗 := 𝜃𝑗 - 𝛼 * (1/𝑚) * ∑ (ℎ𝜃(𝑥(𝑖)) - 𝑦(𝑖)) * 𝑥(𝑖) for 𝑖 = 1 to 𝑚
}
这表示在每一次迭代中,我们计算所有训练样本的梯度,然后对所有参数进行同时更新。

三、学习率的选择

学习率 𝛼 是一个重要的超参数,它控制了参数更新的速度。如果 𝛼 太小,模型会收敛得很慢,需要更多的迭代次数才能达到最小值。如果 𝛼 太大,可能会导致无法收敛,甚至发散。

在梯度下降法中,当我们接近局部最低点时,梯度下降法会自动采取更小的幅度,这是因为当我们接近局部最低点时,很显然在局部最低时导数等于零,所以当我们接近局部最低时,导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,这就是梯度下降的做法。所以实际上没有必要再另外减小𝑎。

四、局部最小值

梯度下降通常会找到一个局部最小值,因为它不会尝试所有可能的参数组合。选择不同的初始参数组合可能导致不同的局部最小值。全局最小值通常很难找到,特别是对于复杂的代价函数。

参考资料

[中英字幕]吴恩达机器学习系列课程

黄海广博士 - 吴恩达机器学习个人笔记


http://www.kler.cn/a/108478.html

相关文章:

  • 如何进行产线高阶能耗数据的计算和可视化?
  • python解析网页上的json数据落地到EXCEL
  • 为什么hbase在大数据领域渐渐消失
  • 三、损失函数
  • 【数据结构与算法】第12课—数据结构之归并排序
  • C++面试基础知识:排序算法 C++实现
  • 基于鸟群算法的无人机航迹规划-附代码
  • etcd问题
  • 前端重新部署如何通知用户更新
  • 【微信小程序开发】学习小程序的网络请求和数据处理
  • vue项目package.json与package-lock.json作用及区别
  • vscode连接服务器一直retry
  • spring boot项目优雅停机
  • 网络协议--TCP的交互数据流
  • 剑指JUC原理-5.synchronized底层原理
  • Less的基本语法
  • 【Mysql】数据库三大范式
  • JAVA 链式编程和建造者模式的使用(lombok的使用)
  • 【教3妹学编程-java实战4】Map遍历删除元素的几种方法
  • etcd的mvcc源码剖析
  • 最新发布!阿里云卓越架构框架重磅升级
  • 漏洞复现--企望制造ERP系统 RCE
  • Webpack 基础以及常用插件使用方法
  • 新增选股结果树形列表,快速加载大牛股来分析——股票量化分析工具QTYX-V2.7.2...
  • mysql 增删改查基础命令
  • SpringMVC Day02 : 请求方式