当前位置: 首页 > article >正文

深度学习:梯度下降法

损失函数 L:衡量单一训练样例的效果。

成本函数 J:用于衡量 w 和 b 的效果。

如何使用梯度下降法来训练或学习训练集上的参数w和b ?

 成本函数J是参数w和b的函数,它被定义为平均值;

损失函数L可以衡量你的算法效果,每一个训练样例都输出y\widehat{}^{(i)},把它跟真实标签y^{(i)}进行比较。

梯度下降法:从初始点开始,朝最陡的下坡方向走一步,在梯度下降一步后,或许在那里停下,或者尽可能快的向下走,这是梯度下降的一次迭代。然后继续,希望收敛到全局最优解。

Gradient Descent 梯度下降法,重复执行以下的更新操作:

  • 更新w的值(使用 := 表示更新w)。
  • Learning Rate 学习率 \alpha 可以控制每一次迭代,或者梯度下降法中的步长。
  • 这里的导数 dJ(w)/dw 就是对参数w的更新或变化量。
  • 我们写代码来实现梯度下降时,会使用变量名dw表示导数,即上图中的式子写为:
  • w := w - \alphadw
  • 新的w的值 等于 w自身 减去 学习率和导数的乘积

导数是函数在对应点的斜率,函数的斜率是高除以宽。如果J函数最开始在右边的点,那么它的斜率是正数,更新的w的值w := w - \alphadw会变小,即上图中的点会往左移;反之,如果一开始点在左上方,即斜率为负数,那么更新的w的值会变大,也就是会逐渐往右移。不论起始点在左边还是右边,最终都会到中间底部那个点。

在深度学习里,有循环会降低算法的运行效率。实现梯度下降的迭代,不使用任何循环,而是向量化(Vectorization)。使用内置函数,避免使用显式for循环,可以让程序运行速度快很多。

import numpy as np

import time

a = np.random.rand(1000000)
b = np.random.rand(1000000)

tic = time.time()
c = np.dot(a,b)
toc = time.time()

print(c)
print("Vectorization version: " + str(1000*(toc-tic)) + "ms")

c = 0
tic = time.time()
for i in range(1000000):
    c += a[i]*b[i]
toc = time.time()

print(c)
print("For loop:" + str(1000*(toc-tic)) + "ms")

运行结果:

 由上述代码运行结果可知,使用内置函数比显式使用for循环快了200倍,所以我们尽量不要使用显示for循环。


http://www.kler.cn/a/417245.html

相关文章:

  • 11.PPT:世界动物日【25】
  • Maven架构项目管理工具
  • 【Linux】25.进程信号(1)
  • 攻防世界 文件上传
  • 力扣刷题思路
  • HTML之CSS三大选择器
  • CTF-PWN glibc源码阅读[1]: 寻找libc中堆结构的定义(2.31-0ubuntu9.16)
  • Spacy小笔记:zh_core_web_trf、zh_core_web_lg、zh_core_web_md 和 zh_core_web_sm区别
  • 在鸿蒙应用中 Debug 对开发者的帮助
  • Spring AOP相关知识详解
  • 3d扫描建模产品开发-三维扫描检测蓝光检测
  • 基于大数据python 社团管理系统(源码+LW+部署讲解+数据库+ppt)
  • 【北京迅为】iTOP-4412全能版使用手册-第二十四章 进程创建与回收
  • mind+自定义库编写注意事项
  • Gradle vs. Maven: 到底哪个更适合java 项目?
  • LeetCode 力扣 热题 100道(十一)字母异位词分组(C++)
  • 力扣_876. 链表的中间结点
  • UE5 打包报错 Unknown structure 的解决方法
  • 入门产品经理,考PMP还是NPDP?
  • 在windows上安装sqlite
  • ENSP IPV6-over-IPV4
  • windows11 使用体验记录
  • webpack(react)基本构建
  • 实习冲刺第三十六天
  • 【React】React 组件通信:多种方式与最佳实践
  • shodan2-批量查找CVE-2019-0708漏洞