当前位置：首页 > article >正文

为什么机器学习中梯度下降是减去斜率，而不是按照其数学意义减去斜率的倒数

article 2025/1/30 19:45:49

做个简单假设，Loss函数的某一个参数的函数曲线是二次方程，其导数函数为 $r = 2 * w$

在这里插入图片描述
降低LOSS需要将w1更新为w2，所以更新公式为 $\frac{\Delta L}{\Delta w}$ ， $\Delta L$ 可以看成学习率。比如取0.01，斜率为 $2 * w$ 模拟如下

结果：
在这里插入图片描述

可以看到在第三次下降的时候，损失函数反而增大，并且w越过本该取的使LOSS最小的0值，沦为负值。

引起如此原因就是随着LOSS接近最小值，其对应的斜率变小，其倒数就变得越大，也就是说，越靠近最小值，调整幅度越大，关键时刻变得冒进起来。

当我们将更新公式替换成 $\Delta L * (2 * w)$

def w_refesh_1(w):
    return w - (0.1 * (2 * w)) #唯一区别

结果：
在这里插入图片描述

可以看到损失函数越来越小，w也未过界。

也就是说，斜率越大，就越远离最小值，此时就可以稍微大胆点进行调整，越靠近最小值，斜率越小，调整幅度随之变小，关键时刻变得谨慎起来。

Java教程练习：学生信息管理系统

【AutoSar】汽车诊断标准协议UDS详解

常见的同态加密算法收集

1.27补题回训练营

ODP(OBProxy)路由初探

【starrocks学习】之catalog

Airflow：掌握Airflow调度器基本原理

LangChain的开发流程

HTB：Active[RE-WriteUP]

Go语言中的Select

03链表+栈+队列（D2_栈）

Windows 11 应用开发实战指南

指针的介绍3后

Kafka 日志存储 — 磁盘存储