第一部分 Supervised Machine Learning: Regression and Classification
第一部分 Supervised Machine Learning: Regression and Classification
文章目录
- 第一部分 Supervised Machine Learning: Regression and Classification
- 线性回归模型
- 代价函数公式
- 理解代价函数
- 可视化代价函数
- 可视化举例
- 梯度下降
- 梯度下降的实现
- 理解梯度下降
- 学习率α
- 用于线性回归的梯度下降
- 运行梯度下降
- 多维特征
- 矢量化(向量化)
- 用于多元线性回归的梯度下降算法
- 正规方程(Normal equation)
- 特征缩放(Feature Scaling)
- 判断梯度下降是否收敛
- 如何设置学习率α
- 特征工程(Feature Engineering)
- 多项式回归(Polynomial Regression)
- 动机与目的
- 逻辑回归(Logistic Regression)
- 决策边界(Decision Boundary)
- 逻辑回归中的代价函数(Cost Function for Logistic Regression)
- 简化逻辑回归代价函数
- 在逻辑回归中实现梯度下降
- 过拟合问题(The Problem of Overfitting)
- 解决过拟合(Addressing Overfitting)
- 正则化的代价函数(Cost Function with Regularization)
- 用于线性回归的正则方法(Regularized Linear Regression)
- 用于逻辑回归的正则方法(Regularized Logistic Regression)
- 下个课程预告
线性回归模型
线性回归模型(Linear Regression Model):将一条直线拟合到数据中。
线性回归模型的例子:根据房子的面积预测房价。
回归与分类的区别:在分类中只有少数可能的输出,有一个离散的可能的输出的有限集合。在回归中有无限多连续可能的数字输出。
除了将数据以坐标轴的方式展示,还有另一种查看有用数据的方法:二维表形式。
描述数据的符号(这些都是机器学习的术语,是人工智能的标准):
- 表示输入的标准符号是小写的x,称为输入变量,也称为特征或输入特征。
- 表示试图预测的输出变量的标准符号,有时也称为目标变量,是小写的y。
- 使用小写的m指代训练样本的总数。
- 为了表示单个训练示例,使用符号括号(x,y)。要参考特定的训练示例,这将对应于左侧表中的特定行。在括号中使用(x(i),y(i))。上标告诉我们这是第 i 个训练样例。【注意,上标 i 不是求幂,只是指第 i 个训练示例。i 只是训练集的一个索引,指的是左表中的第 i 行】
- (x(i),y(i)) = ith training example
这个特定的模型叫线性回归,更具体的说,这是一个变量的线性回归。具有一个输入变量的线性模型的另一个名称是单变量线性回归。
代价函数公式
代价函数(Cost Function)的思想是在机器学习中最普遍和最重要的思想之一,用于线性回归和训练世界上许多最先进的人工智能模型。
线性回归模型: f w , b ( x ) = w x + b f_{w,b}(x)=wx+b fw,b(x)=wx+b,可以简写为 f ( x ) = w x + b f(x)=wx+b f(x)=wx+b。其中w,b称为模型的参数(parameters)。在机器学习中,模型的参数是可以调整的变量训练以改进模型。w,b也被称为系数(coefficients)或权重(weights)。
那么如何确定w,b呢?要回答这个问题,首先来看如何衡量一条线与训练数据的拟合程度。为此,构建一个代价函数:
J
(
w
,
b
)
=
1
2
m
∑
i
=
1
m
(
y
^
(
i
)
−
y
(
i
)
)
2
J(w,b)=\frac{1}{2m}\sum_{i=1}^m {(\hat{y}^{(i)}-{y}^{(i)})}^2
J(w,b)=2m1i=1∑m(y^(i)−y(i))2
y
^
(
i
)
−
y
(
i
)
\hat{y}^{(i)}-{y}^{(i)}
y^(i)−y(i)称为误差(error),其中m = number of training examples。
注:额外除以2只是为了使后面的计算看起来更简洁。原因在【用于线性回归的梯度下降】部分有提到:求导后刚好可以把2抵消掉。
代价函数J也称为平分误差代价函数。
在机器学习中,不同的人会使用不同的代价函数,对于不同的应用程序,但平分误差代价函数是迄今为止最常用于线性回归,就此而言,对于所有回归问题,都能提供良好的结果。
又 f w , b ( x ) = w x + b f_{w,b}(x)=wx+b fw,b(x)=wx+b,进而 f w , b ( x ( i ) ) = w x ( i ) + b f_{w,b}({x}^{(i)})=w{x}^{(i)}+b fw,b(x(i))=wx(i)+b,又有 y ^ ( i ) = f w , b ( x ( i ) ) \hat{y}^{(i)}=f_{w,b}({x}^{(i)}) y^(i)=fw,b(x(i)),故上述平分误差代价函数又可写为: J ( w , b ) = 1 2 m ∑ i = 1 m ( f w , b ( x ( i ) ) − y ( i ) ) 2 J(w,b)=\frac{1}{2m}\sum_{i=1}^m {(f_{w,b}({x}^{(i)})-{y}^{(i)})}^2 J(w,b)=2m1i=1∑m(fw,b(x(i))−y(i))2
我们的目的是找到使代价函数尽可能小的 w , b 的值。
注:
线性回归模型:
f
w
,
b
(
x
)
=
w
x
+
b
f_{w,b}(x)=wx+b
fw,b(x)=wx+b,其中
f
w
,
b
(
x
)
f_{w,b}(x)
fw,b(x)是
x
x
x的函数。
代价函数:
J
(
w
,
b
)
=
1
2
m
∑
i
=
1
m
(
y
^
(
i
)
−
y
(
i
)
)
2
J(w,b)=\frac{1}{2m}\sum_{i=1}^m {(\hat{y}^{(i)}-{y}^{(i)})}^2
J(w,b)=2m1i=1∑m(y^(i)−y(i))2其中
J
(
w
,
b
)
J(w,b)
J(w,b)是
w
,
b
w,b
w,b的函数。
理解代价函数
这里将讲解如何使用代价函数为模型找到最佳参数。
简化后的线性回归模型,忽略b,或者认为b=0。那么
f
w
(
x
)
=
w
x
f_{w}(x)=wx
fw(x)=wx是
x
x
x的函数,代价函数
J
(
w
)
J(w)
J(w)是
w
w
w的函数。现在根据
w
w
w的值画出
f
w
(
x
)
f_{w}(x)
fw(x)和
J
(
w
)
J(w)
J(w)的图,下面是
w
=
1
w=1
w=1时二者的图像:
下面是
w
=
0.5
w=0.5
w=0.5时二者的图像:
下面是
w
=
0
,
w
=
−
0.5
w=0,w=-0.5
w=0,w=−0.5时二者的图像:
可以随意取
w
w
w的值,可以是正数、负数、或0。都可以画出对应的代价函数图像。事实证明,通过计算一个范围的值,可以慢慢追查出代价函数
J
(
w
)
J(w)
J(w)(使其尽可能小的
w
w
w值),下面是代价函数
J
(
w
)
J(w)
J(w)的整个图像:
代价函数
J
(
w
)
J(w)
J(w)是衡量平方误差有多大的函数,所以应该选择最小化这些平方误差的
w
w
w,会给我们一个很好的模型。更一般的情况:找到使代价函数
J
(
w
,
b
)
J(w,b)
J(w,b)最小的
w
,
b
w,b
w,b的值。
线性回归的目标是找到参数 w , b w,b w,b使代价函数 J ( w , b ) J(w,b) J(w,b)最小。
可视化代价函数
刚才我们使用的是简化后的线性回归模型 f w ( x ) = w x f_{w}(x)=wx fw(x)=wx,忽略b,或者认为b=0。在这一部分我们将使用完整的线性回归模型 f w , b ( x ) = w x + b f_{w,b}(x)=wx+b fw,b(x)=wx+b。这时 f w , b ( x ) = w x + b f_{w,b}(x)=wx+b fw,b(x)=wx+b是 x x x的函数,代价函数 J ( w , b ) J(w,b) J(w,b)是 w , b w,b w,b的函数。
同样的方法,随意取
w
,
b
w,b
w,b的值,并根据
w
,
b
w,b
w,b的值画出
f
w
,
b
(
x
)
f_{w,b}(x)
fw,b(x)和
J
(
w
,
b
)
J(w,b)
J(w,b)的图,并找到使代价函数
J
(
w
,
b
)
J(w,b)
J(w,b)最小的
w
,
b
w,b
w,b的值:
下面以3D表面图的方式展示代价函数
J
(
w
,
b
)
J(w,b)
J(w,b):
还有另一种绘制代价函数
J
(
w
,
b
)
J(w,b)
J(w,b)的方法,具有完全相同的功能,即等高线图。
下图中右上角是完全相同的代价函数的等高线图,这些椭圆显示的是3D表面上处于完全相同高度的点,换句话说就是对于代价函数
J
(
w
,
b
)
J(w,b)
J(w,b)具有相同值得点集。显然,3D表面图的底部是代价函数
J
(
w
,
b
)
J(w,b)
J(w,b)最小的地方,在等高线图中对应这个最小椭圆的中心。
事实证明,等高线图是可视化3D代价函数 J ( w , b ) J(w,b) J(w,b)的便捷方式,但它只是以2D绘制的。
可视化举例
等高线图可以帮助我们找到使代价函数
J
(
w
,
b
)
J(w,b)
J(w,b)值最小的
w
,
b
w,b
w,b。但显然我们想要的是一种可以用代码编写的高效算法,自动查找参数
w
,
b
w,b
w,b的值,以提供最佳拟合线,使代价函数
J
(
w
,
b
)
J(w,b)
J(w,b)值最小。梯度下降(gradient descent)算法可以做到这点。这个算法是机器学习最重要的算法之一,梯度下降和梯度下降的变化用于训练,不仅仅是线性回归,还用于所有人工智能中的复杂模型。
梯度下降
梯度下降(gradient descent)算法是机器学习最重要的算法之一,梯度下降和梯度下降的变化用于训练,不仅仅是线性回归,还用于所有人工智能中的复杂模型。
梯度下降可以用来最小化任何函数,而不仅仅是线性回归的代价函数 J ( w , b ) J(w,b) J(w,b),事实证明,梯度下降适用于更一般的函数,包括具有两个以上参数的模型的其他代价函数 J ( w 1 , w 2 , . . . , w n , b ) J(w_1,w_2,...,w_n,b) J(w1,w2,...,wn,b)。
要使用梯度下降算法,你所要做的只是从对w和b的初步猜测开始。在线性回归中,初始值是多少并不重要,所以一个常见的选择是将它们都设置为0。例如,可以将w设置为0,并将b设置为0作为初始猜测。使用梯度下降算法,需要做的是继续每次更改参数w和b以尝试降低代价函数 J ( w , b ) J(w,b) J(w,b),直到 J ( w , b ) J(w,b) J(w,b)达到或接近最小值。
需要注意的是,针对不是“碗”状的函数,可能存在不止一个可能的最小值。
梯度:值变化最快的方向。
梯度下降的实现
线性回归模型: f w , b ( x ) = w x + b f_{w,b}(x)=wx+b fw,b(x)=wx+b,有两个参数 w , b w,b w,b。
使用梯度下降算法的过程:
-
参数 w w w每次的取值:
w = w − α ∂ ∂ w J ( w , b ) w=w-α\frac{ \partial }{ \partial w }J(w,b) w=w−α∂w∂J(w,b)
其中, α α α称为学习率(Learning rate),通常介于0~1之间。 α α α所做的是它控制下坡时迈的步子大小(以上图从山顶到山谷下坡的过程为例),如果 α α α非常大,则对应于一个激进的梯度下降过程,即在下坡时迈出大步;如果 α α α非常小,对应下坡时迈出小步。 -
参数 b b b每次的取值:
b = b − α ∂ ∂ b J ( w , b ) b=b-α\frac{ \partial }{ \partial b }J(w,b) b=b−α∂b∂J(w,b)
对于梯度下降算法,需要重复这两个更新步骤,直到算法收敛(convergence)。算法收敛,意思是到达了一个局部最小值的点,参数 w , b w,b w,b不再随着更新而发生(很大)变化。
梯度下降算法需要同时更新更新参数
w
,
b
w,b
w,b的值。在下图中,左边才是正确完成了同时更新参数
w
,
b
w,b
w,b,是正确的梯度下降算法。右边的是错误的方法。
梯度下降算法在代码中实现的方式,实际上实现起来更简单,并且是正确的完成了同时更新参数 w , b w,b w,b。
理解梯度下降
梯度下降算法需要同时更新参数
w
,
b
w,b
w,b:
w
=
w
−
α
∂
∂
w
J
(
w
,
b
)
w=w-α\frac{ \partial }{ \partial w }J(w,b)
w=w−α∂w∂J(w,b)
b
=
b
−
α
∂
∂
b
J
(
w
,
b
)
b=b-α\frac{ \partial }{ \partial b }J(w,b)
b=b−α∂b∂J(w,b)
其中
α
α
α是学习率(learning rate),用于控制更新模型参数
w
,
b
w,b
w,b的步长。
下面通过一个简单的例子理解 α α α学习率、 ∂ ∂ w J ( w , b ) \frac{ \partial }{ \partial w }J(w,b) ∂w∂J(w,b)、 ∂ ∂ b J ( w , b ) \frac{ \partial }{ \partial b }J(w,b) ∂b∂J(w,b)在做什么【都在下图中体现了】。
这个例子是简化后的线性回归模型: f w ( x ) = w x f_{w}(x)=wx fw(x)=wx,只有一个参数 w w w,其代价函数为 J ( w ) J(w) J(w),目的是通过梯度下降算法找到使代价函数 J ( w ) J(w) J(w)最小的参数 w w w的值。
这时根据梯度下降算法更新
w
w
w的值:
w
=
w
−
α
∂
∂
w
J
(
w
)
w=w-α\frac{ \partial }{ \partial w }J(w)
w=w−α∂w∂J(w)
过程看下图:
学习率α
学习率α的选择将对实现梯度下降的效率产生巨大影响。
下面仍然以简化后的线性回归模型
f
w
(
x
)
=
w
x
f_{w}(x)=wx
fw(x)=wx为例,说明太小或太大学习率α对实现梯度下降的效率产生的影响:
在前面提到过
w
w
w的初始值可以随意选取,那么如果
w
w
w的初始值就是局部最小值呢?或者经过梯度下降算法处理后,
w
w
w的值变成局部最小值,那么此时再对
w
w
w作梯度下降,
w
w
w的值又该如何变化?——这种情况见下图分析:
梯度下降算法即使使用固定的学习率α,也可以到达(局部)最小值。举个例子帮助理解(仍然基于简化后的线性回归模型):
梯度下降算法可以用来最小化任何代价函数J,而不仅仅是用于线性回归模型的平方误差代价函数。
用于线性回归的梯度下降
下面讨论完整的线性回归模型:
f
w
,
b
(
x
)
=
w
x
+
b
f_{w,b}(x)=wx+b
fw,b(x)=wx+b,其中
f
w
,
b
(
x
)
f_{w,b}(x)
fw,b(x)是
x
x
x的函数。
与之对应的代价函数:
J
(
w
,
b
)
=
1
2
m
∑
i
=
1
m
(
y
^
(
i
)
−
y
(
i
)
)
2
=
1
2
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
2
J(w,b)=\frac{1}{2m}\sum_{i=1}^m {(\hat{y}^{(i)}-{y}^{(i)})}^2=\frac{1}{2m}\sum_{i=1}^m {(f_{w,b}({x}^{(i)})-{y}^{(i)})}^2
J(w,b)=2m1i=1∑m(y^(i)−y(i))2=2m1i=1∑m(fw,b(x(i))−y(i))2其中
J
(
w
,
b
)
J(w,b)
J(w,b)是
w
,
b
w,b
w,b的函数。
以及对应的梯度下降算法:
w
=
w
−
α
∂
∂
w
J
(
w
,
b
)
w=w-α\frac{ \partial }{ \partial w }J(w,b)
w=w−α∂w∂J(w,b)
b
=
b
−
α
∂
∂
b
J
(
w
,
b
)
b=b-α\frac{ \partial }{ \partial b }J(w,b)
b=b−α∂b∂J(w,b)
根据微积分可知:
∂
∂
w
J
(
w
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
x
(
i
)
\frac{ \partial }{ \partial w }J(w,b)=\frac{1}{m}\sum_{i=1}^m {(f_{w,b}({x}^{(i)})-{y}^{(i)})}x^{(i)}
∂w∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))x(i)
∂
∂
b
J
(
w
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
\frac{ \partial }{ \partial b }J(w,b)=\frac{1}{m}\sum_{i=1}^m {(f_{w,b}({x}^{(i)})-{y}^{(i)})}
∂b∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))
推导过程如下图:
可以看到原本代价函数的分母中有一个2
,而在偏导数中,由于求导会将这个2
抵消,使计算看起来更简洁。这就解释了在【代价函数公式】部分提到的 注:额外除以2只是为了使后面的计算看起来更简洁。
现在可以把
∂
∂
w
J
(
w
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
x
(
i
)
\frac{ \partial }{ \partial w }J(w,b)=\frac{1}{m}\sum_{i=1}^m {(f_{w,b}({x}^{(i)})-{y}^{(i)})}x^{(i)}
∂w∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))x(i)
∂
∂
b
J
(
w
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
\frac{ \partial }{ \partial b }J(w,b)=\frac{1}{m}\sum_{i=1}^m {(f_{w,b}({x}^{(i)})-{y}^{(i)})}
∂b∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))
代入到梯度下降算法中:
w
=
w
−
α
∂
∂
w
J
(
w
,
b
)
=
w
−
α
1
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
x
(
i
)
w=w-α\frac{ \partial }{ \partial w }J(w,b)=w-α\frac{1}{m}\sum_{i=1}^m {(f_{w,b}({x}^{(i)})-{y}^{(i)})}x^{(i)}
w=w−α∂w∂J(w,b)=w−αm1i=1∑m(fw,b(x(i))−y(i))x(i)
b
=
b
−
α
∂
∂
b
J
(
w
,
b
)
=
b
−
α
1
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
b=b-α\frac{ \partial }{ \partial b }J(w,b)=b-α\frac{1}{m}\sum_{i=1}^m {(f_{w,b}({x}^{(i)})-{y}^{(i)})}
b=b−α∂b∂J(w,b)=b−αm1i=1∑m(fw,b(x(i))−y(i))
根据梯度下降算法,反复对
w
,
b
w,b
w,b进行更新,直到收敛。需要注意:梯度下降算法需要同时更新
w
,
b
w,b
w,b。
梯度下降算法可以找到局部最小值,而不是全局最小值。
事实证明,线性回归模型的平方误差代价函数没有多个局部最小值,有且仅有一个全局最小值。因为平方误差代价函数是“碗”状函数,专业术语是该代价函数凸函数(convex function)。凸函数是“碗”状函数,除了一个全局最小值外,不能有任何局部最小值。当在凸函数上实现梯度下降时,一个特性是只要选择适当的学习率α,就会始终收敛到全局最小值。
运行梯度下降
下面为线性回归模型
f
w
,
b
(
x
)
=
w
x
+
b
f_{w,b}(x)=wx+b
fw,b(x)=wx+b运行梯度下降算法:
梯度下降算法:
w
=
w
−
α
∂
∂
w
J
(
w
,
b
)
=
w
−
α
1
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
x
(
i
)
w=w-α\frac{ \partial }{ \partial w }J(w,b)=w-α\frac{1}{m}\sum_{i=1}^m {(f_{w,b}({x}^{(i)})-{y}^{(i)})}x^{(i)}
w=w−α∂w∂J(w,b)=w−αm1i=1∑m(fw,b(x(i))−y(i))x(i)
b
=
b
−
α
∂
∂
b
J
(
w
,
b
)
=
b
−
α
1
m
∑
i
=
1
m
(
f
w
,
b
(
x
(
i
)
)
−
y
(
i
)
)
b=b-α\frac{ \partial }{ \partial b }J(w,b)=b-α\frac{1}{m}\sum_{i=1}^m {(f_{w,b}({x}^{(i)})-{y}^{(i)})}
b=b−α∂b∂J(w,b)=b−αm1i=1∑m(fw,b(x(i))−y(i))
这种在梯度下降(更新
w
,
b
w,b
w,b)的每一步中,都在查看所有的训练示例
∑
i
=
1
m
\sum_{i=1}^m
∑i=1m,而不仅仅是训练数据的一个子集。这种梯度下降过程称为批量梯度下降(Batch gradient descent)。所以前面在计算梯度下降更新
w
,
b
w,b
w,b时计算导数都是计算从i=1到m的总和,也就是说批量梯度下降是在每次更新时查看整批训练示例。
当然还有其他版本的梯度下降在更新的每一步中不看整个训练集,而是在每个更新步骤中查看较小的训练数据子集。
但我们使用批量梯度下降进行线性回归,前面一直使用的都是批量梯度下降。
多维特征
在前面的例子中,只将“房子的面积”作为特征来预测“价格”,仅有一个特征。
下面考虑有多个特征(面积、卧室的数量、楼层数、房屋年龄)来预测“价格”。
为了描述方便,这里介绍一些新的符号:
x
j
=
j
t
h
f
e
a
t
u
r
e
x_j=j^{th}\;feature
xj=jthfeature
n
=
n
u
m
b
e
r
o
f
f
e
a
t
u
r
e
s
n= number\; of \;features
n=numberoffeatures
x
⃗
(
i
)
=
f
e
a
t
u
r
e
s
o
f
i
t
h
t
r
a
i
n
i
n
g
e
x
a
m
p
l
e
\vec x^{(i)}= features\; of \;i^{th}\;training \;example
x(i)=featuresofithtrainingexample
所以这里 x ⃗ ( i ) \vec x^{(i)} x(i)实际上是一个由n个数字组成的列表,将其称为包含第i个训练示例的所有特征的向量。【这里 x ⃗ ( i ) \vec x^{(i)} x(i)上画箭头只是为了强调这是一个向量而不是一个数字,并没有强制要求必须画箭头,当然可以不标箭头】
要引用第i个训练示例中的特定特征:
x
j
(
i
)
=
v
a
l
u
e
o
f
f
e
a
t
u
r
e
j
i
n
i
t
h
t
r
a
i
n
i
n
g
e
x
a
m
p
l
e
x^{(i)}_j= value \; of \;feature\;j\; in\;i^{th}\;training \;example
xj(i)=valueoffeaturejinithtrainingexample
前面仅有一个特征的线性回归模型:
f
w
,
b
(
x
)
=
w
x
+
b
f_{w,b}(x)=wx+b
fw,b(x)=wx+b
现在有n个特征的线性回归模型:
f
w
⃗
,
b
(
X
⃗
)
=
w
1
x
1
+
w
2
x
2
+
.
.
.
+
w
n
x
n
+
b
f_{\vec{w},b}(\vec{X})=w_1x_1+w_2x_2+...+w_nx_n+b
fw,b(X)=w1x1+w2x2+...+wnxn+b
其中
w
⃗
=
[
w
1
,
w
2
,
.
.
.
,
w
n
]
\vec{w}=[w_1,w_2,...,w_n]
w=[w1,w2,...,wn],b 是一个数字。
w
⃗
,
b
\vec{w},b
w,b都是这个模型的参数。
其中
X
⃗
=
[
x
1
,
x
2
,
.
.
.
,
x
n
]
\vec{X}=[x_1,x_2,...,x_n]
X=[x1,x2,...,xn],所以n个特征的线性回归模型又可简写为:
f
w
⃗
,
b
(
X
⃗
)
=
w
⃗
⋅
X
⃗
+
b
f_{\vec{w},b}(\vec{X})=\vec{w}\cdot\vec{X}+b
fw,b(X)=w⋅X+b
以上两种n个特征的线性回归模型写法是等价的,第二种写法可以用更少的字符以更紧凑的形式编写模型。
这种具有多个输入特征的线性回归模型的名称是多元线性回归(multiple linear regression),这与只有一个特征的单变量回归形成对比。
矢量化(向量化)
当实现学习算法时,使用矢量化都会使代码更短,也使其运行更有效。矢量化代码还可以利用现代数值线性代数库,还可以利用代表图形处理单元的GPU硬件(设计用于加速计算图形的硬件)。事实证明,矢量化代码可以更快地执行代码。
矢量化代码实现(第三个):
矢量化使代码更短,运行速度更快。
下面看一下为什么矢量化代码运行速度更快:
下面来看矢量化具体的例子,多元回归模型(这里取n=16):
用于多元线性回归的梯度下降算法
下面是多元线性回归模型和梯度下降算法的非矢量表示法和矢量表示法:
下面看一下多元回归模型(n个输入特征)梯度下降算法中导数项是如何计算的:
正规方程(Normal equation)
正规方程(Normal equation)也可以用于寻找线性回归模型的参数 w , b w,b w,b。
梯度下降是最小化代价函数J,以便找到线性回归模型的参数 w , b w,b w,b的好方法。
正规方程仅适用于求解线性回归模型的参数 w , b w,b w,b,并不适用于求解其他任何模型参数。并且这种方法不需要像梯度下降那样通过迭代(iterative)更新 w , b w,b w,b的值最终获得 w , b w,b w,b的值。事实证明,正规方程法可以使用线性代数库无需迭代即可在一个目标中求解 w , b w,b w,b。
正规方程的缺点:
- 与梯度下降不同,正规方程还没有推广到其他学习算法,仅适用于线性回归模型。
- 当输入特征数量特别多时(n>10000),正规方程也很慢。
几乎没有机器学习从业者自己实现正规方程方法,但如果你使用成熟的机器学习库并调用线性回归,则其后端有可能使用它来求解 w , b w,b w,b。不用担心正规方程是如何工作的,只需要知道某些机器学习库可能会在后端使用这种复杂的方法求解 w , b w,b w,b。
对于大多数学习算法,梯度下降提供了一种更好的方法来完成工作。
特征缩放(Feature Scaling)
特征缩放(Feature Scaling)可以使梯度下降运行的更快。
让我们首先看一下特征的大小(即该特征的数字有多大)与其关联参数的大小之间的关系。作为一个具体的例子,用两个特征
x
1
:房屋的大小,
x
2
:卧室的数量
x_1:房屋的大小,x_2:卧室的数量
x1:房屋的大小,x2:卧室的数量
来预测房屋的价格。假设
x
1
x_1
x1的范围在300~2000平方英尺;
x
2
x_2
x2的范围是0~5间卧室。因此对于本例,
x
1
x_1
x1取值范围相对较大,
x
2
x_2
x2取值范围相对较小。
现在取两组不同的参数值:
注意到,当一个特征值的可能范围很大时,比如尺寸一直到2000,一个好的模型更有可能学会选择一个相对较小的参数值,比如0.1。同样当特征的可能值较小时,如卧室数量,则其参数的合理值将相对较大,如50。
那么这又与梯度下降有什么关系呢?看下图分析:
进行特征缩放:
所以当有不同特征时,并且它们的取值范围非常不同(相差很大)时,它可能会导致梯度下降运行缓慢。重新缩放不同的特征,使其具有可比较的取值范围(拥有差不多的取值范围),会提高梯度下降的运行速度。
下面来看如何实现特征缩放:
-
第一种进行特征缩放的方法是将原始特征值除以该原始特征值范围内的最大值。
-
执行均值归一化。需要计算每个特征的均值μ。
-
Z-score标准化。实现Z-score标准化,需要计算每个特征的标准差σ。Z-score标准化需要计算均值μ及标准差σ。
执行特征缩放后将特征范围落在下面三种范围内都是可以接受的:
−
1
≤
x
j
≤
1
-1≤x_j≤1
−1≤xj≤1
−
3
≤
x
j
≤
3
-3≤x_j≤3
−3≤xj≤3
−
0.3
≤
x
j
≤
0.3
-0.3≤x_j≤0.3
−0.3≤xj≤0.3
进行特征缩放几乎没有任何坏处,因此如果你在考虑是否进行特征缩放,那么建议进行特征缩放。特征缩放可以使梯度下降运行更快。
判断梯度下降是否收敛
运行梯度下降时,如何判断梯度下降是否收敛,即是否帮助你找到接近代价函数全局最小值的参数。
确保梯度下降运行良好的方法见下图分析:
但在实际中选择适当的ε 非常困难。因此更倾向于使用左边的学习曲线图。
如何设置学习率α
选择适当的学习率α将使学习算法运行得更好(学习率α太小将使梯度下降运行得太慢,学习率太大梯度下降可能不会收敛)。
正确对梯度下降的调试技巧是在足够小的学习率α下,代价函数应该每次迭代都会减少。如果发现梯度下降没有正常工作时常用的做法时将学习率α设置为一个非常小的数字,之后观察是否每次迭代后代价函数都会降低。如果将学习率α设置为一个非常小的数字后代价函数并没有在每次迭代后降低,有时会增加,那么这就是在代码中存在错误。
注意:将学习率α调整为非常小的数字只是为了进行查看代码中是否存在错误,很小的学习率α不是用于训练学习算法的最佳选择,因为学习率α太小,有可能梯度下降需要迭代很多次才能收敛,这样的效率很低。
在梯度下降中选择适当学习率α的方法:
先从较小值开始,然后逐渐增大(3倍或10倍增加),画出代价函数J与迭代次数之间的关系图,确保选择的学习率α能使代价函数下降的更快且一直下降。然后在其中选择尽可能大的学习率α。
特征工程(Feature Engineering)
特征的选择对学习算法的性能有巨大影响。选择正确的输入特征是使算法运行良好的关键步骤。
下面看一下如何为算法选择或设计合适的输入特征:
这里创建一个新特征就是特征工程的一个例子。
特征工程不仅可能帮助拟合直线模型,也可以帮助拟合曲线(非线性)函数。
多项式回归(Polynomial Regression)
多项式回归可以拟合曲线(非线性)函数。
以多元线性回归和特征工程的思想想出多项式回归算法:
你可能会问如何选择这些特征,在后面的课程种,将学习如何选择不同的特征和包含或不包含这些特征的不同模型,并且有一个过程来衡量这些不同模型的表现如何,以决定包含哪些特征或不包含。
这一小节后面的资料(jupyterlab)展示了如何使用流行的开源工具包Scikit-learn实现线性回归。Scikit-learn是一个使用非常广泛的开源机器学习库,被世界上许多人工智能、机器学习公司的从业者使用。如果使用机器学习,那么很可能会使用Scikit-learn等工具来训练模型。
动机与目的
只有两个可能输出的分类问题称为二分类(binary classification)。
经常将子句指定为no或yes,或者有时等同于false或true,或者更普遍的用法是使用数字0或1。
通常在二分类算法中使用0和1。而在谈论时通常会说no和yes,或者false或true,或者称为反例(negative class)或正例(positive class)。
如何构建分类算法:
在上图中选择阈值(threshold)y=0.5,该直线将于线性回归的最佳拟合线相交,交点所在的垂线称为决策边界(decision boundary),在决策边界左边预测值输出为0,在决策边界右边预测值输出为1。
逻辑回归(Logistic Regression)
逻辑回归算法(Logistic Regression)。需要说明的一点是逻辑回归虽然有“回归”这个词,但是它是用于“分类”问题的(解决输出特征y为0或1的二分类问题)。
构建逻辑回归:
通常借助sigmoid函数来构建逻辑回归。
sigmoid函数(sigmoid function,又称logistic function):
g
(
z
)
=
1
1
+
e
−
z
0
<
g
(
z
)
<
1
g(z)=\frac{1}{1+e^{-z}} \;\;\;0<g(z)<1
g(z)=1+e−z10<g(z)<1
逻辑回归模型:
z
=
w
⃗
⋅
x
⃗
+
b
z=\vec{w}\cdot\vec{x}+b
z=w⋅x+b
f
w
⃗
,
b
(
x
⃗
)
=
g
(
w
⃗
⋅
x
⃗
+
b
)
=
g
(
z
)
=
1
1
+
e
−
(
w
⃗
⋅
x
⃗
+
b
)
f_{\vec{w},b}(\vec{x})=g(\vec{w}\cdot\vec{x}+b)=g(z)=\frac{1}{1+e^{-(\vec{w}\cdot\vec{x}+b)}}
fw,b(x)=g(w⋅x+b)=g(z)=1+e−(w⋅x+b)1
逻辑回归模型的作用是输入特征
x
⃗
\vec{x}
x,并输出一个0~1之间的数字。
解释逻辑回归的输出:
逻辑回归输出的是给定输入x的情况下,输出y=1的概率是多少。
例如在肿瘤分类问题中,对于给定输入x,预测输出0.7,那么意味着逻辑回归模型认为有70%的可能性y=1(模型认为该患者是恶性肿瘤的概率是70%)
决策边界(Decision Boundary)
怎么让模型输出预测值y是0还是1。可以设置一个阈值,高于该阈值时预测值y=1,反之,低于该阈值时预测值y=0。一个常见的做法是选择阈值为0.5。如下所示:
举例:
下面看一个更复杂的例子,决策边界不再是一条直线:
当然还可以通过使用更高阶的多项式实现更复杂的决策边界:
如果没有(高阶)多项式,特征仅是线性的( w 1 x 1 + w 2 x 2 + . . . + w n x n + b w_1x_1+w_2x_2+...+w_nx_n+b w1x1+w2x2+...+wnxn+b),那么逻辑回归的决策边界始终是线性,始终是直线。
逻辑回归中的代价函数(Cost Function for Logistic Regression)
在前面的线性回归模型中其代价函数是平方误差代价函数,但对于逻辑回归模型来说,平方误差代价函数并不是最好的代价函数。
下面看一个例子:
有更好的适用于逻辑回归模型的代价函数(可以令其变为“碗”状,凸函数convex function),保证梯度下降收敛到全局最小值。只需要对平方误差代价函数做些修改即可。
平方误差代价函数:
J
(
w
,
b
)
=
1
m
∑
i
=
1
m
1
2
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
2
J(w,b)=\frac{1}{m}\sum_{i=1}^m \frac{1}{2}{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}^2
J(w,b)=m1i=1∑m21(fw,b(x(i))−y(i))2
其中
1
2
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
2
\frac{1}{2}{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}^2
21(fw,b(x(i))−y(i))2为单个训练示例的误差,现在将其定义为损失(loss)函数
L
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
L{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}
L(fw,b(x(i))−y(i)),通过对这个损失函数选择不同的形式,能保证代价函数是碗”状,凸函数(convex function)。
损失函数的不同形式:
L
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
=
{
−
l
o
g
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
i
f
y
(
i
)
=
1
−
l
o
g
(
1
−
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
i
f
y
(
i
)
=
0
L{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}=\left\{ \begin{aligned} -log(f_{\vec{w},b}(\vec{x}^{(i)})) \;\;if\;y^{(i)}=1\\ -log(1-f_{\vec{w},b}(\vec{x}^{(i)})) \;\;if\;y^{(i)}=0 \end{aligned} \right.
L(fw,b(x(i))−y(i))={−log(fw,b(x(i)))ify(i)=1−log(1−fw,b(x(i)))ify(i)=0
下面是
y
(
i
)
=
1
y^{(i)}=1
y(i)=1的例子:
下面是
y
(
i
)
=
0
y^{(i)}=0
y(i)=0的例子:
最适用于逻辑回归模型的代价函数:
J
(
w
,
b
)
=
1
m
∑
i
=
1
m
L
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
J(w,b)=\frac{1}{m}\sum_{i=1}^mL{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}
J(w,b)=m1i=1∑mL(fw,b(x(i))−y(i))
其中:
L
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
=
{
−
l
o
g
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
i
f
y
(
i
)
=
1
−
l
o
g
(
1
−
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
i
f
y
(
i
)
=
0
L{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}=\left\{ \begin{aligned} -log(f_{\vec{w},b}(\vec{x}^{(i)})) \;\;if\;y^{(i)}=1\\ -log(1-f_{\vec{w},b}(\vec{x}^{(i)})) \;\;if\;y^{(i)}=0 \end{aligned} \right.
L(fw,b(x(i))−y(i))={−log(fw,b(x(i)))ify(i)=1−log(1−fw,b(x(i)))ify(i)=0
这种代价函数又变成了“碗”状函数,可以使用梯度下降找到全局最小值。如果能找到参数 w , b w,b w,b使得该代价函数最小,那么就拥有了用于逻辑回归模型参数 w , b w,b w,b最好的值。
简化逻辑回归代价函数
简化逻辑回归代价函数可以使梯度下降更有效的运行。
上一部分提到的损失函数:
L
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
=
{
−
l
o
g
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
i
f
y
(
i
)
=
1
−
l
o
g
(
1
−
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
i
f
y
(
i
)
=
0
L{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}=\left\{ \begin{aligned} -log(f_{\vec{w},b}(\vec{x}^{(i)})) \;\;if\;y^{(i)}=1\\ -log(1-f_{\vec{w},b}(\vec{x}^{(i)})) \;\;if\;y^{(i)}=0 \end{aligned} \right.
L(fw,b(x(i))−y(i))={−log(fw,b(x(i)))ify(i)=1−log(1−fw,b(x(i)))ify(i)=0
其等价于(简化后的损失函数):
L
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
=
−
y
(
i
)
l
o
g
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
−
(
1
−
y
(
i
)
)
l
o
g
(
1
−
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
L{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}=-y^{(i)}log(f_{\vec{w},b}(\vec{x}^{(i)}))-(1-y^{(i)})log(1-f_{\vec{w},b}(\vec{x}^{(i)}))
L(fw,b(x(i))−y(i))=−y(i)log(fw,b(x(i)))−(1−y(i))log(1−fw,b(x(i)))
推导过程:
将简化后的损失函数带入到代价函数中(将“减号”提到前面):
J
(
w
,
b
)
=
−
1
m
∑
i
=
1
m
[
y
(
i
)
l
o
g
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
+
(
1
−
y
(
i
)
)
l
o
g
(
1
−
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
]
J(w,b)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(f_{\vec{w},b}(\vec{x}^{(i)}))+(1-y^{(i)})log(1-f_{\vec{w},b}(\vec{x}^{(i)}))]
J(w,b)=−m1i=1∑m[y(i)log(fw,b(x(i)))+(1−y(i))log(1−fw,b(x(i)))]
这就是用来训练逻辑回归的代价函数。为什么选择这样形式的代价函数,而不是其他形式:简单说一下,这个形式是使用最大似然估计(Maximum likelihood estimate)的统计原理从统计中推导出来的。这样形式的代价函数是“碗”状,拥有全局最小值。
在逻辑回归中实现梯度下降
使用梯度下降找到使逻辑回归的代价函数最小的参数
w
,
b
w,b
w,b。
将导数带入可以得到逻辑回归的梯度下降,这个看起来与线性回归模型的梯度下降算法是一样的,其实不然,因为逻辑回归的
f
w
⃗
,
b
(
x
⃗
(
i
)
)
f_{\vec{w},b}(\vec{x}^{(i)})
fw,b(x(i))定义已经更改。
逻辑回归模型的梯度下降:
过拟合问题(The Problem of Overfitting)
在程序中,算法可能会遇到过拟合问题,这可能导致其表现不佳。
理解过拟合(使用线性回归根据房屋的面积预测房价的例子):
第一种:仅使用一个特征即房屋的面积x,这将使用一条直线来拟合训练集。显然这不是一个很好的模型,因为从训练集上看,随着房屋面积的增加,房价趋于平稳,因此该算法不能很好地拟合训练集。术语是该模型对训练集欠拟合(underfitting)或该模型具有高偏差(hgih bias)。
第二种:使用两个特征房屋的面积x,与房屋面积的平方x2,这将使用一条曲线来拟合训练集。从图上来看,这个模型对训练集的拟合效果很好,如果有一个新样例(不在训练样例中),该模型也会表现的很好,这称为泛化(generalization)。泛化能力强指算法对不在训练集中的例子也表现的很好。当然希望学习算法能够很好地泛化,这意味着即使在它以前从未见过的全新示例上也能做出良好的预测。【从图中可以看到该曲线并没有经过所有的训练集,但其效果不错,可以很好地推广到新的例子】
第三种:使用四个特征房屋的面积x、房屋面积的平方x2、房屋面积的三次方x3、房屋面积的四次方x4,这将使用一条曲线来拟合训练集,并且使用这四个特征将准确地通过所有训练示例(曲线经过了所有的训练集)。该模型似乎非常适合训练数据,因为它完美地通过了所有训练数据(这样就可以选择使代价函数=0的参数,因为所有训练样例的误差都=0),但这是一个非常摇摆不定的曲线,很显然,这并不是预测房价特别好的模型,术语是模型对训练集过拟合(overfitting),因为它非常适合训练数据(通过了所有的训练数据),因此是过拟合的。从图上来看这个模型并不能很好地推广到以前从未见过的新例子。另一个术语是该算法具有高方差(hgih variance)。
在机器学习中,可以互换使用过拟合和高方差这两个术语,可以互换使用欠拟合和高偏差这两个术语。
过拟合和高方差是算法正在非常努力地适应每个训练样本,因此如果训练集有一点点不同,那么最终算法拟合的函数会完全不同。
这三种情况中第二种模型更佳,但第二种情况没有名称,称它为恰如其分(just right),因为它既不是欠拟合也不过拟合。机器学习的目标就是找到一个既不是欠拟合也不过拟合的模型(既没有高偏差也没有高方差)。
上面讨论了线性回归中的过拟合和欠拟合。当然在分类算法中也会存在过拟合与欠拟合。
分类例子:
第一种:是一个具有两个特征的分类示例, x 1 x_1 x1表示肿瘤大小, x 2 x_2 x2是患者年龄。对肿瘤是恶性还是良性进行分类,可以使用逻辑回归模型进行拟合。根据逻辑回归,z=0作为决策边界,可以得到如图所示的一条直线作为决策边界。显然,这条直线不太适合训练集,这是一个欠拟合(underfitting)或高偏差(hgih bias)的例子。
第二种:如果将一些二次项添加到特征中,再做决策边界z=0,可能会是这样的线(椭圆或椭圆的一部分),这非常适合训练集,即使它不能完美地对训练集中的每个训练示例都进行分类。 这个模型不错,恰如其分(just right)。
第三种:如果使用更多的特征来拟合一个非常高阶的多项式,那么模型可能会非常努力地找到一个完美适合所有训练数据的决策边界。这当然不是一个好的模型,这是一个过拟合(overfitting)或高方差(hgih variance)的例子,不能很好的泛化(generalization)到新的例子。
解决过拟合(Addressing Overfitting)
解决过拟合问题有三种方法:
方法一:收集更多的训练示例(使用更大的训练集)。
如图是过拟合房价预测模型,解决这个问题的一种方法是收集更多的训练数据。使用更大的训练集,那么学习算法将拟合一个波动较小的函数。防止过拟合的第一种方法就是获取更多的训练示例,但是使用更多的训练数据并不总是可行,因为有可能没有更多的训练数据可以使用;但是如果有更多数据可以使用,那么这种方法是很有效的。
方法二:使用更少的特征。
前面提到在线性回归中的过拟合例子:使用四个特征房屋的面积x、房屋面积的平方x2、房屋面积的三次方x3、房屋面积的四次方x4,这是很多多项式特征,在这种情况下,减少过拟合的一种方法是不使用那么多的多项式特征。
另一种情况,有很多特征来预测房价,如面积、卧室数量、楼层、房屋年龄等。如果有很多这样的特征,但是没有足够多的训练数据,那么在这种情况下算法可能会过拟合。现在不使用所有的特征,仅使用最有用的特征,如面积、卧室数量和房屋年龄(如果你认为这三个是最有用的特征)。这时模型就不会过拟合。选择使用最有用的一组特征也被称为特征选择(teature selection)。特征选择的缺点是仅使用特征的子集,这样就会丢失拥有的关于房屋的信息,比如也许这些所有特征全部都是有用的,都用于预测房价。
也许不想丢弃某些特征。在后续的课程中还将学习一些用于自动选择最合适(有用)的一组特征用于预测任务。
方法三:正则化(Regularization):减小参数
w
j
w_j
wj的大小。
查看这里的过拟合模型,会发现其参数
w
j
w_j
wj都比较大。如果将某些参数设置为0,就相当于去掉这个特征了,这正是方法二做的事情。而正则化是一种更温和地减少某些特征的影响,而无需去掉这个特征。正则化做的事情就是鼓励学习算法缩小参数,而不必将其设置为0。这样即便使用非常高阶的多项式,只要能让算法使用更小的参数
w
j
w_j
wj,那么模型就能更好地拟合训练数据。正则化的作用就是保留所有的特征,同时防止特征产生过大的影响(特征产生过大的影响有时会导致过拟合)。通常只减小参数
w
j
w_j
wj的大小,是否也正则化参数b并没有太大的区别,可以正则化b也可以不正则化b。通常不正则化b,仅正则化参数
w
j
w_j
wj即可。
总结解决过拟合问题的三种方法:
- 收集更多的训练示例(使用更大的训练集)。
- 使用更少的特征。
- 正则化(Regularization):减小参数 w j w_j wj的大小。
经常使用方法三正则化(Regularization)来解决过拟合问题,这是训练学习算法一个非常有用的技术,包括神经网络。
正则化的代价函数(Cost Function with Regularization)
本部分将为学习算法开发一个修改后的代价函数,使其可以实际应用正则化。
在前面「过拟合问题」部分提到线性回归中的过拟合问题时的举例:
如果使用二次多项式拟合训练集,将给出很好的拟合;但是如果拟合一个非常高阶的多项式,将会得到一条过拟合曲线。
但是如果有办法使参数 w 3 , w 4 w_3,w_4 w3,w4变得非常非常小(接近于0),就可以解决过拟合。
刚才提到的办法就是最小化修改后的代价函数。
修改后的代价函数:原来的代价函数+ 1000 w 3 2 1000w_3^2 1000w32+ 1000 w 4 2 1000w_4^2 1000w42。这里乘以1000是因为1000是一个很大的数,当然更大的数也可以。
如果想最小化修改后的代价函数,那么让修改后的代价函数变小的唯一方法就是让 w 3 , w 4 w_3,w_4 w3,w4都变得非常非常小。所以最小化修改后的代价函数,最终会得到非常接近于0的 w 3 , w 4 w_3,w_4 w3,w4。这时实际上几乎抵消了特征 x 3 , x 4 x^3,x^4 x3,x4,最终会得到一个接近于二次多项式函数的数据拟合(包括特征 x 3 , x 4 x^3,x^4 x3,x4的微小贡献)。
正则化的想法就是:如果特征的参数值 w j w_j wj较小,那么这时就有点像是一个简单的模型(特征较少的模型),因此不太容易过拟合。
上面的例子中仅对 w 3 , w 4 w_3,w_4 w3,w4进行了正则化,但实际中正则化的典型方式是对所有的参数 w 1 , w 2 , . . . , w n w_1,w_2,...,w_n w1,w2,...,wn都进行正则化,并且这种方式通常拟合的更好。
在下面的例子中对所有的参数都进行正则化,修改后的代价函数:
J
(
w
,
b
)
=
1
2
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
2
+
λ
2
m
∑
j
=
1
n
w
j
2
J(w,b)=\frac{1}{2m}\sum_{i=1}^m{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}^2+\frac{λ}{2m}\sum_{j=1}^nw_j^2
J(w,b)=2m1i=1∑m(fw,b(x(i))−y(i))2+2mλj=1∑nwj2
λ被称为正则化参数(regularization parameter)。与选择学习率α类似,现在也需要为λ选择一个数字。使用 λ 2 m \frac{λ}{2m} 2mλ,即λ除以2m,这样修改后的代价函数在第一项和第二项都在2m上按比例缩放。事实证明,以相同的方式缩放这两项,为λ选择一个更好的值会更容易些。特别是,即使训练集规模增加,相应的m增大,λ除以2m可以保证训练集规模增加后λ值不变也可以继续正常工作。
通常做法是不对参数b进行正则化(对b做不做正则化没有什么区别)。
一些机器学习工程师和一些学习算法可能会加上对参数b的正则化,此时修改后的代价函数就是:
J
(
w
,
b
)
=
1
2
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
2
+
λ
2
m
∑
j
=
1
n
w
j
2
+
λ
2
m
b
2
J(w,b)=\frac{1}{2m}\sum_{i=1}^m{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}^2+\frac{λ}{2m}\sum_{j=1}^nw_j^2+\frac{λ}{2m}b^2
J(w,b)=2m1i=1∑m(fw,b(x(i))−y(i))2+2mλj=1∑nwj2+2mλb2
对b做不做正则化在实际中没有什么区别,本课程使用的是更常见的用法即仅对参数
w
j
w_j
wj进行正则化。
总结:
修改后的代价函数:
J
(
w
,
b
)
=
1
2
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
2
+
λ
2
m
∑
j
=
1
n
w
j
2
J(w,b)=\frac{1}{2m}\sum_{i=1}^m{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}^2+\frac{λ}{2m}\sum_{j=1}^nw_j^2
J(w,b)=2m1i=1∑m(fw,b(x(i))−y(i))2+2mλj=1∑nwj2
修改后的代价函数就是最终要最小化的代价函数(平方误差成本函数+正则化项)。尝试最小化第一项是鼓励算法通过最小化预测值与实际值的平方差来很好地拟合训练数据;并尽量减少第二项,算法试图使参数
w
j
w_j
wj较小,这样以减少过拟合。选择的λ值使得您如何在第一项和第二项之间取得平衡。
λ值的选择对算法的影响(还是以线性回归预测房价为例):
- 如果λ=0,意味着没有使用正则化项。这时会过拟合。
- 如果λ非常非常大,比如 λ = 1 0 10 λ=10^{10} λ=1010,那么就在正则化项 λ 2 m ∑ j = 1 n w j 2 \frac{λ}{2m}\sum_{j=1}^nw_j^2 2mλ∑j=1nwj2上赋予了非常大的权重。此时最小化修改后的代价函数唯一方法是确保所有的 w j w_j wj都非常接近于0。因此在这个例子中如果λ非常非常大,那么算法将使所有的 w j w_j wj都非常接近于0,此时 f w ⃗ , b ( x ⃗ ( i ) ) f_{\vec{w},b}(\vec{x}^{(i)}) fw,b(x(i))基本上等于b,显然此时算法拟合的水平直线与训练集欠拟合。
- 选择适当的λ值,平衡第一项与第二项,最小化平方误差并保持参数 w j w_j wj较小。选择恰到好处的λ值,能够实现最终拟合四阶多项式,保留所有特征,模型的效果也很好。
用于线性回归的正则方法(Regularized Linear Regression)
梯度下降与正则化线性回归一起工作。
为正则化线性回归提出的代价函数:
J
(
w
,
b
)
=
1
2
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
2
+
λ
2
m
∑
j
=
1
n
w
j
2
J(w,b)=\frac{1}{2m}\sum_{i=1}^m{(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}^2+\frac{λ}{2m}\sum_{j=1}^nw_j^2
J(w,b)=2m1i=1∑m(fw,b(x(i))−y(i))2+2mλj=1∑nwj2
第一项是平方误差代价函数,第二项是正则化项,其中λ是正则化参数,想要找到使正则化代价函数最小化的参数
w
,
b
w,b
w,b。
没有正则化线性回归的梯度下降(同时更新
w
j
,
b
w_j,b
wj,b):
w
j
=
w
j
−
α
∂
∂
w
j
J
(
w
j
⃗
,
b
)
w_j=w_j-α\frac{ \partial }{ \partial w_j }J(\vec{w_j},b)
wj=wj−α∂wj∂J(wj,b)
b
=
b
−
α
∂
∂
b
J
(
w
⃗
,
b
)
b=b-α\frac{ \partial }{ \partial b }J(\vec{w},b)
b=b−α∂b∂J(w,b)
其中:
∂
∂
w
j
J
(
w
j
⃗
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
\frac{ \partial }{ \partial w_j }J(\vec{w_j},b)=\frac{1}{m}\sum_{i=1}^m {(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}x_j^{(i)}
∂wj∂J(wj,b)=m1i=1∑m(fw,b(x(i))−y(i))xj(i)
∂
∂
b
J
(
w
⃗
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
\frac{ \partial }{ \partial b }J(\vec{w},b)=\frac{1}{m}\sum_{i=1}^m {(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}
∂b∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))
正则化线性回归的梯度下降(同时更新
w
j
,
b
w_j,b
wj,b):
整体梯度下降公式没有变:
w
j
=
w
j
−
α
∂
∂
w
j
J
(
w
j
⃗
,
b
)
w_j=w_j-α\frac{ \partial }{ \partial w_j }J(\vec{w_j},b)
wj=wj−α∂wj∂J(wj,b)
b
=
b
−
α
∂
∂
b
J
(
w
⃗
,
b
)
b=b-α\frac{ \partial }{ \partial b }J(\vec{w},b)
b=b−α∂b∂J(w,b)
只有其中的导数发生了变化:
∂
∂
w
j
J
(
w
j
⃗
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
+
λ
m
w
j
\frac{ \partial }{ \partial w_j }J(\vec{w_j},b)=\frac{1}{m}\sum_{i=1}^m {(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}x_j^{(i)}+\frac{λ}{m}w_j
∂wj∂J(wj,b)=m1i=1∑m(fw,b(x(i))−y(i))xj(i)+mλwj
∂
∂
b
J
(
w
⃗
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
\frac{ \partial }{ \partial b }J(\vec{w},b)=\frac{1}{m}\sum_{i=1}^m {(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}
∂b∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))
我们的做法是仅对
w
j
w_j
wj进行正则化(仅缩小
w
j
w_j
wj),不对
b
b
b进行正则化,所以仅对
w
j
w_j
wj求导的导数发生了变化,对
b
b
b求导的导数没有发生变化。
现在将导数带入到原来的公式中可以得到:
w
j
=
w
j
−
α
[
1
m
∑
i
=
1
m
[
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
]
+
λ
m
w
j
]
①
w_j=w_j-α[\frac{1}{m}\sum_{i=1}^m {[(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}x_j^{(i)}]+\frac{λ}{m}w_j] \;\;\;\;\;①
wj=wj−α[m1i=1∑m[(fw,b(x(i))−y(i))xj(i)]+mλwj]①
b
=
b
−
α
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
b=b-α\frac{1}{m}\sum_{i=1}^m {(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}
b=b−αm1i=1∑m(fw,b(x(i))−y(i))
这就是正则化线性回归的梯度下降,注意需要同时更新
w
j
,
b
w_j,b
wj,b。
进一步地,可以将公式①等价写为:
w
j
=
w
j
(
1
−
α
λ
m
)
−
α
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
②
w_j=w_j(1-α\frac{λ}{m})-α\frac{1}{m}\sum_{i=1}^m {(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}x_j^{(i)}\;\;\;\;\;②
wj=wj(1−αmλ)−αm1i=1∑m(fw,b(x(i))−y(i))xj(i)②
而没有正则化的是如下这种写法:
w
j
=
w
j
−
α
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
w_j=w_j-α\frac{1}{m}\sum_{i=1}^m {(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}x_j^{(i)}
wj=wj−αm1i=1∑m(fw,b(x(i))−y(i))xj(i)
学习率α是一个非常小的正数,比如0.01;λ通常是一个很小的数字,比如1或10。假设此示例λ=1,m=50。此时 1 − α λ m = 0.9998 1-α\frac{λ}{m}=0.9998 1−αmλ=0.9998,因此在梯度下降的每次迭代中,都将 w j w_j wj乘以0.9998,即乘以略小于1的数字,然后执行更新。这就是正则化所作的事情,在梯度下降的每次迭代中,都将 w j w_j wj乘以略小于1的数字,然后执行更新,这会稍微缩小 w j w_j wj的值。这就是为什么正则化会在每次迭代中将参数 w j w_j wj缩小一点,这正是正则化的工作原理。
正则化线性回归的梯度下降中导数的推导过程:
正则化线性回归可以实现当特征较多且训练集较小时减少过拟合。
用于逻辑回归的正则方法(Regularized Logistic Regression)
正如逻辑回归的梯度下降与线性回归的梯度下降惊人的相似,会发现正则化逻辑回归的梯度下降也与正则化线性回归的梯度下降相似。
正如之前的例子,如果用像这样的非常高阶的多项式特征来拟合逻辑回归,很容易过拟合。这里z是一个高阶多项式,带入到sigmoid函数中构成逻辑回归,最终得到过于复杂且过度适合训练集的决策边界。更一般地说,当用很多特征训练逻辑回归时,无论是多项式特征还是其他一些特征,都可能存在过拟合问题。
逻辑回归的代价函数:
J
(
w
,
b
)
=
−
1
m
∑
i
=
1
m
[
y
(
i
)
l
o
g
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
+
(
1
−
y
(
i
)
)
l
o
g
(
1
−
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
]
J(w,b)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(f_{\vec{w},b}(\vec{x}^{(i)}))+(1-y^{(i)})log(1-f_{\vec{w},b}(\vec{x}^{(i)}))]
J(w,b)=−m1i=1∑m[y(i)log(fw,b(x(i)))+(1−y(i))log(1−fw,b(x(i)))]
与线性回归类似,如果要对其进行正则化,需要在代价函数后增加 λ 2 m ∑ j = 1 n w j 2 \frac{λ}{2m}\sum_{j=1}^nw_j^2 2mλ∑j=1nwj2。
正则化逻辑回归的代价函数(修改后的代价函数):
J
(
w
,
b
)
=
−
1
m
∑
i
=
1
m
[
y
(
i
)
l
o
g
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
+
(
1
−
y
(
i
)
)
l
o
g
(
1
−
f
w
⃗
,
b
(
x
⃗
(
i
)
)
)
]
+
λ
2
m
∑
j
=
1
n
w
j
2
J(w,b)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(f_{\vec{w},b}(\vec{x}^{(i)}))+(1-y^{(i)})log(1-f_{\vec{w},b}(\vec{x}^{(i)}))]+\frac{λ}{2m}\sum_{j=1}^nw_j^2
J(w,b)=−m1i=1∑m[y(i)log(fw,b(x(i)))+(1−y(i))log(1−fw,b(x(i)))]+2mλj=1∑nwj2
最小化正则化逻辑回归的代价函数可以减小 w j w_j wj。进而防止过拟合。
正则化逻辑回归的梯度下降(与正则化线性回归的梯度下降非常相似):
没有正则化逻辑回归的梯度下降(同时更新
w
j
,
b
w_j,b
wj,b):
w
j
=
w
j
−
α
∂
∂
w
j
J
(
w
j
⃗
,
b
)
w_j=w_j-α\frac{ \partial }{ \partial w_j }J(\vec{w_j},b)
wj=wj−α∂wj∂J(wj,b)
b
=
b
−
α
∂
∂
b
J
(
w
⃗
,
b
)
b=b-α\frac{ \partial }{ \partial b }J(\vec{w},b)
b=b−α∂b∂J(w,b)
其中:
∂
∂
w
j
J
(
w
j
⃗
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
\frac{ \partial }{ \partial w_j }J(\vec{w_j},b)=\frac{1}{m}\sum_{i=1}^m {(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}x_j^{(i)}
∂wj∂J(wj,b)=m1i=1∑m(fw,b(x(i))−y(i))xj(i)
∂
∂
b
J
(
w
⃗
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
\frac{ \partial }{ \partial b }J(\vec{w},b)=\frac{1}{m}\sum_{i=1}^m {(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}
∂b∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))
看起来逻辑回归梯度下降的导数项与线性回归梯度下降的导数项一样,但实际上完全不同,因为线性回归梯度下降中 f w ⃗ , b ( x ⃗ ( i ) ) f_{\vec{w},b}(\vec{x}^{(i)}) fw,b(x(i))是线性函数,而在逻辑回归梯度下降中 f w ⃗ , b ( x ⃗ ( i ) ) f_{\vec{w},b}(\vec{x}^{(i)}) fw,b(x(i))是非线性函数sigmoid函数【详见「在逻辑回归中实现梯度下降」部分】。
正则化逻辑回归的梯度下降(同时更新
w
j
,
b
w_j,b
wj,b):
整体梯度下降公式没有变:
w
j
=
w
j
−
α
∂
∂
w
j
J
(
w
j
⃗
,
b
)
w_j=w_j-α\frac{ \partial }{ \partial w_j }J(\vec{w_j},b)
wj=wj−α∂wj∂J(wj,b)
b
=
b
−
α
∂
∂
b
J
(
w
⃗
,
b
)
b=b-α\frac{ \partial }{ \partial b }J(\vec{w},b)
b=b−α∂b∂J(w,b)
只有其中的导数发生了变化:
∂
∂
w
j
J
(
w
j
⃗
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
+
λ
m
w
j
\frac{ \partial }{ \partial w_j }J(\vec{w_j},b)=\frac{1}{m}\sum_{i=1}^m {(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}x_j^{(i)}+\frac{λ}{m}w_j
∂wj∂J(wj,b)=m1i=1∑m(fw,b(x(i))−y(i))xj(i)+mλwj
∂
∂
b
J
(
w
⃗
,
b
)
=
1
m
∑
i
=
1
m
(
f
w
⃗
,
b
(
x
⃗
(
i
)
)
−
y
(
i
)
)
\frac{ \partial }{ \partial b }J(\vec{w},b)=\frac{1}{m}\sum_{i=1}^m {(f_{\vec{w},b}(\vec{x}^{(i)})-{y}^{(i)})}
∂b∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))
同上,看起来正则化逻辑回归梯度下降的导数项与正则化线性回归梯度下降的导数项一样,但实际上完全不同,因为正则化线性回归梯度下降中 f w ⃗ , b ( x ⃗ ( i ) ) f_{\vec{w},b}(\vec{x}^{(i)}) fw,b(x(i))是线性函数,而在正则化逻辑回归梯度下降中 f w ⃗ , b ( x ⃗ ( i ) ) f_{\vec{w},b}(\vec{x}^{(i)}) fw,b(x(i))是非线性函数sigmoid函数【详见「在逻辑回归中实现梯度下降」部分】。
我们的做法是仅对 w j w_j wj进行正则化(仅缩小 w j w_j wj),不对 b b b进行正则化,所以仅对 w j w_j wj求导的导数发生了变化,对 b b b求导的导数没有发生变化。
下个课程预告
在下个课程中将学习神经网络,也称为深度学习算法。神经网络有许多突破,从实用的语音识别到计算机准确识别物体和图像,再到自动驾驶。构建神经网络的方式有很多,其中有部分在本课程中已经学习了,比如代价函数、梯度下降和sigmoid函数。