线性可分支持向量机的原理推导 9-18基于拉格朗日函数L(w,b,α) 对w求偏导 公式解析
本文是将文章《线性可分支持向量机的原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。
公式 9-18 是求解拉格朗日函数 L ( w , b , α ) L(\mathbf{w}, b, \alpha) L(w,b,α) 时,对 w \mathbf{w} w 进行偏导数并令其等于零的结果。这个步骤是为了找到拉格朗日函数 L ( w , b , α ) L(\mathbf{w}, b, \alpha) L(w,b,α) 的极小值。公式 9-18 表达了偏导数的结果,并为后续优化提供了必要的条件。
公式 9-18 的具体形式
公式 9-18 的形式如下:
∂
L
∂
w
=
w
−
∑
i
=
1
N
α
i
y
i
x
i
=
0
\frac{\partial L}{\partial \mathbf{w}} = \mathbf{w} - \sum_{i=1}^{N} \alpha_i y_i \mathbf{x}_i = 0
∂w∂L=w−i=1∑Nαiyixi=0
1. 公式 9-18 的含义
这个公式表示的是拉格朗日函数 L ( w , b , α ) L(\mathbf{w}, b, \alpha) L(w,b,α) 对于 w \mathbf{w} w 的偏导数,并令其等于 0。其目的是为了通过对拉格朗日函数的偏导数进行分析,找到使得 L ( w , b , α ) L(\mathbf{w}, b, \alpha) L(w,b,α) 最小的 w \mathbf{w} w 的值。
拉格朗日函数回顾
在公式 9-7 中,拉格朗日函数
L
(
w
,
b
,
α
)
L(\mathbf{w}, b, \alpha)
L(w,b,α) 表达为:
L
(
w
,
b
,
α
)
=
1
2
∥
w
∥
2
−
∑
i
=
1
N
α
i
(
y
i
(
w
T
x
i
+
b
)
−
1
)
L(\mathbf{w}, b, \alpha) = \frac{1}{2} \|\mathbf{w}\|^2 - \sum_{i=1}^{N} \alpha_i \left( y_i (\mathbf{w}^T \mathbf{x}_i + b) - 1 \right)
L(w,b,α)=21∥w∥2−i=1∑Nαi(yi(wTxi+b)−1)
这是支持向量机(SVM)优化问题中的目标函数,它结合了要最小化的函数和约束条件。通过引入拉格朗日乘子 α i \alpha_i αi,我们将约束条件融入优化过程。
2. 求偏导数
为了求解这个极小化问题,我们首先对 w \mathbf{w} w 求偏导数。
- 1 2 ∥ w ∥ 2 \frac{1}{2} \|\mathbf{w}\|^2 21∥w∥2:这是 w \mathbf{w} w 的二次项,偏导数为 w \mathbf{w} w。
- 约束项 ∑ i = 1 N α i y i ( w T x i + b ) \sum_{i=1}^{N} \alpha_i y_i (\mathbf{w}^T \mathbf{x}_i + b) ∑i=1Nαiyi(wTxi+b):对 w \mathbf{w} w 求导时,只有 w T x i \mathbf{w}^T \mathbf{x}_i wTxi 这一项与 w \mathbf{w} w 有关,偏导数为 α i y i x i \alpha_i y_i \mathbf{x}_i αiyixi。
因此,对
w
\mathbf{w}
w 求偏导数的结果为:
∂
L
∂
w
=
w
−
∑
i
=
1
N
α
i
y
i
x
i
\frac{\partial L}{\partial \mathbf{w}} = \mathbf{w} - \sum_{i=1}^{N} \alpha_i y_i \mathbf{x}_i
∂w∂L=w−i=1∑Nαiyixi
3. 偏导数等于零的含义
为了找到极小值,必须令偏导数为零。这给出了解决
w
\mathbf{w}
w 的方程:
w
=
∑
i
=
1
N
α
i
y
i
x
i
\mathbf{w} = \sum_{i=1}^{N} \alpha_i y_i \mathbf{x}_i
w=i=1∑Nαiyixi
这个方程表达了支持向量机中超平面的法向量 w \mathbf{w} w 是通过一组拉格朗日乘子 α i \alpha_i αi、样本点 x i \mathbf{x}_i xi 以及类别标签 y i y_i yi 的线性组合构成的。换句话说,最优法向量 w \mathbf{w} w 是由训练样本的一个加权和给出的,而权重就是拉格朗日乘子 α i \alpha_i αi。
- 当 α i = 0 \alpha_i = 0 αi=0 时,对应的样本点 x i \mathbf{x}_i xi 对决策超平面没有贡献。
- 当 α i > 0 \alpha_i > 0 αi>0 时,对应的样本点 x i \mathbf{x}_i xi 是支持向量,这些点对决策超平面的构造起到关键作用。
4. 公式 9-18 在 SVM 中的作用
- 法向量的确定:通过公式 9-18,法向量 w \mathbf{w} w 被表示为支持向量的线性组合。拉格朗日乘子 α i \alpha_i αi 的大小决定了每个支持向量对决策超平面的影响。
- 支持向量的定义:只有那些 α i > 0 \alpha_i > 0 αi>0 的样本点对超平面有贡献,称为支持向量。其余样本点对超平面的定义没有影响(即 α i = 0 \alpha_i = 0 αi=0 的样本点不会影响超平面的构造)。
5. 后续步骤
在求出 w \mathbf{w} w 的表达式后,接下来的步骤是对 b b b 求偏导数(见公式 9-19)并结合这两步的结果求解 α \alpha α。公式 9-18 为最终求解拉格朗日对偶问题奠定了基础。
总结
公式 9-18 是通过对拉格朗日函数 L ( w , b , α ) L(\mathbf{w}, b, \alpha) L(w,b,α) 对 w \mathbf{w} w 求偏导数并令其等于零,得到的一个极值条件。它表明法向量 w \mathbf{w} w 是由支持向量的线性组合构成的。这一步骤是求解支持向量机优化问题的关键步骤之一。