当前位置：首页 > article >正文

线性可分支持向量机的原理推导 9-18基于拉格朗日函数L(w,b,α) 对w求偏导公式解析

article 2024/10/26 17:45:24

本文是将文章《线性可分支持向量机的原理推导》中的公式单独拿出来做一个详细的解析，便于初学者更好的理解。

公式 9-18 是求解拉格朗日函数 $L(\mathbf{w}, b, \alpha)$ 时，对 $\mathbf{w}$ 进行偏导数并令其等于零的结果。这个步骤是为了找到拉格朗日函数 $L(\mathbf{w}, b, \alpha)$ 的极小值。公式 9-18 表达了偏导数的结果，并为后续优化提供了必要的条件。

公式 9-18 的具体形式

公式 9-18 的形式如下：
$\frac{\partial L}{\partial \mathbf{w}} = \mathbf{w} - \sum_{i=1}^{N} \alpha_i y_i \mathbf{x}_i = 0$

1. 公式 9-18 的含义

这个公式表示的是拉格朗日函数 $L(\mathbf{w}, b, \alpha)$ 对于 $\mathbf{w}$ 的偏导数，并令其等于 0。其目的是为了通过对拉格朗日函数的偏导数进行分析，找到使得 $L(\mathbf{w}, b, \alpha)$ 最小的 $\mathbf{w}$ 的值。

拉格朗日函数回顾

在公式 9-7 中，拉格朗日函数 $L(\mathbf{w}, b, \alpha)$ 表达为：
$L(\mathbf{w}, b, \alpha) = \frac{1}{2} \|\mathbf{w}\|^2 - \sum_{i=1}^{N} \alpha_i \left( y_i (\mathbf{w}^T \mathbf{x}_i + b) - 1 \right)$

这是支持向量机（SVM）优化问题中的目标函数，它结合了要最小化的函数和约束条件。通过引入拉格朗日乘子 $\alpha_i$ ，我们将约束条件融入优化过程。

2. 求偏导数

为了求解这个极小化问题，我们首先对 $\mathbf{w}$ 求偏导数。

$\frac{1}{2} \|\mathbf{w}\|^2$ ：这是 $\mathbf{w}$ 的二次项，偏导数为 $\mathbf{w}$ 。
约束项 $\sum_{i=1}^{N} \alpha_i y_i (\mathbf{w}^T \mathbf{x}_i + b)$ ：对 $\mathbf{w}$ 求导时，只有 $\mathbf{w}^T \mathbf{x}_i$ 这一项与 $\mathbf{w}$ 有关，偏导数为 $\alpha_i y_i \mathbf{x}_i$ 。

因此，对 $\mathbf{w}$ 求偏导数的结果为：
$\frac{\partial L}{\partial \mathbf{w}} = \mathbf{w} - \sum_{i=1}^{N} \alpha_i y_i \mathbf{x}_i$

3. 偏导数等于零的含义

为了找到极小值，必须令偏导数为零。这给出了解决 $\mathbf{w}$ 的方程：
$\mathbf{w} = \sum_{i=1}^{N} \alpha_i y_i \mathbf{x}_i$

这个方程表达了支持向量机中超平面的法向量 $\mathbf{w}$ 是通过一组拉格朗日乘子 $\alpha_i$ 、样本点 $\mathbf{x}_i$ 以及类别标签 $y_i$ 的线性组合构成的。换句话说，最优法向量 $\mathbf{w}$ 是由训练样本的一个加权和给出的，而权重就是拉格朗日乘子 $\alpha_i$ 。

当 $\alpha_i = 0$ 时，对应的样本点 $\mathbf{x}_i$ 对决策超平面没有贡献。
当 $\alpha_i > 0$ 时，对应的样本点 $\mathbf{x}_i$ 是支持向量，这些点对决策超平面的构造起到关键作用。

4. 公式 9-18 在 SVM 中的作用

法向量的确定：通过公式 9-18，法向量 $\mathbf{w}$ 被表示为支持向量的线性组合。拉格朗日乘子 $\alpha_i$ 的大小决定了每个支持向量对决策超平面的影响。
支持向量的定义：只有那些 $\alpha_i > 0$ 的样本点对超平面有贡献，称为支持向量。其余样本点对超平面的定义没有影响（即 $\alpha_i = 0$ 的样本点不会影响超平面的构造）。