当前位置：首页 > article >正文

【机器学习】SVM原理详解

article 2025/2/21 3:16:49

SVM支持向量机

1 概述

Support Vector Machine是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器

SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如下图所示， $w x + b = 0$ 即为分离超平面，对于线性可分的数据集来说，这样的超平面有无穷多个（即感知机），但是几何间隔最大的分离超平面却是唯一的。

在这里插入图片描述

2 推导

2.1 距离

正常三维条件下点 $x_0, y_0, z_0)$ 到平面 $A x + B y + C z + D = 0$ 的距离公式（高中知识）：
$\frac{\vert Ax_0 + By_0 + Cz_0 + D \vert}{\sqrt{A^2 + B^2 + C^2}}$
推导分析过程：

平面方程： $a x + b y + cz = d$ ，平面外一点 $P(x_0, y_0, z_0)$

在这里插入图片描述

PQ垂直平面，即为求PQ的长度，但不知Q点的具体数据。

故构造一个平面上的点 $P^{'}(x_1, y_1, z_1)$ ，问题即转化为求 $\overrightarrow {P^{'}P}$ 在法向量N上面的分量，即 $\overrightarrow {P^{'}P}$ 与N相同方向的单位向量的点积。

在这里插入图片描述

设距离为D。

在这里插入图片描述

现在考虑一般情况：

求平面外一点 $x$ 到平面 $w^T x + b = 0$ 的距离：

结论：平面 $A x + B y + C z + D = 0$ 的法向量为 $(A, B, C)$

在这里插入图片描述

同上述原理：

距离就为
$\vert \frac{w^T}{\vert \vert w \vert \vert}(x - x^{'}) \vert = \frac{1}{\vert \vert w \vert \vert} \vert w^Tx + b \vert$

上述公式进行了代入，将 $x^{'}$ 代入平面方程得 $w^Tx^{'} = -b$

2.2 数据

数据集： $x_1, y_1)(x_2, y_2)...(x_n, y_n)$

$Y$ 为样本的类别：当 $X$ 为正例时， $Y = + 1$ ，当 $X$ 为负例时， $Y = - 1$

决策方程： $w^T \Phi(x) + b$ （其中 $\Phi(x)$ 是对数据做了核变换，可以暂时理解为 $x$ ）
$\begin{cases} y(x_i) > 0 \Leftrightarrow y_i = +1 \\ y(x_i) < 0 \Leftrightarrow y_i = -1 \end{cases} \Longrightarrow y_i y(x_i) > 0$

2.3 目标函数求解

我们要求的就是找到一个线性划分（比如说直线），使得离该线最近的点最远。

将点到直线距离进行转化（化简）：
$\frac{y_i \cdot (w^T \cdot \Phi(x) + b)}{\vert \vert w \vert \vert}$

$y_i y(x_i) > 0$ 直接乘上 $y_i$ 将绝对值去掉， $y_i| = 1$ ，并不影响值大小

放缩变换：对于决策方程（w, b）可以通过放缩变换使其结果值 $\geq 1$ ，则
$y_i \cdot (w^T \cdot \Phi(x_i) + b) \geq 1$

缩放之前w和b有无数组解，缩放之后w和b只有一组解。

优化目标：
$\mathop{arg\ max} \limits_{w, b} \bigg\{ \frac{1}{||w||} \mathop{min} \limits_i \Big \{ y_i \cdot (w^T \cdot \Phi(x_i) + b)\Big \} \bigg\}$

$\mathop{min} \limits_i \Big \{ y_i \cdot (w^T \cdot \Phi(x_i) + b) \Big \}$ 是求所有样本点到平面的最小距离的那个点

$\mathop{argmax} \limits_{w,b}$ 是最大化到平面最小距离的点的距离，此时的w,b的值

由于 $y_i \cdot (w^T \cdot \Phi(x_i) + b) \geq 1$ ，故最小值为1，只需要考虑 $\mathop{arg\ max} \limits_{w, b} \frac{1}{||w||}$

当前目标变为： $\mathop{max} \limits_{w, b} \frac{1}{||w||}$ ，即求 $∣∣ w ∣∣$ 的最小值，但有约束条件 $y_i \cdot (w^T \cdot \Phi(x_i) + b) \geq 1$

将求极大值转化为求极小值的问题，求 $\frac{1}{2}||w||^2$ 的最小值。

需要使用拉格朗日乘子法：（此处不做证明，直接给出结论）
$\alpha) = \frac{1}{2}||w||^2 - \sum \limits_{i = 1}^n \alpha_i (y_i \cdot (w^T \cdot \Phi(x_i) + b) - 1)$

上式需要满足约束条件： $y_i \cdot (w^T \cdot \Phi(x_i) + b) \geq 1$

满足KKT条件的点未必是局部（全局）最优点（还可能是局部极大和鞍点），但局部（全局）最优点必然满足KKT条件。对于凸优化问题，满足KKT条件的解直接就是全局最优解
$\text{最优解的必要条件: } \begin{cases} \nabla L(\mathbf{x}, \lambda) = \nabla f(\mathbf{x}) + \lambda \nabla g(\mathbf{x}) = 0 \\ \lambda \ge 0 \\ \lambda g(\mathbf{x}) = 0 (\text{互补松弛})\\ g(\mathbf{x}) \le 0 (\text{原约束}) \end{cases}$

推导可参考：https://blog.csdn.net/v_july_v/article/details/7624837

原理可参考：https://zhuanlan.zhihu.com/p/31886934

在这里插入图片描述

3 SVM实例

有三个数据：3个点，正例 $x_1(3, 3), x_2(4, 3)$ ，负例 $x_3(1, 1)$ ，（数据是二维数据）对其进行二分类。

首先需要求解下式的最小值：
$\frac{1}{2}\sum \limits_{i = 1}^n \sum \limits _{j = 1}^n \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) - \sum \limits_{i = 1}^n\alpha_i \hspace{3em} (1)$

注意： $x_i \cdot x_j$ 的运算是点积运算。

约束条件：
$\alpha_1 + \alpha_2 - \alpha_3 = 0 \\ \alpha_i \geq 0, \hspace{2em} i = 1, 2, 3$

在这里插入图片描述

将对应的数据带入（1）式，得：
$\frac{1}{2} \Big( 18 \alpha_1^2 + 25\alpha_2^2 + 2 \alpha_3^2 + 42\alpha_1\alpha_2 - 12\alpha_1\alpha_3 - 14\alpha_2\alpha_3 \Big) - \alpha_1 - \alpha_2 - \alpha_3$
由于 $\alpha_1 + \alpha_2 = \alpha_3$ ，化简得：
$\alpha_1 ^ 2 + \frac{13}{2} \alpha_2^2 + 10\alpha_1\alpha_2 - 2\alpha_1 - 2\alpha_2$
分别对 $\alpha_1,\alpha_2$ 求偏导，偏导等于0得
$\begin{cases} \alpha_1 = 1.5 \\ \alpha_2 = -1 \end{cases}$
发现不满足约束条件 $\alpha_i \geq 0$ ，故解应在边界上。分别让两个值等于0求解
$\begin{cases} \alpha_1 = 0 \\ \alpha_2 = -\frac{2}{13} \end{cases} (\times) \\ \begin{cases} \alpha_1 = 0.25 \\ \alpha_2 = 0 \end{cases} (\checkmark)$
第一组解不满足，故最小值在 $(0.25, 0, 0.25)$ 处取得。

将 $\alpha$ 结果带求解 $\sum \limits_{i = 1}^n \alpha_i y_i \Phi(x_i)$ ， $\Phi(x_i)$ 以 $x_i$ 来代替
$\frac{1}{4} \times 1 \times (3,3) + \frac{1}{4} \times (-1) \times(1,1) = (\frac{1}{2}, \frac{1}{2}) \\ b = y_i - \sum \limits_{i = 1}^n a_i y_i (x_i x_j) = 1 - (\frac{1}{4} \times 1 \times 18 + \frac{1}{4} \times (-1) \times 6) = -2$
故平面方程为：
$0.5 x_1 + 0.5 x_2 - 2 = 0$