当前位置：首页 > article >正文

支持向量机 (Support Vector Machines, SVM)

article 2025/3/11 0:22:03

支持向量机 (Support Vector Machines, SVM)

通俗易懂算法

支持向量机（SVM）是一种用于分类和回归任务的机器学习算法。在最简单的情况下，SVM是一种线性分类器，适用于二分类问题。它的基本思想是找到一个超平面（在二维空间中是直线，在高维空间中是平面）来将数据点分开。

核心思想

分类超平面：
- 在二维空间中，我们希望找到一条直线将两类数据点分开。对于三维空间，就是一个面；对于更高维空间，就是一个超平面。
- 这个分隔面的方程可以表示为： $w x + b = 0$ ，其中 $w$ 是权重向量， $b$ 是偏置。
最大化间隔：
- SVM的关键是不仅仅将数据点分开，而是要找到能最大化两类之间“间隔”（或“边界”）的超平面。这个间隔被称为“margin”。
- 理想情况下，SVM选择的超平面会距离最近的数据点（支持向量）最远。
支持向量：
- 那些离超平面最近的点被称为“支持向量”。它们是计算最大间隔的关键，因为它们决定了超平面的最终位置。

数学表达

我们希望找到能够最大化函数间隔的超平面。假设数据集线性可分，这可以通过以下优化问题实现：

$\begin{align*} \min_{w, b} & \quad \frac{1}{2} \|w\|^2 \\ \text{s.t.} & \quad y_i(wx_i + b) \geq 1 \quad \forall i \end{align*}$

其中：

$w$ 是权重向量。
$b$ 是偏置。
$y_i$ 是数据点 $x_i$ 的标签，通常 $y_i \in \{-1, 1\}$ 。

此优化问题的目标是最小化向量 $w$ 的范数，同时保证所有数据点都在间隔之外。

核技巧

当数据集不是线性可分时，SVM可以通过“核技巧”来处理非线性分类问题。核技巧的核心是在较高维度空间中寻找线性分割面，而不需要显式地转换数据。

常用的核函数包括：

线性核： $K(x_i, x_j) = x_i \cdot x_j$
多项式核： $K(x_i, x_j) = (x_i \cdot x_j + c)^d$
高斯核（RBF核）： $K(x_i, x_j) = \exp(-\gamma \|x_i - x_j\|^2)$

总结

支持向量机是一种功能强大的分类算法，尤其在维度较高的数据集上表现良好。其关键优势在于：

能够处理高维空间。
通过核技巧，能够处理非线性分类任务。
对少量样本和稀疏数据较为有效。

理解SVM的核心，在于理解它是如何通过最大化间隔来实现分类以及如何利用支持向量来影响模型的最终决策。

底层原理

支持向量机（SVM）是一种用于分类和回归的监督学习模型。其核心思想是寻找一个最优的超平面，把不同类别的数据分开，同时最大化类别之间的间隔。以下是SVM的数学原理：

1. 问题定义

对于给定的训练数据集：
$\{(\mathbf{x}_i, y_i) \mid \mathbf{x}_i \in \mathbb{R}^n, y_i \in \{-1, 1\}, i = 1, 2, \ldots, m\}$

我们要找到一个超平面把数据分开。这个超平面可以表示为：
$\mathbf{w} \cdot \mathbf{x} + b = 0$

2. 几何间隔和函数间隔

函数间隔：
函数间隔是超平面对点 $(\mathbf{x}_i, y_i)$ 的这一形式的产品：
$\gamma_i = y_i (\mathbf{w} \cdot \mathbf{x}_i + b)$
几何间隔：
几何间隔通过归一化权重向量 $\mathbf{w}$ 来计算，定义为：
$\hat{\gamma}_i = \frac{\gamma_i}{||\mathbf{w}||} = \frac{y_i (\mathbf{w} \cdot \mathbf{x}_i + b)}{||\mathbf{w}||}$

对于SVM，我们希望最大化几何间隔。

3. 最优化问题

为了最大化间隔，SVM把最大化问题转化为以下约束的二次优化问题：
$\begin{align*} \min_{\mathbf{w}, b} \quad & \frac{1}{2} ||\mathbf{w}||^2 \\ \text{subject to} \quad & y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1, \quad \forall i \end{align*}$

4. 拉格朗日对偶问题

通过引入拉格朗日乘子 $\alpha_i \geq 0$ ，可以构建拉格朗日函数：
$L(\mathbf{w}, b, \alpha) = \frac{1}{2} ||\mathbf{w}||^2 - \sum_{i=1}^{m} \alpha_i [y_i(\mathbf{w} \cdot \mathbf{x}_i + b) - 1]$

通过对 $\mathbf{w}$ 和 $b$ 求导并设为零，可以得到对偶问题：
$\begin{align*} \max_{\alpha} \quad & \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j (\mathbf{x}_i \cdot \mathbf{x}_j) \\ \text{subject to} \quad & \sum_{i=1}^{m} \alpha_i y_i = 0, \\ & \alpha_i \geq 0, \quad \forall i \end{align*}$

5. 核函数方法

在高维空间中，数据很难线性分开；我们通过核函数引入非线性映射 $\phi(\mathbf{x})$ ，使问题在特征空间中线性可分。常用的核函数包括：

多项式核： $K(\mathbf{x}_i, \mathbf{x}_j) = (\mathbf{x}_i \cdot \mathbf{x}_j + c)^d$
高斯核（RBF核）： $K(\mathbf{x}_i, \mathbf{x}_j) = \exp\left(-\frac{||\mathbf{x}_i - \mathbf{x}_j||^2}{2\sigma^2}\right)$

通过这些核函数，SVM可以在高维空间中找到超平面对原数据进行分类。

6. 软间隔SVM

对于不可完全分的情况，引入松弛变量 $\xi_i$ 允许部分数据点越过分隔边界，最优化问题变成：
$\begin{align*} \min_{\mathbf{w}, b, \xi} \quad & \frac{1}{2} ||\mathbf{w}||^2 + C \sum_{i=1}^{m} \xi_i \\ \text{subject to} \quad & y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1 - \xi_i, \\ & \xi_i \geq 0, \quad \forall i \end{align*}$

这里的 $C$ 是一个超参数，用于控制间隔的宽度和违反间隔的惩罚之间的权衡。

以上是支持向量机的底层数学原理概述，通过这些方法，SVM能够有效地进行分类和回归。

常用面试考点

支持向量机（Support Vector Machines, SVM）是一种常用于分类任务的监督学习模型。SVM的主要目标是找到一个最佳超平面，将数据的不同类别分开。以下是SVM算法的主要概念和公式，从常用面试考点的角度进行讲解：

1. 基本概念

超平面: 在 $n$ 维空间中，一个超平面是一个 $(n - 1)$ 维的子空间，它可以用来分离数据。如在二维空间中，超平面是直线；在三维空间中，超平面是平面。
支持向量: 距离超平面最近的那些数据点，这些点决定了超平面的位置和方向。
间隔（Margin）: 支持向量到超平面的最小距离。SVM的目标是最大化这个间隔。