当前位置：首页 > article >正文

线性可分支持向量机的原理推导线性分隔超平面关于任意样本点 (x_i,y_i)的几何间隔公式解析

article 2024/10/24 1:05:26

本文是将文章《线性可分支持向量机的原理推导》中的公式单独拿出来做一个详细的解析，便于初学者更好的理解。

公式 9-3 进一步明确了如何计算分类间隔的大小，公式形式如下：
$d_i = y_i \frac{\mathbf{w}^T \mathbf{x}_i + b}{\|\mathbf{w}\|}$

公式 9-3 表达的是样本点 $(\mathbf{x}_i, y_i)$ 到超平面的距离 $d_i$ ，具体地说，它给出了没有符号的距离，也就是样本点到分类超平面的几何间隔。几何间隔与之前公式 9-1 提到的带符号的距离不同，它只关注点到平面的绝对距离，不关心分类的正负方向。

公式 9-3 是如何从之前的带符号距离（公式 9-1）推导出来的呢？

我们在公式 9-1 中定义了样本点的带符号距离：
$d_i = y_i (\mathbf{w}^T \mathbf{x}_i + b)$

这个公式定义了样本点 $\mathbf{x}_i$ 在分类函数中的值 $\mathbf{w}^T \mathbf{x}_i + b$ ，并通过 $y_i$ 来确保该距离的符号符合样本点的真实分类。

在公式 9-3 中，我们希望得到几何间隔，也就是样本点到超平面的实际物理距离。要做到这一点，我们需要考虑分类超平面的法向量的大小。

几何间隔的公式为：
$d_i = \frac{| \mathbf{w}^T \mathbf{x}_i + b |}{\|\mathbf{w}\|}$

该公式表示距离是超平面法向量 $\mathbf{w}$ 投影到样本点 $\mathbf{x}_i$ 上的值，然后用法向量的大小 $\|\mathbf{w}\|$ 进行归一化。

为什么要归一化？：因为 $\mathbf{w}$ 可以通过缩放变大或变小，而几何间隔应该与 $\mathbf{w}$ 的缩放无关。通过除以 $\|\mathbf{w}\|$ ，我们消除了法向量的影响，使得这个公式只表示到超平面的实际距离。

通过加入 $y_i$ ，公式 9-3 确保了几何间隔的符号（用于分类方向一致性），并且引入了超平面的法向量归一化，得到了真实的几何间隔。

公式 9-3 明确了一个关键点：几何间隔是带符号的距离除以超平面法向量的大小。它揭示了样本点与超平面之间的实际物理距离，反映了分类的置信度。

几何间隔越大，意味着样本点离超平面越远，分类的置信度也就越高。因此，支持向量机的核心思想之一就是最大化最小几何间隔，确保最难分类的样本（即支持向量）与超平面有足够大的距离。

$d_i = y_i \frac{\mathbf{w}^T \mathbf{x}_i + b}{\|\mathbf{w}\|}$

这个公式表明：

几何间隔不仅与样本点的位置相关（通过 $\mathbf{x}_i$ 和 $b$ ），还与超平面的法向量大小 $\|\mathbf{w}\|$ 有关。
如果我们不除以 $\|\mathbf{w}\|$ ，那么法向量的缩放会直接影响带符号距离，使得距离不能准确反映样本与超平面之间的真实物理距离。因此，通过除以 $\|\mathbf{w}\|$ 进行归一化，我们可以得到一个真正代表物理距离的几何间隔。