当前位置：首页 > article >正文

从0开始机器学习--Day27--主成分分析方法

article 2025/3/11 15:50:15

主成分分析方法(Principal components analysis)

在降维算法中，比较普遍的是使用主成分分析方法（PCA）

PCA算法简单示例

如图，假设我们有一个二维的特征，想要将其降为一维，简单的方法是寻找一条直线，图中选择的是过原点斜率为正的直线，可以观察到，每个样本点到直线之间的距离都很小，这就是PCA算法实现的结果，每个样本点到直线或低维平面的距离叫做投影误差，而PCA的目的简单来说就是寻找到一个投影平面，使得所有样本点的投影误差最小。

往往在实行PCA算法之前，我们会进行均值归一化和特征规范化处理，使的特征的均值为0，并使得其数据在可比较的范围内，有利于对预测结果的判断。一般来说我们会用 $u^{(i)}$

来表示那条直线也就是向量，但对于一般的问题来说，往往都是将n维的数据降为K维，以把三维数据降为二维为例，降维后我们会得到两个向量，这两个向量会组成一个平面，降维前的数据点就会投影到这上面，所以我们会得到一组K维的向量组。

注意，PCA在将二维降成一维的时候，拟合的向量有时会跟线性回归拟合直线很像，但实际上这是两个不同的东西，直观来讲就是前者是计算点到直线的距离，做的是垂线，特征之间没有区别；后者是直接取相同的x值并对y值作差，y是我们的预测目标，接下来我们来看PCA的具体实现过程。

首先，我们对数据进行预处理。先判断是否要进行特征缩放（如一个特征是房子的尺寸，另一个是卧室数量，此时我们就需要进行特征缩放，将其减去方差并除以偏差），接着进行归一化处理。这里的均值归一化是指在计算出均值后，与其作差并替代原本的样本点，这样新的样本点的均值就变成了0。

接下来，我们通过将协方差矩阵带入到SVD函数中来求的这些向量以及误差投影，协方差矩阵公式为： $\Sigma = \frac{1}{m}\sum_{i=1}^{m}{(x^{(i)})(x^{(i)})^{T}}$ ，经过SVD函数的计算后，首先会输出由向量组成的 $U = [u^{(1)},u^{(2)},u^{(3)},...,u^{(m)}]$ ，加入我们想降到K维，只需要取前K个向量即可，取得的向量重新组成 $U_{reduce}$ ，最终得到我们想要的降维矩阵 $z = (U_{reduce})^{T}X$ 。

而在PCA算法中，我们通过以下这个式子来判断，分母是样本点到原点的距离，分子是样本点的平均投影误差平方：

PCA算法的K值判断

我们一般会设置这个式子的值小于等于1%，意为保留了百分之九十九的方差，而在PCA算法中，挑选K值的过程就是循环计算每个K值，看哪个符合。当然，这个式子是为了方便我们理解他的含义，事实上，我们在运行SVD函数时，还会输出一个矩阵S，类似的，我们将K值带入进去，计算 $1-\frac{\sum_{i=1}^{k}{S_{ii}}}{\sum_{i=1}^{n}{S_{ii}}}$ ，只需要满足这个式子也小于等于1%即可，所以有时我们为了方便也会表示为 $\frac{\sum_{i=1}^{k}{S_{ii}}}{\sum_{i=1}^{n}{S_{ii}}}\geq 0.99$ 。