当前位置：首页 > article >正文

机器学习--稀疏学习

article 2025/2/22 16:48:08

前置知识：

通常学习一次模型的过程如下：我们普遍为了获取更好的模型效果，直接对原始数据学习，会造成过拟合、需要特征提取；

而若特征提取完后依旧有很多特征，还是会容易过拟合。这时候就需要特征降维和特征选择。

其中：

特征降维：相当于将高维数据映射到低维空间（会改变数据的表示，低维空间映射后的特征不容易解释）

特征选择：根据特征的重要权重，不会改变维度，单纯提取部分更合适的特征来使用。（是一种舍弃不重要特征）

特征：

有关特征：对学习任务有用的特征（保留）；

无关特征：对学习任务无用的特征（舍弃）；

特征选择目的：

1. 减轻特征灾难，2. 降低学习难度

特征选择的常用方法：

1. 前向搜索：先确定一个特征集合和最优子集，依次从特征集合中选出最优特征，将最优特征移入最优子集，迭代此过程直到当前特征不再优于上一轮最优子集结束。

2. 后向搜索：先将整个特征集合作为候选子集，依次去除不相关特征；直到当特征子集不再优于上轮子集结束。

3. 双向搜索：前向和后向结合；在每轮迭代中，一次选出最优和最差特征，将最优特征移入最优子集，最差特征从候选子集去掉。

子集评价

核心：属性子集的信息增益：

当我们不断的往最优子集追加特征时，我们需要不断的计算是否带来了信息增益：

例如：我们判断一个人成绩是否合格，当没有任何特征时，是最混乱的，我们无从猜测。（也就是Ent(D)信息熵值最大），当我们引入了他对这门课程的累计投入学习时长（特征）时，我们就有了一定的了解（降低了我们的混乱程度）。随着不断的引入其他特征，我们愈发的能更大概率的确认该学生是否成绩合格。

其中：D^v是特征子集，|D|是权重。Ent(D)是当前子集划分下的信息熵； Gain(A)是信息增益。v是特征子集对结果的划分集合；

特征选择

过滤式

过滤式方法是一种将特征选择与学习器训练相分离的特征选择技术。

1）、先将相关特征挑选出来;

2）、再使用选择出的数据子集来训练学习器。

选择--Relief算法：

为解决二分类问题

算法思想：

使用一个“相关统计量”来度量特征的重要性，该统计量是一个向量，其中每个分量代表着相应特征的重要性，因此我们最终可以根据这个统计量各个分量的大小来选择出合适的特征子集。

对于数据集中的每个样例xi，首先找出与xi同类别的最近邻与不同类别的最近邻，分别称为猜中近邻（near-hit）与猜错近邻（near-miss），接着便可以分别计算出相关统计量中的每个分量。对于j分量：

$\delta ^j = \sum _{i} -diff(x_i^j, x_{i,nh}^j)^2 +diff(x_i^j, x_{i,nm}^j)^2$

直观上理解：对于猜中近邻，两者j特征属性的距离越小越好，对于猜错近邻，j属性距离越大越好。更一般地，若xi为离散属性，diff取海明距离，即相同取0，不同取1；若xi为连续属性，则diff为曼哈顿距离，即取差的绝对值，Xa在属性j三的取值均规范化到[0,1],分别计算每个分量，最终取平均便得到了整个相关统计量。

迭代选取xi过程m次，根据 $\delta ^j$ 更新j权重，最后得到各特征的平均权重。特征值越大的分类能力越强。

算法特点：时间开销随采样次数以及原始数据特征线性增长，运行效率高。

Relief-F：多分类问题

对于j分量，新的计算公式如下：

$\delta ^j = \sum _i -diff(x_i^j, x_{i,nh}^j)^2 +\sum_{l\neq k} (pl \times diff(x_i^j, x_{i,l,nm}^j)^2 )$

其中pl表示第l类样本在数据集中所占的比例权重，易知两者的不同之处在于：标准Relief 只有一个猜错近邻，而Relief-F有多个猜错近邻。

Relief算法只是在数据集上采样计算，而不是针对整个训练集估计特征权重，属于是高效的过滤式特征选择算法。

包裹式选择

直接把最终将要学习的学习器的性能作为特征子集的评价准则。（将特征选择和模型训练融合）

包裹方法是一种为给定学习器选择最有利于其性能的特征子集（量身定做）。

比过滤式的特征选择效果更好。

LVW包裹式算法：拉斯维加斯框架下采用随机策略进行子集搜索，以最终很累起的误差为特征自己的评价准则；

	LVW拉斯维加斯方法	蒙特卡罗方法
算法思路	1. 随机产生特征子集； 2. 使用交叉验证推断当前子集误差 3. 多次循环，选择误差最小的子集作为最终子集。	1. 基于概率的方式，随机从特征池中选取一定数量特征 2. 训练模型，得到模型的性能 3. 选取新的随机特征，以获取最佳特征子集。
有时间限制下	可能给出也可能不给出解	一定有解
无时间限制下	有解	有解
解的特点	采样越多，越有机会得到最优解，有解必最优	采样越多，解越优，不一定得出最优解
算法特点	训练开销大	容易过拟合，训练开销大