机器学习 第11章 特征选择与稀疏学习
目录
- 子集搜索与评价
- 过滤式选择
- 包裹式选择
- 嵌入式选择与L1正则化
- 稀疏表示与字典学习
- 压缩感知
子集搜索与评价
对当前学习任务有用的属性称为"相关特征"、没什么用的属性称为"无关特征" 。 从给定的特征集合中选择出相关特征子集的过程,称为"特征选择"。在现实机器学习任务中,获得数据之后通常先进行特征选择,此后再训练学习器。
欲从初始的特征集合中选取一个包含了所有重要信息的特征子集,这包括两个重要环节:子集搜索和子集评价
子集搜索是指如何根据评价结果获取下一个候选特征子集;子集评价则是指如何评价候选特征子集的好坏。
子集搜索:一种常见的方法是通过逐步迭代的方式,每次迭代根据上一次的结果来调整候选集,直到无法找到更好的子集为止。例如,可以开始时选择一个特征,然后逐步增加(前向搜索)或减少特征(后向搜索),直到达到最优子集。
子集评价:评价候选特征子集的好坏通常使用某种评价准则。这些准则可能包括信息增益、互信息、AIC等。
过滤式选择
过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。相当于先过滤初始特征,再拿这些特征来训练模型。
Relief是一种著名的过滤式特征选择方法,该方法设计了一个"相关统计量"来度量特征的重要性。该统计量是一个向量,其每个分量分别对应于一个初始特征,而特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定。
显然, Relief 的关键是如何确定相关统计量.给定训练集
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
.
.
.
(
x
m
,
y
m
)
}
\left \{ \left ( x_{1},y_{1}\right ),\left ( x_{2},y_{2} \right ) ...\left ( x_{m},y_{m} \right ) \right \}
{(x1,y1),(x2,y2)...(xm,ym)},对每个示例
x
i
x_{i}
xi,Relief 先在
x
i
x_{i}
xi的同类样本中寻找其最近邻
x
i
,
n
h
x_{i,nh}
xi,nh,称为"猜中近邻",再从
x
i
x_{i}
xi的异类样本中寻找其最近邻
x
i
,
n
m
x_{i,nm}
xi,nm,称为"猜错近邻",然后,相关统计量对应于属性j的分量为
δ
j
=
∑
i
−
diff
(
x
i
j
,
x
i
,
n
h
j
)
2
+
diff
(
x
i
j
,
x
i
,
n
m
j
)
2
\delta^{j}=\sum_{i}-\operatorname{diff}\left(x_{i}^{j}, x_{i, \mathrm{nh}}^{j}\right)^{2}+\operatorname{diff}\left(x_{i}^{j}, x_{i, \mathrm{~nm}}^{j}\right)^{2}
δj=i∑−diff(xij,xi,nhj)2+diff(xij,xi, nmj)2
总之,过滤式特征选择不考虑后续学习器的具体实现,它独立于学习算法,主要基于特征与目标之间的相关性来选择特征。例如,可以通过计算每个特征与目标变量之间的相关性得分来选择特征。
包裹式选择
与过滤式特征选择不考虑后续学习器不同,包裹式特征选择直接把最终将要使用的学习器的性能作为特征于集的评价准则。这意味着选择出来的特征子集是专门为给定的学习器优化的。这种方式通常比过滤式选择更好,但计算成本更高。
LVW是一个典型的包裹式特征选择方法,算法描述如下所示
算法第 8 行是通过在数据集D上,使用交叉验证法来估计学习器
ε
\varepsilon
ε的误差,由于LVW算法中特征子集搜索采用了随机策略,而每次特征子集评价都需训练学习器,计算开销很大,因此算法设置了停止条件控制参数T。然而,整个LVW算法是基于拉斯维加斯方法框架,若初始特征数很多(即IAI 很大)、 T 设置较大,则算法可能运行很长时间都达不到停止条件。
嵌入式选择与L1正则化
嵌入式选择方法将特征选择过程与学习器训练过程融为一体,即在训练过程中自动进行特征选择。L1正则化是一种常用的嵌入式特征选择方法,通过引入L1范数作为正则化项,鼓励模型权重中的某些参数变为零,从而实现特征选择。L1正则化倾向于得到稀疏解,这意味着模型中的许多权重可能会被设置为零,从而实现了特征选择。
稀疏表示与字典学习
稀疏表示是一种数据表示方法,其中每个数据点都可以被表示为字典中几个元素的线性组合。字典学习是一种无监督学习技术,用于学习一个字典,使得数据能够被稀疏地表示为字典中基元的线性组合。这种表示有助于提高数据的可解释性和降低模型复杂度。
压缩感知
压缩感知是基于信号稀疏性的一种信号处理技术。它允许从远低于奈奎斯特采样率的数据中恢复完整的信号,前提是信号在某个域内是稀疏的。压缩感知的关键在于设计合适的测量矩阵并解决相应的优化问题,以从不完全信息中恢复信号。
与特征选择、稀疏表示不同,压缩感知关注的是如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号.通常认为,压缩感知分为"感知测量"和"重构恢复"这两个阶段。
"感知测量"关注如何对原始信号进行处理以获得稀疏样本表示,这方面的内容涉及傅里叶变换、小波变换以及之前介绍的字典学习、稀疏编码等,不少技术在压缩感知提出之前就己在信号处理等领域有很多研究;
"重构恢复"关注的是如何基于稀疏性从少量观测中恢复原信号,这是压缩感知的精髓,当我们谈到压缩感知时,通常是指该部分。