一起对话式学习-机器学习02——机器学习方法三要素
【一】核方法
首先补充一下核方法,这应是机器学习分类中的内容。
什么是核方法呢?听起来很高级,但理解很简单:
官方定义:核方法是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和非监督学习。
理解:在分类问题中很多情况下并不能用线性(二维中是一条线,三维则是一个平面,当然还有更高维)去划分,而是非线性的。核方法则可以利用核函数将输入映射到一个特征空间中,使其映射后的样本点变得可分。
如我们常见的几种模型:核函数支持向量机、核PCA、核K-means等。
【二】 机器学习方法三要素
机器学习方法=模型+策略+算法
可以理解为:机器学习模型在一定优化策略下使用相应求解算法来达到最优化目标。
1.模型
这里只介绍监督学习的两种:决策函数与条件概率分布,即非概率模型与概率模型。
给出二者形式就明了了:
这是一个决策函数,就是我们平时的一个x关于y的函数,给定x,如果已知全部参数,则模型确定输出y。当然,在模型中,这样的函数很可能不止一个,而是一个集合,自变量x可能也有很多,关系可能错综复杂。
这是一个条件概率分布,就是我们平时的概率密度函数,在已知X的情况下,确定Y的相应概率分布,只不过要注意,这个分布通常由参数决定,具体可以参照01贝叶斯学习 。同样,在模型中,这样的函数很可能不止一个,而是一个集合。
2.策略
所谓策略就是以什么准则进行学习以及选取最优模型。
我们给出损失函数与风险函数:
有以下几种损失函数:
(图片来自 此,侵删)
就是在训练完后进行测试时,用来度量预测结果和真实值之间的差异。还有其他更复杂的损失函数,具体模型最优选取不同。
接下是风险函数,很简单,就是损失函数的期望,模型平均意义下的损失。
其中,模型关于训练集的平均损失称为经验风险或经验损失。根据大数定律,当数据集样本数量N趋于无穷,经验风险就是期望风险,所以我们可以用训练集下的经验风险来代替所有数据下的期望风险。
为什么不能直接计算期望风险呢?因为你不可能知道每次实例X下的输出Y,不然什么都知道还预测什么?
但是我们知道,用样本代替总体(大数定律) 的思想很好,但总归是有误差,所以仅仅依靠经验风险来评估是不科学的,为此,我们提出结构风险:
可以看到,其实就是将经验期望后加了一项,这项称之为正则化项或惩罚项,为的就是防止过拟合(由于模型捕捉了训练集上的过多细节导致的模型过于复杂化)。其中系数决定了惩罚力度。
所以,我们最终要做的就是将经验风险最小化与结构风险最小化。
3.算法
经过模型和策略的选定,实际上机器学习问题到这里就变成了最优化问题——求解经验风险最小化与结构风险最小化。
这部分可以阅读最优化问题的相关书籍或观看视频深入了解。