统计学习模型相关知识简记
一、概念
1、定义
在监督学习过程中, 模型就是所要学习的条件概率分布或决策函数。
2、假设空间
模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数。
假设空间中的模型一般有无穷多个。
3、假设空间与决策函数
假设空间用F表示。 假设空间可以定义为决策函数的集合,通常是由一个参数向量决定的函数族
4、假设空间与条件概率
假设空间也可以定义为条件概率的集合,这时F通常是由一个参数向量决定的条件概率分布族
5、模型划分
简便起见,有时称由决策函数表示的模型为非概率模型, 由条件概率表示的模型为概率模型。
二、概率模型与非概率模型
1、概率模型和非概率模型
统计学习的模型可以分为概率模型(probabilistic model)和非概率模型(non-probabilistic model)或者确定性模型(deterministic model)
2、示例
决策树、 朴素贝叶斯、 隐马尔可夫模型、 条件随机场、 概率潜在语义分析、 潜在狄利克雷分配、 高斯混合模型是概率模型。
感知机、 支持向量机、 k近邻、 AdaBoost. k均值、 潜在语义分析, 以及神经网络是非概率模型。
逻辑斯谛回归既可看作是概率模型, 又可看作是非概率模型。
3、形式
在监督学习中, 概率模型取条件概率分布形式P(y|x),非概率模型取函数形式y = f(x),其中x是输入, y是输出。
在无监督学习中, 概率模型取条件概率分布形式P(z|x)或P(x|z),非概率模型取函数形式z = g(x),其中x是输入, z是输出。
4、生成模型与判别模型
在监督学习中, 概率模型是生成模型, 非概率模型是判别模型。
概率模型表示了给定输入x产生输出y的生成关系,所以称为生成模型。
判别模型关心的是对给定的输入X,应该预测什么样的输出Y。
5、关联与转化
条件概率分布P(y|x)和函数g = f(x)可以相互转化(条件概率分布P(z|x)和函数z = g(x)同样可以)。
具体地, 条件概率分布最大化后得到函数, 函数归一化后得到条件概率分布。
所以, 概率模型和非概率模型的区别不在于输入与输出之间的映射关系, 而在于模型的内在结构。
概率模型一定可以表示为联合概率分布的形式, 其中的变量表示输入、 输出、 隐变量甚至参数。
而针对非概率模型则不一定存在这样的联合概率分布。
6、概率图模型
概率模型的代表是概率图模型(probabilistic graphical model),概率图模型是联合概率分布由有向图或者无向图表示的概率模型, 而联合概率分布可以根据图的结构分解为因子乘积的形式。
贝叶斯网络、 马尔可夫随机场、 条件随机场是概率图模型。
三、线性模型与非线性模型
统计学习模型, 特别是非概率模型, 可以分为线性模型(linear model)和非线性模型(non-linear model)
1、定义
如果函数y = f(x)或z = g(x)是线性函数, 则称模型是线性模型, 否则称模型是非线性模型。
2、示例
感知机、 线性支持向量机、 k近邻、 k均值、 潜在语义分析是线性模型。
核函数支持向量机、 AdaBoost、神经网络是非线性模型
深度学习(deep learning)是复杂神经网络的学习, 也是复杂的非线性模型的学习
3、参数化与非参数化
统计学习模型又可以分为参数化模型(parametric model)和非参数化模型(nonparametric model)
参数化模型假设模型参数的维度固定, 模型可以由有限维参数完全刻画;
非参数化模型假设模型参数的维度不固定或者说无穷大, 随着训练数据量的增加而不断增大
4、示例
感知机、 朴素贝叶斯、 逻辑斯谛回归、 k均值、 高斯混合模型是参数化模型。
决策树、 支持向量机、 AdaBoost、k近邻、 潜在语义分析、 概率潜在语义分析、潜在狄利克雷分配是非参数化模型
5、特点
参数化模型适合问题简单的情况,
现实中问题往往比较复杂, 非参数化模型更加有效