数据挖掘——朴素贝叶斯分类
数据挖掘——朴素贝叶斯分类
- 朴素贝叶斯分类
- 极大后验假设
- 独立性假设
- 贝叶斯分类器总结
朴素贝叶斯分类
什么是分类?
- 找出描述和区分数据类或概念的模型,以便能够使用模型预测未知的对象的类标号
概念区分
- 分类与回归
- 分类是预测分类(离散、无序)标号
- 回归建立连续值函数模型
分类与聚类
- 分类是有监督学习,提供了训练元组的类标号
- 聚类是无监督学习,不依赖有类标号的训练实例
极大后验假设
-
极大后验假设定义:学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(Maximumaposteriori:MAP)
-
确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下:
h M A P = max h ∈ H P ( h ∣ D ) = max h ∈ H P ( D ∣ h ) P ( h ) / P ( D ) = max h ∈ H P ( D ∣ h ) P ( h ) h_{M A P}=\max _{h \in H} P(h \mid D) =\max _{h \in H} \mathrm{P}(D \mid h) \mathrm{P}(h) / P(D)=\max _{h \in H} \mathrm{P}(D \mid h) \mathbf{P}(\mathrm{h}) hMAP=h∈HmaxP(h∣D)=h∈HmaxP(D∣h)P(h)/P(D)=h∈HmaxP(D∣h)P(h)
计算 P < a 1 , a 2 , … , a n > ∣ h ) P<a_1,a_2,…,a_n > | ℎ) P<a1,a2,…,an>∣h) 时,当维度过高时,可用数据变得很稀疏,难以获得结果。
独立性假设
假设D的属性𝐚𝐢之间相互独立
优点
- 获得估计的 P ( a i ∣ h ) P(a_i | h ) P(ai∣h)比 P ( < a 1 , a 2 , … , a n > ∣ h ) P(<a_1,a_2,…,a_n > | h ) P(<a1,a2,…,an>∣h)容易很多
- 如果D的属性之间不满足相互独立,朴素贝叶斯分类的结果是贝叶斯分类的近似
贝叶斯分类器总结
本质上是同时考虑了先验概率和似然概率的重要性
特点
- 属性可以离散、也可以连续
- 数学基础坚实、分类效率稳定
- 对缺失和噪声数据不太敏感
- 属性如果不相关,分类效果很好