当前位置: 首页 > article >正文

机器学习基础-贝叶斯分类器

目录

贝叶斯公式

极大似然估计

通俗理解什么是似然

生成式模型和判别式模型的概念

生成式模型 (Generative Models)

概念

计算思路

示例

判别式模型 (Discriminative Models)

概念

计算思路

示例

朴素贝叶斯分类器基本假设和计算

基本假设

计算

拉普拉斯修正


贝叶斯公式

  • 一种分类算法,根据概率来判断是哪个类别
  • 经常被用于文本分类
  • 输出结果是某个样本属于某个类别的概率

先验概率:根据以往的经验分析得到的概率,不需要样本数据,不受任何条件的影响。

后验概率:计算后验概率是朴素贝叶斯关键步骤

联合概率:P(A,B)几个事件同时发生的概率

相互独立:P(A,B)=P(A)*P(B)

贝叶斯公式描述了在给定条件下事件发生的后验概率。贝叶斯公式的一般形式如下:

朴素贝叶斯:假定特征之间相互独立的贝叶斯公式


极大似然估计

通俗理解什么是似然

基于已经确定的结果,来推测产生这个结果的可能环境,或环境中的某些参数。

例如抛硬币,以下是一个根据结果来判断事情本身性质的过程

已知观察结果是x的情况下推断sita

概率vs似然

极大似然估计:利用已知的样本标记结果,反推最有可能导致这些样本出现的模型参数

具体来说,MLE 试图找到一组参数值,使得观测数据的概率最大。


生成式模型和判别式模型的概念

生成式模型 (Generative Models)

概念
  • 目标学习特征 X 和标记 Y 的联合概率分布 P(X,Y)。
  • 应用理解数据的生成机制,并能用于生成新数据。
计算思路
  1. 学习先验概率 P(Y),即标记 Y 的分布。(最大似然估计)
  2. 学习条件概率 P(X∣Y),即在给定标记 Y 下特征 X 的分布。
  3. 得到联合概率分布 P(X,Y): P(X,Y)=P(Y)P(X∣Y) 。
  4. 计算后验概率 P(Y∣X),即给定特征 X 时标记 Y 出现的概率。(贝叶斯定理)
示例
  • 朴素贝叶斯(Naive Bayes)

判别式模型 (Discriminative Models)

概念
  • 目标直接学习条件概率分布P(Y∣X),即给定特征 X 时标记 Y 出现的概率。
  • 应用主要用于分类和回归任务,不关注数据的生成过程
计算思路
  • 直接从数据中学习决策边界或条件概率分布 P(Y∣X),而不需要了解 P(X) 或 P(Y)。
示例
  • 支持向量机(SVM)
  • 决策树(Decision Trees)
  • BP神经网络(Backpropagation Neural Networks)

朴素贝叶斯分类器基本假设和计算

基本假设

计算

① 估计类先验概率P(c):

② 为每个属性估计条件概率P(xi | c):

ps: 使用高斯分布来估计连续特征的条件概率

③ 计算后验概率

拉普拉斯修正

若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出 现问题,. 比如“敲声=清脆”测试例,训练集中没有该样例,因此连 乘式计算的概率值为0,无论其他属性上明显像好瓜,分类结果都是 “好瓜=否”,这显然不合理。

拉普拉斯修正通过向每个可能的特征值添加一个小的常数值来避免概率为零的问题。具体来说,它假设每个类别下的每个特征值至少出现了一次。这样可以确保即使某个特征值在训练集中从未出现过,其条件概率也不会为零。

假设我们有一个特征“敲声”,它可以取三个不同的值:“浊响”、“沉闷”和“清脆”。如果我们发现训练集中没有“好瓜”类别下“敲声=清脆”的样例,那么不使用拉普拉斯修正的情况下,P(清脆∣好瓜=是) 将为零。

使用拉普拉斯修正后,计算变为:

注意其他特征也要改变


http://www.kler.cn/a/487584.html

相关文章:

  • 基于vue的商城小程序的毕业设计与实现(源码及报告)
  • MySql根据经纬度查询距离
  • 加速科技荣获“浙江省企业研究院”认定
  • 接口测试-postman(使用postman测试接口笔记)
  • UI自动化测试保姆级教程--pytest详解(精简易懂)
  • 汇编实现函数调用
  • 第 3 章 HTML5 编程基础教案
  • 【Elasticsearch7.11】postman批量导入少量数据
  • Spring/SpringBoot 的 自动装配与自动配置
  • 如何操作github,gitee,gitcode三个git平台建立镜像仓库机制,这样便于维护项目只需要维护一个平台仓库地址的即可-优雅草央千澈
  • scala_【JVM】概述
  • Zabbix Api使用教程
  • 《零基础Go语言算法实战》【题目 1-16】字符串的遍历与比较
  • 微信小程序期末简答
  • vue+vite打包空白问题
  • Java 开发小技巧:使用 String.intern() 优化内存
  • antd-design-vue1.7.8浏览器中使用
  • P10424 [蓝桥杯 2024 省 B] 好数
  • 基于Springboot的景区民宿预约系统【附源码】
  • 理解Apache Spark中的宽窄依赖
  • LabVIEW瞬变电磁接收系统
  • Redis 优化秒杀(异步秒杀)
  • Debian source_list首次踩坑
  • 玩转 JMeter:Random Order Controller让测试“乱”出花样
  • WPF系列八:图形控件Path
  • GAN的应用