当前位置：首页 > article >正文

贝叶斯分类器（Naive Bayes）

article 2025/3/1 0:08:50

贝叶斯分类器（Naive Bayes）详解

贝叶斯分类器是一种基于贝叶斯定理的概率分类模型。它常用于文本分类（如垃圾邮件分类）等任务，依赖于条件概率推理来判断某个样本属于哪个类别。朴素贝叶斯分类器是贝叶斯分类器的一个简单而有效的变种，它假设特征之间相互独立，这一假设被称为“朴素假设”。

1. 贝叶斯定理回顾

贝叶斯定理描述了如何在给定一些证据的情况下计算事件的后验概率。其基本公式为：

$\frac{P(B|A) \cdot P(A)}{P(B)}$

$P (A ∣ B)$ ：给定事件 $B$ 发生的情况下，事件 $A$ 发生的条件概率（后验概率）。
$P (B ∣ A)$ ：给定事件 $A$ 发生的情况下，事件 $B$ 发生的条件概率（似然）。
$P (A)$ ：事件 $A$ 的先验概率。
$P (B)$ ：事件 $B$ 的边际概率。

2. 朴素贝叶斯分类器的基本思想

假设我们有一个输入样本 $(x_1, x_2, \dots, x_n)$ ，每个特征 $x_i$ 都是条件独立的（即给定类别 $C_k$ 时，各特征之间相互独立），可以使用贝叶斯定理计算样本属于某个类别 $C_k$ 的后验概率 $P(C_k | X)$ ：

$P(C_k | X) = \frac{P(X | C_k) \cdot P(C_k)}{P(X)}$

在朴素贝叶斯分类器中，特征的条件独立性假设将条件概率 $P(X | C_k)$ 表示为：

$C_k) = \prod_{i=1}^{n} P(x_i | C_k)$

因此，后验概率公式可简化为：

$P(C_k | X) = \frac{P(C_k) \cdot \prod_{i=1}^{n} P(x_i | C_k)}{P(X)}$

由于 $P (X)$ 对所有类别是相同的，因此可以忽略它，最终的分类规则为：

$\hat{C} = \arg\max_{C_k} P(C_k) \prod_{i=1}^{n} P(x_i | C_k)$

3. 训练朴素贝叶斯分类器

训练阶段需要计算以下两部分：

先验概率 $P(C_k)$ ：
$P(C_k) = \frac{\text{类别} C_k \text{的样本数}}{\text{总样本数}}$
条件概率 $P(x_i | C_k)$ ：
- 对于离散特征：
  $P(x_i | C_k) = \frac{\text{在类别} C_k \text{中，特征} x_i \text{的出现次数}}{\text{类别} C_k \text{的总样本数}}$
- 对于连续特征（假设其服从高斯分布）：
  $P(x_i | C_k) = \frac{1}{\sqrt{2 \pi \sigma_k^2}} \exp\left(-\frac{(x_i - \mu_k)^2}{2 \sigma_k^2}\right)$
  其中， $\mu_k$ 和 $\sigma_k$ 分别为特征 $x_i$ 在类别 $C_k$ 中的均值和标准差。

4. 预测新样本的类别

给定一个新样本 $(x'_1, x'_2, \dots, x'_n)$ ，需要计算每个类别的后验概率 $P(C_k | X')$ ，选择后验概率最大的类别作为预测结果：

$\hat{C} = \arg\max_{C_k} P(C_k) \prod_{i=1}^{n} P(x'_i | C_k)$

5. 优缺点

优点

简单高效：计算快速，适用于大规模数据集。
性能良好：在许多实际问题中表现优秀，尤其是文本分类任务。
适应性强：适用于高维特征数据。

缺点

特征独立性假设：假设不总是成立，可能限制模型性能。
对稀有特征敏感：如果某特征未在训练集中出现，其条件概率为零，可能导致预测失败（可通过拉普拉斯平滑解决）。

6. 代码实现示例

以下是使用 Python 和 scikit-learn 实现朴素贝叶斯分类器的代码：

from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
data = load_iris()
X = data.data
y = data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化朴素贝叶斯分类器
model = GaussianNB()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 计算准确率
print(f"Accuracy: {accuracy_score(y_test, y_pred):.2f}")