当前位置：首页 > article >正文

深度学习速通系列:混淆矩阵是什么

article 2025/2/21 3:51:27

混淆矩阵（Confusion Matrix）是一种评估分类模型性能的工具，尤其在监督学习中用于分析分类结果。它通过一个矩阵的形式，将模型的预测结果与实际标签进行比较，从而可以清晰地看到模型在各个类别上的表现。以下是混淆矩阵的基本构成和相关指标：

混淆矩阵的基本构成：

对于二分类问题，混淆矩阵是一个 2x2 的矩阵，包含以下四个要素：

True Positives (TP)：模型正确预测为正类的样本数。
True Negatives (TN)：模型正确预测为负类的样本数。
False Positives (FP)：模型错误预测为正类的样本数（实际上是负类）。
False Negatives (FN)：模型错误预测为负类的样本数（实际上是正类）。

对于多分类问题，混淆矩阵是一个 NxN 的矩阵，其中 N 是类别的数量。矩阵中的每个元素 (i, j) 表示实际类别为 i 而被预测为类别 j 的样本数。

从混淆矩阵衍生的评估指标：

准确度（Accuracy）：模型正确预测的样本数占总样本数的比例。
$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$
精确率（Precision）：模型预测为正类中实际为正类的比例。
$\text{Precision} = \frac{TP}{TP + FP}$
召回率（Recall）或真正率（True Positive Rate, TPR）：所有实际正类中被正确预测为正类的比例。
$\text{Recall} = \frac{TP}{TP + FN}$
F1分数（F1-Score）：精确率和召回率的调和平均数，用于综合考虑精确率和召回率。
$\text{F1-Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$
特异性（Specificity）或真负率（True Negative Rate, TNR）：所有实际负类中被正确预测为负类的比例。
$\text{Specificity} = \frac{TN}{TN + FP}$

应用场景：

混淆矩阵广泛应用于机器学习、数据挖掘、模式识别等领域，特别是在分类问题中。它帮助我们理解模型在不同类别上的性能，特别是在处理数据不平衡的情况下，单一的准确度指标可能不足以全面评估模型性能。混淆矩阵能够揭示模型在预测正类和负类上的能力，从而指导我们进行模型优化和调整。

实现：

在Python中，可以使用scikit-learn库中的confusion_matrix函数来计算混淆矩阵，示例代码如下：

from sklearn.metrics import confusion_matrix
import numpy as np

# 假设 y_true 是真实标签，y_pred 是模型预测标签
y_true = np.array([1, 0, 1, 1, 0, 1, 0])
y_pred = np.array([1, 0, 1, 0, 0, 1, 1])

# 计算混淆矩阵
cm = confusion_matrix(y_true, y_pred)
print("Confusion Matrix:\n", cm)