机器学习常用评估Metric(ACC、AUC、ROC)
一、混淆矩阵
基于样本预测值和真实值是否相符,可得到4种结果:
TP(True Positive):样本预测值与真实值相符且均为正,即真阳性
FP(False Positive):样本预测值为正而真实值为负,即假阳性
FN(False Negative):样本预测值为负而真实值为正,即假阴性
TN(True Negative):样本预测值与真实值相符且均为负,即真阴性
总结:第一个字母代表预测值与真实值是否相符(True/False)
第二个字母代表预测值是正还是负(Positive/Negative)
二、Metric
0. TPR(Recall)、FPR
-
TPR:真阳性率,也称为灵敏度(Sensitivity)或召回率(Recall),表示的是在所有真实为正的样本中,被正确预测为正的比例。其计算公式为:
-
FPR:假阳性率,表示在所有真实为负的样本中,被错误预测为正的比例。其计算公式为:
1. ACC(准确率)
ACC即为预测正确(预测值与真实值相符)的概率。
2. Precision(精确率)
精确度:以预测结果为判断依据,预测为正例的样本中预测正确的比例。
精确度还有一个名字,叫做“查准率”,我们关心的主要部分是正例,所以查准率就是相对正例的预测结果而言,正例预测的准确度。直白的意思就是模型预测为正例的样本中,其中真正的正例占预测为正例样本的比例,用此标准来评估预测正例的准确度。
3. F1 值
F1值就是中和了精确率Precision和召回率Recall的指标:
4. ROC
ROC 曲线,用于评价二分类模型性能。它通过显示真阳性率TPR与假阳性率FPR之间的权衡来帮助我们理解模型的分类能力。
绘制 ROC 曲线的步骤:
-
选择阈值:从 0 到 1 的不同阈值。
-
计算 TPR 和 FPR:对于每个阈值,计算相应的 TPR 和 FPR。
-
绘制曲线:以 FPR 为横轴,TPR 为纵轴,绘制 ROC 曲线。
5. AUC
AUC,即曲线下面积(Area Under Curve),是ROC曲线下面积的一个数值表示。它提供了一个定量的指标,用来衡量分类模型的整体表现。AUC 值范围从 0 到 1,值越大表示模型性能越好。
三、参考
一文彻底理解机器学习 ROC-AUC 指标-CSDN博客