当前位置: 首页 > article >正文

分类问题常用评估指标

目录

一、二分类

1、准确率( Accuracy) 

2、精确率( Precision)

3、召回率 (Recall)

4、F1-Score

5、ROC 曲线

二、多分类

1、准确率( Accuracy) 

2、精确率( Precision)and  召回率 (Recall)

3、F1-Score

4、混淆矩阵


一、二分类

对于二分类问题, 它的样本只有正样本和负样本两类。 以垃圾邮件分类为例,正样本是垃圾邮件, 负样本是正常邮件。

TP(True Positive):正样本被分类器判定为正样本的数量
FN(False Negative):正样本被判定为负样本

TN(True Negative):负样本被分类器判定为负样本的数量
FP( False Positive):负样本被判定为正样本的数量

1、准确率( Accuracy) 

准确率就是模型预测正确的样本数量占总样本数量的比例。

缺点:但是对于数据集不平衡的情况, 准确率就不具有代表性了。 比如: 有的类别样本多, 有的类别样本占比小。 若样本多的类别识别率很高, 样本少的类别都识别错误, 此时用准确率来评估模型的好坏显然不是很好的选择。

2、精确率( Precision)

被分类器判定为正样本的样本中真正的正样本所占的比例

3、召回率 (Recall)

所有正样本中被分类器判定为正样本的比例

4、F1-Score

精确率( P) 与召回率( R) 的调和平均

Precision 和 Recall 是一对相互矛盾的量, 当 P 高时, R 往往相对较低,当 R 高时, P 往往相对较低, 所以为了更好的评价分类器的性能, 一般使用F1-Score 作为评价标准来衡量分类器的综合性能。

5、ROC 曲线

真阳率TPR即为召回率,假阳率FPR即为精确率

FPR 作为横坐标, TPR 作为纵坐标得到 ROC 曲线。 当假阳率增加时真阳率也会增加, 因此, 它是一条向上增长的曲线。 一个好的分类器应该保证真阳率高而假阳率低, 所以 ROC 曲线越靠近左上角, 该分类器的性能越好。
 

二、多分类

1、准确率( Accuracy) 

同上

2、精确率( Precision)and  召回率 (Recall)

需要分别计算每个类别的精确率和召回率,以及它们的平均值。

3、F1-Score

同样需要分别计算每个类别的 F1 分数, 及其平均值

4、混淆矩阵

对于 k 分类问题, 混淆矩阵为 k× k 的矩阵, 它的元素 c_{ij} 表示第 i 类样本被分类器判定为第 j 类的数量。 如果所有样本都被正确分类, 则该矩阵为对角阵, 因此, 对角线上的值越大, 分类器的准确率越高。
 


http://www.kler.cn/a/504683.html

相关文章:

  • MYSQL5.7 全文检索中文无返回数据
  • CAPL如何设置TCP/IP传输层动态端口范围
  • 分布式缓存redis
  • 【容器逃逸实践】挂载/dev方法
  • 服务器数据恢复—EMC存储POOL中数据卷被删除的数据恢复案例
  • unity打包sdk热更新笔记
  • 小程序如何引入腾讯位置服务
  • 思科—网络安全笔记
  • 异常:o.s.web.servlet.PageNotFound : No mapping for GET
  • 蓝桥杯第二天学习笔记
  • 使用PWM生成模式驱动BLDC三相无刷直流电机
  • LabVIEW滤波器功能
  • Multi-Agent如何设计
  • 【0x003A】HCI_Write_Current_IAC_LAP命令详解
  • 前端Vue框架——npm ci与npm install的区别以及package-lock.json文件与package.json的区别
  • 【gin】中间件使用之jwt身份认证和Cors跨域,go案例
  • 【scala】含有list子集的递归方法记录层数深度
  • 算法分析与设计之贪心算法
  • 基于pysptools实现端元提取及无监督光谱分类
  • Flink (五) :DataStream API (二)
  • 将内部部署系统的端口暴露给外部访问,并且仅允许指定 IP 的服务器访问该端口
  • 线上资源访问本地数据-跨域问题总结
  • 在eNSp上telnet一下吧
  • ubuntu下安装Mysql 以及3306端口被占用解决方法
  • Kibana操作ES基础
  • 学习AI大模型的小白入门建议和具体的学习方法推荐