机器学习评价标准
机器学习作为算子引入工程,必然要有方法评价模型的有效性,通常从两个方面进行考虑:
- 从所用技术出发,看模型在所用技术下的性能,比如对于分类问题,不同分类模型采用交叉熵进行横向比较。
- 从泛化性出发,看模型面对未知新数据是否能表现良好,也就是是否发生欠拟合&过拟合。
- 从数据/业务逻辑出发,特别是样本不均衡问题,通常难以用某个单一指标进行比较,举例:在银行客户欺诈行为的检测系统中,存在欺诈行为的客户可能不到万分之一。那么,一个模型只要预测所有的客户都没有欺诈行为,这个模型的准确率就能达 99.999%,仅通过单一的准确率指标进行横向比较显然对其他模型不公平,该例可以采用f1score,AUC进行比较