当前位置：首页 > article >正文

人工智能学习--分类模型的训练和应用

article 2025/2/23 6:22:39

模型构建到使用的过程：

如果在训练时使用了 LabelEncoder 对标签进行了编码，那么您需要保存并重新加载同样的 LabelEncoder，以保证预测的结果能正确解码。

在预处理新数据时使用和训练数据一致的 StandardScaler，而不是重新创建 StandardScaler 实例。

评估参数

准确率（Accuracy）
- 定义：模型预测正确的样本数量占总样本数的比例。
- 适用场景：适用于数据平衡的分类问题。
精确率（Precision）
- 定义：预测为正类的样本中，实际为正类的比例。
- 适用场景：在假阳性（FP）代价较高的场景，如垃圾邮件检测。
召回率（Recall）
- 定义：实际为正类的样本中，模型预测为正类的比例。
- 适用场景：在假阴性（FN）代价较高的场景，如疾病筛查。
F1分数（F1 Score）
- 定义：精确率和召回率的调和平均值，用于综合评估模型的分类性能。
- 适用场景：适合样本不平衡的场景，尤其是需要平衡精确率和召回率的情况。
ROC曲线与AUC值
- ROC曲线：绘制模型在不同阈值下的真阳性率和假阳性率的关系图。
- AUC值：ROC曲线下的面积，用于评估模型的分类能力。
- 适用场景：二分类任务，尤其是样本不平衡时。
混淆矩阵（Confusion Matrix）
- 定义：显示预测结果和真实结果的矩阵，包含TP、FP、TN、FN四个值。
- 适用场景：用于详细分析分类模型的错误类型。
Kappa系数
- 定义：用于评估分类模型预测的精确性和随机猜测结果之间的差异。
- 适用场景：适用于多分类任务。