人工智能学习--分类模型的训练和应用
模型构建到使用的过程:
1.数据预处理 ===>提高模型性能和准确性
- 数据清洗 ====>删除多余的列,提高数据质量
- 数据标注 ====>打标签,增强模型的准确性和鲁棒性
- 缺失值处理 ====>提高数据质量
- 特征提取 ====>减少数据维度
- 稳态数据筛选 ====>减少数据波动,增强模型的稳定性
- 标准化、归一化 ====>标准化数据格式
2.划分特征和标签
3.标签编码
4.训练集和测试集的划分
5.构建模型
6.训练模型
7.保存模型
- 保存算法模型
- 保存编码器
如果在训练时使用了 LabelEncoder
对标签进行了编码,那么您需要保存并重新加载同样的 LabelEncoder
,以保证预测的结果能正确解码。
- 保存标准器
在预处理新数据时使用和训练数据一致的 StandardScaler
,而不是重新创建 StandardScaler
实例。
8.模型评估
评估参数
-
准确率(Accuracy)
- 定义:模型预测正确的样本数量占总样本数的比例。
- 适用场景:适用于数据平衡的分类问题。
-
精确率(Precision)
- 定义:预测为正类的样本中,实际为正类的比例。
- 适用场景:在假阳性(FP)代价较高的场景,如垃圾邮件检测。
-
召回率(Recall)
- 定义:实际为正类的样本中,模型预测为正类的比例。
- 适用场景:在假阴性(FN)代价较高的场景,如疾病筛查。
-
F1分数(F1 Score)
- 定义:精确率和召回率的调和平均值,用于综合评估模型的分类性能。
- 适用场景:适合样本不平衡的场景,尤其是需要平衡精确率和召回率的情况。
-
ROC曲线与AUC值
- ROC曲线:绘制模型在不同阈值下的真阳性率和假阳性率的关系图。
- AUC值:ROC曲线下的面积,用于评估模型的分类能力。
- 适用场景:二分类任务,尤其是样本不平衡时。
-
混淆矩阵(Confusion Matrix)
- 定义:显示预测结果和真实结果的矩阵,包含TP、FP、TN、FN四个值。
- 适用场景:用于详细分析分类模型的错误类型。
-
Kappa系数
- 定义:用于评估分类模型预测的精确性和随机猜测结果之间的差异。
- 适用场景:适用于多分类任务。
评估内容
- 总体对训练集和测试集做评估
- 分别对训练集和测试集不同的标签类型的数据做评估
9.应用模型
- 数据预处理(预处理器的使用)
- 加载模型
- 加载编码器
- 加载标准器
- 使用模型进行预测
未完待续~~~