机器学习之留出法中的分层采样和多次切分
留出法(Hold-out Method) 本身是数据划分的一种方式,将数据集分为训练集和测试集。为了提升留出法的评估效果,常常结合分层采样和多次切分等技术。以下是详细说明这些方法如何增强留出法的效果。
1. 留出法(Hold-out Method)
留出法是将数据集划分为训练集和测试集的一种方法,通常的比例是:
- 80% 的数据用于训练模型。
- 20% 的数据用于评估模型。
该方法简单、直观,但它的局限性是评估结果依赖于单次数据划分,可能导致过度依赖划分的方式而产生不稳定的评估结果。
2. 留出法中的分层采样(Stratified Sampling)
分层采样 是指在划分数据集时,按照数据集中的类别分布(特别适用于分类问题)进行分层。每个类别都按比例被抽取到训练集和测试集当中,以确保每个类别在训练集和测试集中的分布尽量接近原始数据集。