当前位置: 首页 > article >正文

交叉验证以及scikit-learn实现

交叉验证

交叉验证既可以解决数据集的数据量不够大问题,也可以解决参数调优的问题。
主要有三种方式:

  • 简单交叉验证(HoldOut检验)、
  • k折交叉验证(k-fold交叉验证)、
  • 自助法。
    本文仅针对k折交叉验证做详细解释。

简单交叉验证

方法:将原始数据集随机划分成训练集和验证集两部分。比如说,将样本按照70%~30%的比例分成两部分,70%的样本用于训练模型;30%的样本用于模型验证。
缺点
(1)数据都只被所用了一次,没有被充分利用;
(2)在验证集上计算出来的最后的评估指标与原始分组有很大关系。
在这里插入图片描述

k折交叉验证

为了解决简单交叉验证的不足,提出k-fold交叉验证。

1、首先,将全部样本划分成k个大小相等的样本子集;
2、依次遍历这k个子集,每次把当前子集作为验证集,其余所有样本作为训练集,进行模型的训练和评估;
3、最后把k次评估指标的平均值作为最终的评估指标。在实际实验中,k通常取10.

举个例子:这里取k=10,如下图所示:
(1)先将原数据集分成10份
(2)每一将其中的一份作为测试集,剩下的9个(k-1)个作为训练集
此时训练集就变成了k * D(D表示每一份中包含的数据样本数)

在这里插入图片描述
(3)最后计算k次求得的分类率的平均值,作为该模型或者假设函数的真实分类率
在这里插入图片描述
交叉验证的方式,要简单于数学理解,而且具有说服性。需要谨记一点,当样本总数过大,若使用 留一法时间开销极大

具体API和参数介绍参考原文:
参考文章: https://blog.csdn.net/weixin_42211626/article/details/100064842


http://www.kler.cn/a/161141.html

相关文章:

  • Qt初识简单使用Qt
  • 【Linux】基础IO及文件描述符相关内容详细梳理
  • 苍穹外卖 数据可视化
  • 《硬件架构的艺术》笔记(一):亚稳态
  • layui 文件上传前检查文件大小,后面再点上传出现重复提交的问题
  • 【安全测试】sqlmap工具(sql注入)学习
  • axios创建实例对象,发送ajax请求,配置baseUrl
  • 2024 年前端技术发展大趋势一览
  • idea本地调试hadoop 遇到的几个问题
  • 【灰度发布】APP如何实现灰度发布
  • 网络运维与网络安全 学习笔记2023.12.3
  • 2023.12.7
  • Angular 由一个bug说起之三:为什么时不时出现额外的水平/垂直滚动条?怎样能更好的防止它的出现?
  • 配置应用程序监听器[org.springframework.web.context.ContextLoaderListener]错误
  • 简单实现Spring容器(一)
  • shell命令学习(1)——(待完善)
  • pycharm使用Anaconda中的虚拟环境【我的入门困惑二】
  • ros来保存图像和保存记录视频的方法---gmsl相机保存视频和图片
  • java--枚举
  • (十五)Flask覆写wsgi_app函数实现自定义中间件
  • 关于优雅的使用SQL多行转多列的记录(doris)
  • 如何使用phpStudy本地快速搭建网站并内网穿透远程访问
  • 如何使用内网穿透工具实现公网访问GeoServe Web管理界面
  • LeetCode刷题--- 计算布尔二叉树的值
  • 这些Java并发容器,你都了解吗?
  • 手写VUE后台管理系统7 - 整合Less样式