当前位置: 首页 > article >正文

一起对话式学习-机器学习03——模型评估与模型选择

【一】前言

        这一部分其实已在第二节中介绍到,这节起到回顾归纳的作用。

【二】训练误差与测试误差

        首先,在分类问题中,有误差率和准确率两个概念,二者和为1。

        误差率:分类错误的样本数占总数的比例。

        其次,在回归问题中,则有训练误差和测试误差两个概念,顾名思义不再多说,可详见02。而在未知新样本上也就是进行预测时产生的误差称为泛化误差,这是我们要追求使之最小化的,即预测最准确的。

【三】过拟合和模型选择

        已在02详细介绍过概念,指出几点:欠拟合较好克服,增加训练轮数,增加模型复杂性就好,而过拟合往往是机器学习面临的关键障碍且无法避免只能尽量缓解。

        与02所述一致,以测试误差可以作为泛化误差进行求解,但如果数据较少可以进行数据重利用:留出法、交叉验证法与自助法,之后会详细介绍。

        接下来举个拟合多项式函数的例子方便理解:

         如图M代表目标函数的项数,下面有公式辅助理解,四张图不变的那条曲线可以看作标准答案模型,当然我们在实际建模时几乎不可能做到完美,那看看第几个最好?不难看出是第三个,第四个明显过拟合,第一二个欠拟合。

        针对这个问题,实际求解的过程是怎样的?首先确定模型项数(基本形式)后,列出损失函数使用测试数据利用最小二乘法(因为设定未知参数幂次为1,所以是线性问题用最小二乘法)得出一组未知参数解,最后计算一下其训练误差。就这样对于每个项数/复杂度的模型皆如此得出下图:

         肯定要选二者都较低的复杂度,如何选择呢?其实02已经给出标准答案,可以用正则化与交叉验证。 


 Over!!! 



http://www.kler.cn/a/312954.html

相关文章:

  • HarmonyOS入门 : 获取网络数据,并渲染到界面上
  • 【C知道】CSS3重要特性。
  • Linux相关概念和易错知识点(19)(HDD、Block group)
  • 【网络安全】Nginx功能快速入门
  • Node.js 全栈开发进阶篇
  • 革命性AI搜索引擎!ChatGPT最新功能发布,无广告更智能!
  • Lingo求解器基本语法
  • 基于ExtendSim的 电子制造 仿真模型
  • mendelson AS2的使用和配置
  • ThreadLocal、InheritableThreadLocal、TransmittableThreadLocal 区别,使用场景 示例
  • 【busybox记录】【shell指令】kill
  • Idea开发Gradle多模块项目踩坑纪实之一:Java模块无法执行
  • 【sql】MySQL中去重处理的方法
  • SpringMVC 处理 Ajax 请求
  • 【204】C++的vector删除重复元素
  • Java 基础篇:环境搭建、基本语法与面向对象编程
  • 【JPCS出版】第二届应用统计、建模与先进算法国际学术会议(ASMA2024,9月27日-29)
  • 华为OD机试真题- MELON的难题-2024年OD统一考试(E卷)
  • Leetcode 416. 分割等和子集(Medium)
  • 【第34章】Spring Cloud之SkyWalking分布式日志
  • 程序人生-2024我的个人总结
  • VScode开发GD32移植(标准库通用),保姆级!!!!!!!
  • OCR两篇革命之作
  • C#区分值类型和引用类型【一文读懂】
  • 第十三周:机器学习笔记
  • 【开发语言】写程序的两大基本原则(PO和NT原则)