当前位置: 首页 > article >正文

05.KNN算法总结

KNN算法总结

1 k近邻算法优缺点汇总

  • 优点:
    • 简单有效
    • 重新训练的代价低
    • 适合类域交叉样本
      • KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
    • 适合样本容量比较大的类域自动分类
      • 该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分
样本量、样本个数与样本容量的关系举例
一个箱子最多能放50个苹果(样本),从中取样30个。
在这里,苹果是样本,箱子最多能放的个数(即苹果的总数)50是这个样本的样本(容)量,而所抽取的样本个数30则是样本量。

  • 缺点:
    • 惰性学习
      • KNN算法是懒散学习方法(lazy learning,基本上不学习),一些积极学习的算法要快很多
    • 类别评分不是规格化
      • 不像一些通过概率评分的分类
    • 输出可解释性不强
      • 例如决策树的输出可解释性就较强
    • 对不均衡的样本不擅长
      • 当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。可以采用权值的方法(和该样本距离小的邻居权值大)来改进。
    • 计算量较大
      • 目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。

http://www.kler.cn/a/518905.html

相关文章:

  • 2025年1月22日(什么是扫频)
  • MYSQL数据库 - 启动与连接
  • 【vue3组件】【大文件上传】【断点续传】支持文件分块上传,能够在上传过程中暂停、继续上传的组件
  • 机器学习-线性回归(参数估计之经验风险最小化)
  • python flask中使用or查询和and查询,还有同时使用or、and的情况
  • Stable Diffusion 3.5 介绍
  • 重构(2)判断型函数和判断型变量的命名
  • 蓝桥杯单片机(九)定时器的进阶综合案例
  • CAPL高级应用
  • 深入理解 Window 对象:属性与方法详解
  • 模块初阶学习
  • S4 HANA更改Tax base Amount的字段控制
  • NR_shell运行流程简析
  • Pyecharts之特殊图表的独特展示
  • fatal: unable to access ‘https://github
  • ### 2.5.3 二叉树的基本操作
  • 租赁管理系统如何优化商业资产管理与提升租赁效率探讨
  • 声明,这些内容和我无关
  • 【Axure 模版素材】Arco Design组件库 - AxureMost
  • 使用Java技术开发软件详细流程
  • Coze AI:全面解读及应用场景分析
  • 如何在data.table中处理缺失值
  • 用 HTML 实现新春烟花的详细笔记
  • Ansible介绍与入门学习
  • 「 机器人 」扑翼飞行器控制的当前挑战与后续潜在研究方向
  • C++ 复习总结记录九