当前位置: 首页 > article >正文

四十五、【人工智能】【机器学习】- Robust Regression(稳健回归)

 

系列文章目录

第一章 【机器学习】初识机器学习

第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章 【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)

十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)

十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)

十五、【机器学习】【监督学习】- 神经网络回归 

十六、【机器学习】【监督学习】- 支持向量回归 (SVR)

十七、【机器学习】【非监督学习】- K-均值 (K-Means) 

十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)十九、【机器学习】【非监督学习】- 层次聚类 (Hierarchical Clustering)二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)

二十一、【机器学习】【非监督学习】- 谱聚类 (Spectral Clustering)​​ 


目录

系列文章目录

一、基本定义

(一)、监督学习

(二)、监督学习的基本流程

(三)、监督学习分类算法(Classification)

二、 Robust Regression(稳健回归)

(一)、定义

(二)、基本概念

(三)、训练过程

(四)、特点

(五)、适用场景

(六)、扩展

三、总结

四、相关书籍介绍


一、基本定义

(一)、监督学习

        监督学习(Supervised Learning)是机器学习中的一种主要方法,其核心思想是通过已知的输入-输出对(即带有标签的数据集)来训练模型,从而使模型能够泛化到未见的新数据上,做出正确的预测或分类。在监督学习过程中,算法“学习”的依据是这些已标记的例子,目标是找到输入特征与预期输出之间的映射关系。

(二)、监督学习的基本流程

        数据收集:获取包含输入特征和对应正确输出标签的训练数据集。
        数据预处理:清洗数据,处理缺失值,特征选择与转换,标准化或归一化数据等,以便于模型学习。
        模型选择:选择合适的算法,如决策树、支持向量机、神经网络等。
        训练:使用训练数据集调整模型参数,最小化预测输出与实际标签之间的差距(损失函数)。
        验证与调优:使用验证集评估模型性能,调整超参数以优化模型。
        测试:最后使用独立的测试集评估模型的泛化能力,确保模型不仅在训练数据上表现良好,也能在未见过的新数据上做出准确预测。

(三)、监督学习分类算法(Classification)

        定义:分类任务的目标是学习一个模型,该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题,需要有一组已经标记好类别的训练数据,模型会根据这些数据学习如何区分不同类别。
        例子:垃圾邮件检测(垃圾邮件 vs. 非垃圾邮件)、图像识别(猫 vs. 狗)。


二、 Robust Regression(稳健回归)

(一)、定义

Robust Regression(稳健回归)是一种统计方法,旨在处理存在异常值或离群点的数据集。与传统回归方法相比,Robust Regression 更能抵抗这些异常值的影响,从而产生更可靠的结果。

(二)、基本概念

  • 异常值: 数据集中显著偏离其他观测值的点。
  • 残差: 观测值与模型预测值之间的差异。
  • 敏感度: 模型对异常值的敏感程度。
  • Breakdown Point: 一个统计量的最大允许异常比例,超过这个比例,估计量将不再被认为是稳健的。

(三)、训练过程

  1. 数据准备: 收集训练数据集 ​,其中 xi​ 是输入特征向量,yi​ 是对应的输出值。
  2. 损失函数的选择: 选择一个稳健的损失函数,例如绝对偏差损失、Huber损失或Tukey bisquare损失。
  3. 模型训练: 使用最小化稳健损失函数的方法来拟合模型参数。这通常涉及到迭代算法,如最小化绝对偏差(Least Absolute Deviations, LAD)或最小化稳健损失函数(如M估计)。
  4. 诊断与调整: 分析残差以识别潜在的异常值,并根据需要调整模型。

(四)、特点

  • 抗异常值: Robust Regression 方法能够更好地处理异常值,不会受到极端值的严重影响。
  • 灵活性: 提供多种损失函数选项,可以根据数据集的特点选择最适合的损失函数。
  • 稳健性: 即使在数据集中存在大量异常值的情况下也能保持良好的性能。

(五)、适用场景

  • 数据集中存在异常值或离群点。
  • 数据的分布不满足普通回归方法的假设条件(如正态分布)。
  • 需要模型具有较高稳定性和可靠性的情况。

(六)、扩展

  • 加权方法: 根据观测值的可靠性给予不同的权重。
  • 自适应方法: 动态调整损失函数或权重以适应数据的变化。
  • 混合方法: 结合多种损失函数以获得更好的稳健性和准确性。

三、总结

Robust Regression 是一种旨在处理异常值的回归方法,它通过使用特殊的损失函数来降低异常值对模型的影响。与标准回归方法相比,Robust Regression 更具鲁棒性,能够在数据集存在离群点的情况下提供更可靠的估计结果。这种方法适用于数据中存在异常值的情况,或者当数据的分布不符合普通回归假设时。通过选择适当的损失函数和使用迭代算法,Robust Regression 能够有效地拟合数据,并提供更稳定的模型。

四、相关书籍介绍

《数据挖掘导论》

适用读者

  • 初学者:对数据挖掘感兴趣,希望了解基本概念和技术的新手。
  • 学生:计算机科学、统计学、商业智能等相关专业的本科生或研究生。
  • 研究人员:需要使用数据挖掘技术进行学术研究的科研人员。
  • 专业人士:数据分析师、数据科学家、业务分析师等希望提升技能的专业人士。
  • 管理者:希望了解如何利用数据驱动决策的企业高管和技术经理。

书籍下载链接:

链接:https://pan.baidu.com/s/1kNzhiII-8i0wsVrKYe3sIA?pwd=iesy 
提取码:iesy


http://www.kler.cn/a/282503.html

相关文章:

  • 【Linux】介绍和基础01
  • c++ 类和对象(中)
  • C++中特殊类设计/单例模式
  • 大数据新视界 -- 大数据大厂之 Impala 性能优化:基于数据特征的存储格式选择(上)(19/30)
  • RabbitMQ 与 PHP Swoole 实现
  • 使用React和Vite构建一个AirBnb Experiences克隆网站
  • 骁龙CPU简介
  • 扩展——双向搜索
  • vagrant 创建虚拟机
  • 【PGCCC】内存表的并发魔法:探秘PostgreSQL的内存表并发控制原理与实现
  • 嵌入式知识点
  • 计算机毕业设计选题推荐-医院门诊预约-医院预约挂号微信小程序/安卓APP-项目实战
  • CTFHub SSRF靶场通关攻略(6-11)
  • LabVIEW如何适应航天系统的要求
  • Java 泛型与增强for
  • PMP–知识卡片--多标准决策分析
  • [000-01-001].第04节:Shell中的内置命令
  • 【软件测试】软件测试生命周期与Bug
  • MacOS通过Docker部署安装zookeeper、dubbo-admin,以及Docker Desktop进行管理
  • docker基本操作
  • 基于矢量光场的光学加工技术
  • <Rust>egui学习之小部件(六):如何在窗口中添加菜单栏部件?
  • 15.土堆说卷积操作(stride、padding)
  • buuctf [MRCTF2020]hello_world_go
  • 【最新】高效可用的Docker仓库源
  • 【力扣】验证回文串