四十五、【人工智能】【机器学习】- Robust Regression(稳健回归)
系列文章目录
第一章 【机器学习】初识机器学习
第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)
第三章 【机器学习】【监督学习】- 支持向量机 (SVM)
第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)
第五章【机器学习】【监督学习】- 决策树 (Decision Trees)
第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)
第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)
第八章【机器学习】【监督学习】-卷积神经网络 (CNN)
第九章【机器学习】【监督学习】-循环神经网络 (RNN)
第十章【机器学习】【监督学习】-线性回归
第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)
第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)
十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)
十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)
十五、【机器学习】【监督学习】- 神经网络回归
十六、【机器学习】【监督学习】- 支持向量回归 (SVR)
十七、【机器学习】【非监督学习】- K-均值 (K-Means)
十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)十九、【机器学习】【非监督学习】- 层次聚类 (Hierarchical Clustering)二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)
二十一、【机器学习】【非监督学习】- 谱聚类 (Spectral Clustering)
目录
系列文章目录
一、基本定义
(一)、监督学习
(二)、监督学习的基本流程
(三)、监督学习分类算法(Classification)
二、 Robust Regression(稳健回归)
(一)、定义
(二)、基本概念
(三)、训练过程
(四)、特点
(五)、适用场景
(六)、扩展
三、总结
四、相关书籍介绍
一、基本定义
(一)、监督学习
监督学习(Supervised Learning)是机器学习中的一种主要方法,其核心思想是通过已知的输入-输出对(即带有标签的数据集)来训练模型,从而使模型能够泛化到未见的新数据上,做出正确的预测或分类。在监督学习过程中,算法“学习”的依据是这些已标记的例子,目标是找到输入特征与预期输出之间的映射关系。
(二)、监督学习的基本流程
数据收集:获取包含输入特征和对应正确输出标签的训练数据集。
数据预处理:清洗数据,处理缺失值,特征选择与转换,标准化或归一化数据等,以便于模型学习。
模型选择:选择合适的算法,如决策树、支持向量机、神经网络等。
训练:使用训练数据集调整模型参数,最小化预测输出与实际标签之间的差距(损失函数)。
验证与调优:使用验证集评估模型性能,调整超参数以优化模型。
测试:最后使用独立的测试集评估模型的泛化能力,确保模型不仅在训练数据上表现良好,也能在未见过的新数据上做出准确预测。
(三)、监督学习分类算法(Classification)
定义:分类任务的目标是学习一个模型,该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题,需要有一组已经标记好类别的训练数据,模型会根据这些数据学习如何区分不同类别。
例子:垃圾邮件检测(垃圾邮件 vs. 非垃圾邮件)、图像识别(猫 vs. 狗)。
二、 Robust Regression(稳健回归)
(一)、定义
Robust Regression(稳健回归)是一种统计方法,旨在处理存在异常值或离群点的数据集。与传统回归方法相比,Robust Regression 更能抵抗这些异常值的影响,从而产生更可靠的结果。
(二)、基本概念
- 异常值: 数据集中显著偏离其他观测值的点。
- 残差: 观测值与模型预测值之间的差异。
- 敏感度: 模型对异常值的敏感程度。
- Breakdown Point: 一个统计量的最大允许异常比例,超过这个比例,估计量将不再被认为是稳健的。
(三)、训练过程
- 数据准备: 收集训练数据集 ,其中 xi 是输入特征向量,yi 是对应的输出值。
- 损失函数的选择: 选择一个稳健的损失函数,例如绝对偏差损失、Huber损失或Tukey bisquare损失。
- 模型训练: 使用最小化稳健损失函数的方法来拟合模型参数。这通常涉及到迭代算法,如最小化绝对偏差(Least Absolute Deviations, LAD)或最小化稳健损失函数(如M估计)。
- 诊断与调整: 分析残差以识别潜在的异常值,并根据需要调整模型。
(四)、特点
- 抗异常值: Robust Regression 方法能够更好地处理异常值,不会受到极端值的严重影响。
- 灵活性: 提供多种损失函数选项,可以根据数据集的特点选择最适合的损失函数。
- 稳健性: 即使在数据集中存在大量异常值的情况下也能保持良好的性能。
(五)、适用场景
- 数据集中存在异常值或离群点。
- 数据的分布不满足普通回归方法的假设条件(如正态分布)。
- 需要模型具有较高稳定性和可靠性的情况。
(六)、扩展
- 加权方法: 根据观测值的可靠性给予不同的权重。
- 自适应方法: 动态调整损失函数或权重以适应数据的变化。
- 混合方法: 结合多种损失函数以获得更好的稳健性和准确性。
三、总结
Robust Regression 是一种旨在处理异常值的回归方法,它通过使用特殊的损失函数来降低异常值对模型的影响。与标准回归方法相比,Robust Regression 更具鲁棒性,能够在数据集存在离群点的情况下提供更可靠的估计结果。这种方法适用于数据中存在异常值的情况,或者当数据的分布不符合普通回归假设时。通过选择适当的损失函数和使用迭代算法,Robust Regression 能够有效地拟合数据,并提供更稳定的模型。
四、相关书籍介绍
《数据挖掘导论》
适用读者
- 初学者:对数据挖掘感兴趣,希望了解基本概念和技术的新手。
- 学生:计算机科学、统计学、商业智能等相关专业的本科生或研究生。
- 研究人员:需要使用数据挖掘技术进行学术研究的科研人员。
- 专业人士:数据分析师、数据科学家、业务分析师等希望提升技能的专业人士。
- 管理者:希望了解如何利用数据驱动决策的企业高管和技术经理。
书籍下载链接:
链接:https://pan.baidu.com/s/1kNzhiII-8i0wsVrKYe3sIA?pwd=iesy
提取码:iesy