当前位置：首页 > article >正文

机器学习的概览

article 2025/4/2 15:33:50

笔记内容侵权联系删除

机器学习算法

机器学习(包括深度学习分支)是研究“学习算法”的一门学问。所谓“学习”是指:对于某类任务T和性能度量P，一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么我们称这个计算机程序在从经验E学习。

机器学习算法与传统基于规则的区别

基于规则的方法（特点：使用显性编程来解决问题，规则可以被人工明确）

机器学习算法（特点：使用样本训练，决策的规则复杂或难以描述，由机器自动学习规则）

【问题的解决方案很复杂，或者问题可能涉及到大量的数据却没有明确的数据分布函数
遇到如下情况，可以考虑使用机器学习】

机器学习的整体流程

1.数据收集
2.数据清洗

3.特征提取与选择 反馈迭代
4.模型训练
5.模型评估测试
6.模型部署与整合

机器学习基本概念--数据集

数据集:在机器学习任务中使用的一组数据，其中的每一个数据称为一个样本。反映样本在某方面的表现或性质的事项或属性称为特征。
训练集:训练过程中使用的数据集，其中每个训练样本称为训练样本。从数据中学得型的过程称为学习(训练)。
测试集:学得模型后，使用其进行预测的过程称为测试，使用的数据集称为测试集，每个样本称为测试样本。

数据处理的重要性

数据对于模型来说就患至关重要的，是模型能力的天花板，没有好的数据，就没有好的模型。

数据预处理

1.数据清理
填充缺失值，发现并消除造成数据及异常点.

2.数据降维
简化数据属性，避免维度爆炸

3.数据标准化
标准化数据来减少噪声，以及提高模型准确性

数据清理

大部分的机器学习模型所处理的都是特征，特征通常是输入变量所对应的可用于模型的数值表示
大部分情况下，收集得到的数据需要经过预处理后才能够为算法所使用，预处理的操作主要包括以下几个部分:
数据过滤
处理数据缺失
处理可能的异常、错误或者异常值
合并多个数据源数据
数据汇总

“脏”数据
真实的数据中通常会出现一些数据质量问题:

不完整: 数据中缺少属性或者包含一些确实的值。

多噪音: 数据包含错误的记录或者异常点。

不一致: 数据中存在矛盾的、有差异的记录。

数据的转换

对数据进行初步的预处理后，需要将其转换为一种适合机器学习模型的表示形式，以下是一些常见的数据转化的形式。
在分类问题中，将类别数据编码成为对应的数值表示(哑编码)
数值数据转换为类别数据以减少变量的值(对年龄分段)
其他数据
从文本数据中提取有用的数据(一般使用词袋法、TF-IDF或者word2vec)”处理图像数据(颜色空间，灰度化，几何变化，haar特征等，图像增强)。特征工程
对特征进行归一化、标准化，以保证同一模型的不同输入变量的值域相同。特征扩充:对现有变量进行组合或转换以生成新特征，比如平均数

特征选择的必要性
通常情况下，一个数据集当中存在很多种不同的特征，其中一些可能是多余的或者与我们要预测的值无关的。
特征选择技术的必要性体现在:

1简化模型，是模型个容易被使用者所解释
2避免维度爆炸的问题
3减少训练的时间
4提升模型泛化性，避免过拟合

特征选择的方法-Filter
过滤法(filter)在选择特征的时候是独立的，与模型本身无关。

遍历所有特征--选择最佳特征子集--学习算法--性能评估

特征选择的方法-wapper
包装器(wapper)方法使用一个预测模型来对对特征子集进行评分。

遍历所有特征--生成一个特征子集--学习算法--模型评估

选择最佳的特征子集

特征选择的方法-Embedded

嵌入法(Embedded)的方法将特征选择作为型构建的一部分。

遍历所有的特征--生成一个特征子集--学习算法+效果评估 --生成一个特征子集

----选择最佳的特征子集 -----