【数据处理】数据预处理·数据变换(熵与决策树)
🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀软件开发必备知识_十二月的猫的博客-CSDN博客💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光
目录
1. 前言
2. 数据变换
2.1 数据规范化
编辑 2.2 数据离散化
2.2.1 非监督离散化
2.2.2 监督离散化
1. 前言
在进入这一篇文章之前,我希望大家看看另外两篇文章
【数据处理】数据预处理·数据清理-CSDN博客
【数据处理】数据预处理·数据集成-CSDN博客
核心思想:
1、大数据中最重要的部分就是数据处理
2、数据处理中第一步就是数据预处理
3、数据预处理目的是提高数据的质量,使得我们能使用更高质量的数据进行后续处理
4、数据预处理包括:数据清洗、数据集成、数据变换、数据规约
数据清洗:
1、缺失值处理
2、噪声处理
数据集成:
1、数据集成中最大的问题就是数据冗余
2、冗余数据包括:冗余样本、冗余属性
3、数据冗余中最重要的部分是:冗余检测
4、冗余检测包括:有序数据检测、无序数据检测
5、检测方式有两个角度:a. 将数据看成向量空间的点;b. 将数据看成向量
接下来,我们进入数据预处理的下一部分:数据变换
2. 数据变换
定义:由于数据量之间的量纲、连续性等不同导致不同数据之间不能比较,因此需要通过数据变换使他们具有可比性。
数据变换包括 :数据规范化、数据离散化
2.1 数据规范化
目的:将不同数据(属性)按一定规则进行缩放,使它们具有可比性
举个例子:体重和身高两个数据量之间不能比较,因为量纲不同,因此需要规范化
最小-最大规范化:(对原始数据进行线性变换。把数据A的观察值v从原始的 区间[minA,maxA]映 射到新区间 [new_minA,new_maxA])【0-1规范化又称为归一化】
0-1规范化:
[minA,maxA] - [new_minA,new_maxA]规范化:
用处:能够调节两个属性的量纲,让两者可以比较
缺点:噪声影响非常大,对离群值很敏感
因此,提出z-score规范化!!!!
z-score规范化:
小数定标规范化:
2.2 数据离散化
连续数据过于细致,数据之间的关系难以分析,划分为离散化的区间,发现数据之间的关联,便于算法处理。
- 思考什么是离散化?
- 离散化本质就是限制类的数量
- 限制类的数量其核心思想和平滑是相同的
- 平滑也就是我们进行数据清洗(缺失、噪声处理)的核心思想
2.2.1 非监督离散化
- 分箱
- 聚类
2.2.2 监督离散化
- 熵的计算
熵的本质思想:信息不确定性越大,价值越大
例如:
1、“太阳从东边升起来”这个信息没有不确定性,这是一个必然事实。那么这个信息对于我们来说是没有价值的。
2、“特朗普将赢得大选”这个信息不确定性相当大(特朗普不一定赢)。因此,我们听到这个信息会很好奇,为什么特朗普将赢,因此这个信息价值很大。
那么如何利用熵来对数据进行离散化呢?
离散化:就是把数据的类别减少(限制类别数量)。
因此,利用熵来实现离散化的关键在于:为连续的数据进行有限的分类。
问题的关键就转化为:如何利用熵有效的对数据进行分类
分类方法:
- D:待分类数据集
- a:数据集的特征属性
- V:数据集特征属性a的不同分类集合(V是我们找max过程中需要改变的)
举个例子:
如果想要学习更多深度学习知识,大家可以点个关注并订阅,持续学习、天天进步
你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀~~~