当前位置：首页 > article >正文

机器学习-数据清洗(一)

article 2025/2/7 12:06:23

数据的预处理（清洗、集成、变换、规约）

在进行数据挖掘中，原始海量的数据中存在着大量不完整(有缺失值)、不一致、有异常的数据，严重影响到数据挖掘建模的执行效率，甚至可能导致挖掘结果的偏差，所以对首先对数据进行清洗就显得尤为重要，在数据清洗完成后，后续伴随着数据集成、转换、规约等一系列的处理，该过程就是数据预处理。数据预处理一方面是要提高数据的质量，另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现，在数据挖掘的过程中，数据预处理工作量占到了整个过程的60%。

数据预处理的主要内容包括：数据清洗、数据集成、数据变换和数据规约.

1、数据清洗（Data Cleaning）

在这里插入图片描述
目标：修复数据中的噪声、缺失、不一致等问题。

1.1 、具体内容：

1.1.1、缺失值处理

方法：删除缺失记录、均值/中位数填充、插值法、模型预测填充。
示例：年龄字段缺失时，用数据集的平均年龄填充。

1.1.2、异常值处理

方法：Z-score法（标准化）、IQR（四分位距法）、描述性分析、散点图、箱形图、直方图查找异常并处理。
示例：检测到某商品价格超过正常范围的3倍标准差，判定为异常并剔除。

1.1.3、噪声数据

方法：分箱、回归、孤点分析。
示例：

1.1.4、重复值处理

方法：删除完全重复的行。
示例：电商订单数据中同一订单被重复记录两次，删除冗余行。

2、数据集成（Data Integration）

目标：涉及整合多源数据，解决冗余和实体识别冲突。

2.1、具体内容：

2.1.1、实体识别

方法：统一字段命名（如 CustomerID 和 Cust_ID 合并为同一字段）。
示例：合并销售表（含 ProductID）和库存表（含 ProdID），需统一字段名。

2.1.2、冗余数据处理

方法：分析相关性，删除冗余列（如同时存在身高(cm) 和身高(m)）。
示例：合并两个客户表时，发现年龄和出生年份存在冗余，删除其一。

3、数据变换（Data Transformation）

目标：将数据转换为适合数据挖掘分析的格式，有规范化、离散化、特征构造等。

3.1、具体内容：

3.1.1、规范化（Normalization）

方法：最小-最大标准化（缩放到 [0,1]）、Z-score标准化（均值为0，方差为1）。
示例：将收入从 [1000, 100000] 缩放到 [0,1]。

3.1.2、离散化

方法：分箱（等宽/等频）、聚类离散化。
示例：将年龄分为 [0-18, 19-35, 36-60, 60+]。

3.1.3、特征构造

方法：生成新特征（如从日期中提取星期几）。
示例：将购买日期转换为季节或是否为周末。

4、数据规约（Data Reduction）

目标：减少数据规模但保持完整性，同时保留关键信息。

4.1、具体内容：

4.1.1、属性(维度)规约

方法：主成分分析（PCA）、删除低方差特征、逐步回归。
示例：用 PCA 将 20 维数据降为 3 维主成分。

4.1.2、数值规约

方法：聚类抽样、分层抽样、直方图分箱。
示例：从 100 万条数据中随机抽取 10% 进行分析。

5、示例

http://www.kler.cn/a/535011.html

相关文章：

专题：剑指offer

2.3.3 数据类型的转换与强制类型转换

systemverilog的program和module的区别

Linux——基础命令1

【论文精读】Taming Transformers for High-Resolution Image Synthesis

（一）DeepSeek大模型安装部署-Ollama安装

Docker最佳实践：安装Nacos

备考蓝桥杯：枚举算法之扫雷

在 Open WebUI + Ollama 上运行 DeepSeek-R1-70B 实现调用

RabbitMQ延迟消息的两种实现方式

【JavaEE】Spring(9)：Spring事务

【YOLOv11改进- 注意力机制】YOLOv11+ACMix注意力机制（2021）: 自注意力与卷积的聚合模块,助力YOLOv11有效涨点；

Apache SeaTunnel 整体架构运行原理

【数据结构】循环链表

最大矩阵的和

《翻转组件库之发布》

Nexus简介及小白使用IDEA打包上传到Nexus3私服详细教程_ider2021 引用 nexus 上传

怎么定义 vue-router 的动态路由?

资源查找网址

es match 可查而 term 查不到问题分析

前端开发知识梳理 - HTMLCSS

202617读书笔记|《清溪俳句三百》——春有樱花，夏有蝉，秋有红叶，冬有雪

寒假2.5

【数据结构】(6) LinkedList 链表

科技赋能数字内容体验的核心技术探索

足球俱乐部管理系统的设计与实现