当前位置: 首页 > article >正文

数学建模_数据预处理流程(全)

数据预处理整体流程图

一般数据预处理流程

  1. 处理缺失值:填补或删除缺失值。
  2. 处理异常值:检测并处理异常值。
  3. 数据编码:将分类变量进行标签编码或独热编码。
  4. 数据标准化/归一化:对数据进行标准化或归一化处理。
  5. 连续变量离散化:根据需要将连续变量进行离散化处理。
  6. 特征选择和降维:使用PCA、T-SNE、UMAP等方法进行降维。
1. 处理缺失值

目标:确保数据的完整性,避免模型因缺失值而产生偏差。

  • 方法:

    • 删除缺失值:直接删除含有缺失值的数据行或列。

    • 填补缺失值 :

      • 均值/中位数/众数填补:适用于数值型数据。
      • 插值方法:如拉格朗日插值法、牛顿插值法,适用于时间序列等有序数据的插值。
    • 插补预测:使用机器学习模型预测缺失值。


2. 处理异常值

目标:减少异常值对数据分析和模型训练的影响。

  • 检测方法:
    • 3σ原则:利用数据的均值和标准差检测异常值。
    • 箱型图:使用四分位数和内限/外限检测异常值。
  • 处理方法:
    • 删除异常值:直接移除异常点。
    • 替换异常值:用合适的值替换异常点,如用中位数或均值替换。

3. 数据编码

目标:将分类变量转换为模型可以理解的数值形式。

  • 方法:
    • 标签编码:将分类标签转换为整数值,适用于有序类别数据。
    • 独热编码:将每个类别转换为一个二进制向量,适用于无序类别数据。

4. 数据标准化/归一化

目标:将数据缩放到统一尺度,以减少不同特征尺度对模型的影响。

  • 标准化:将数据转换为均值为0、标准差为1的标准正态分布。
    • 方法:标准差法。
  • 归一化:将数据缩放到指定范围(如[0,1])。
    • 方法:极值差法、功效系数法等。

5. 连续变量离散化

目标:将连续型变量转换为离散的类别,以适应某些特定的模型或分析需求。

  • 方法:
    • 等宽法:将数值范围等分为若干个区间。
    • 等频法:根据数据的频率分布进行分组。
    • 基于聚类的离散化:利用聚类算法将数据划分为若干类。

6. 特征选择和降维

目标:减少数据维度,降低模型复杂度,提高模型训练效率。

  • 方法:
    • PCA(主成分分析):一种线性降维方法,通过计算特征的主成分减少数据维度。
    • T-SNE:一种非线性降维方法,常用于数据可视化。
    • UMAP:另一种非线性降维方法,比T-SNE更快,适用于大规模数据的可视化。

http://www.kler.cn/news/294810.html

相关文章:

  • 命名空间,using声明,指令与作用域,重载与namespace
  • 智慧工地解决方案-2
  • 架构全景视图
  • lxml官方入门教程(The lxml.etree Tutorial)翻译
  • 超越IP-Adapter!阿里提出UniPortrait,可通过文本定制生成高保真的单人或多人图像。
  • 类和对象的定义和调用演示(C++)
  • CSS-动态计算高度
  • [数据集][目标检测]街道乱堆垃圾检测数据集VOC+YOLO格式94张1类别
  • ELK学习笔记(一)——使用K8S部署ElasticSearch8.15.0集群
  • Python条件表达式优化的10个实例
  • Springboot集成WebSocket客户端,发送消息并监测心跳
  • Ansible与Docker集成:实现容器化运维自动化
  • 浙大数据结构:02-线性结构1 两个有序链表序列的合并
  • [数据集][目标检测]西红柿成熟度检测数据集VOC+YOLO格式3241张5类别
  • 网络协议-SSH
  • Linux 上如何做MySQL数据备份
  • K近邻法(K-nearest neighbor,K-NN)—有监督学习方法、非概率模型、判别模型、线性模型、参数化模型、批量学习、核方法
  • ffmpeg音视频开发从入门到精通——ffmpeg 视频数据抽取
  • 【C++STL(十四)】一个哈希桶简单模拟实现unordered_map/set
  • 基于微信小程序在线订餐系统
  • 什么是串口服务器?
  • dwg、dxf文件多行文字转单行文字
  • NLP自然语言处理之文本分类项目实战TextCNN
  • LabVIEW中Request Deallocation 功能
  • 前端项目运行汇总
  • Kafka【十三】消费者消费消息的偏移量
  • 【Spring Boot】 SpringBoot自动装配-Condition
  • MySQL数据库的SQL注入漏洞解析
  • SpringDataJPA系列(7)Jackson注解在实体中应用
  • Python爬虫:通过js逆向获取某瓜视频的下载链接