当前位置: 首页 > article >正文

数据分析系列--③RapidMiner算子说明及数据预处理

一、算子说明

1 新建过程

2 算子状态灯 

状态灯说明:

(1)状态指示灯:

红色:指示灯说明有参数未被设置或输入端口未被连接等问题;

黄色:指示灯说明还未执行算子,不管配置是否基本齐全;

绿色:指示灯说明一切正常,已成功执行算子。

(2)三角警示牌:用于表明是否有算子的状态信息出现。

(3)断点:用于表明分析员是否在这个算子前面或是后面暂停了流程,以检测中间效果。

(4)注释:如果这个算子中出现了注释,则会通过这个图标表示出来。

(5)子流程:这个图标用来指示是否有子流程。双击算子可以进入子流程。 

3 算子说明及操作

二、数据预处理

1.数据清洗前的简单分析

这张表数据干净,不足以说明问题,下图是我使用的一张正常的数据表,仅用于说明问题.

如下图,因为有缺失值,那就需要考虑该缺失值是否会影响分析结果,若会,需要清理这些缺失值.

点击下载此数据集 下载完成后将表放入Data,别忘了导入

问题的简单分析(很重要):

可以看到此数据集Customer ID这个Attribute具有918条缺失数据,这是必须要清理的,因为对商品销售情况进行分析,那么Customer ID代表着这是哪一个客户,这个属性缺失意味着找不到这个客户了,那后续做的所有操作均无意义了. 另外Description这个Atturbute也确实了5条.这个属性可以清理也可以不清理,因为描述信息对后续分析不会产生严重影响.

分析出来需要去除缺失值,下面进行缺失值去除.

2.执行缺失值清理

所用算子是:

运行程序,查看Examples的变化即可.

 

 

更多清洗后续继续,今天过年,先休息一下.

Thank you all and happy new year. See you after a while. End: 28-Jan-2025 14:35


http://www.kler.cn/a/523347.html

相关文章:

  • STM32 LED呼吸灯
  • 学习第七十六行
  • Ceph:关于Ceph 中 RADOS 块设备快照克隆管理的一些笔记整理(12)
  • JAVA 接口、抽象类的关系和用处 详细解析
  • Next.js 14 TS 中使用jwt 和 App Router 进行管理
  • SCRM在企业私域流量与客户管理中的变革之路探索
  • C++:PTA L2-003 月饼
  • 新时代架构SpringBoot+Vue的理解(含axios/ajax)
  • 知识体系、知识管理角度的赚钱思考
  • NeetCode刷题第17天(2025.1.27)
  • 使用 Julia Distributions.jl 进行概率分布处理
  • [论文阅读] (37)CCS21 DeepAID:基于深度学习的异常检测(解释)
  • 论文阅读(十五):DNA甲基化水平分析的潜变量模型
  • 项目集成Nacos
  • 关于bash内建echo输出多行文本
  • DeepSeek理解概率的能力
  • Python算法详解:贪心算法
  • Elasticsearch——Elasticsearch性能优化实战
  • HarmonyOS简介:上架与分发
  • 【面试】【前端】【nodejs】Node.js 面试题总结
  • 【微服务与分布式实践】探索 Dubbo
  • 程序代码篇---C++常量引用
  • Dest1ny漏洞库:中科网威 anysec 安全网关 arping 存在后台远程命令执行漏洞
  • [A-29]ARMv8/v9-GIC-中断子系统的安全架构设计(Security/FIQ/IRQ)
  • Python 数据分析 - Matplotlib 绘图
  • 第29篇:Python开发进阶:数据库操作与ORM