数据分析系列--③RapidMiner算子说明及数据预处理
一、算子说明
1 新建过程
2 算子状态灯
状态灯说明:
(1)状态指示灯:
红色:指示灯说明有参数未被设置或输入端口未被连接等问题;
黄色:指示灯说明还未执行算子,不管配置是否基本齐全;
绿色:指示灯说明一切正常,已成功执行算子。
(2)三角警示牌:用于表明是否有算子的状态信息出现。
(3)断点:用于表明分析员是否在这个算子前面或是后面暂停了流程,以检测中间效果。
(4)注释:如果这个算子中出现了注释,则会通过这个图标表示出来。
(5)子流程:这个图标用来指示是否有子流程。双击算子可以进入子流程。
3 算子说明及操作
二、数据预处理
1.数据清洗前的简单分析
这张表数据干净,不足以说明问题,下图是我使用的一张正常的数据表,仅用于说明问题.
如下图,因为有缺失值,那就需要考虑该缺失值是否会影响分析结果,若会,需要清理这些缺失值.
点击下载此数据集 下载完成后将表放入Data,别忘了导入
问题的简单分析(很重要):
可以看到此数据集Customer ID这个Attribute具有918条缺失数据,这是必须要清理的,因为对商品销售情况进行分析,那么Customer ID代表着这是哪一个客户,这个属性缺失意味着找不到这个客户了,那后续做的所有操作均无意义了. 另外Description这个Atturbute也确实了5条.这个属性可以清理也可以不清理,因为描述信息对后续分析不会产生严重影响.
分析出来需要去除缺失值,下面进行缺失值去除.
2.执行缺失值清理
所用算子是:
运行程序,查看Examples的变化即可.
更多清洗后续继续,今天过年,先休息一下.
Thank you all and happy new year. See you after a while. End: 28-Jan-2025 14:35