数据分析及应用:如何分析基于绝对中位差的异常值检测问题?
目录
0 场景描述
1 数据准备
2 问题分析
abs(rn - (cnt+1)/2) < 1
3 小结
0 场景描述
数据集中可能存在异常的值。值存在异常有多种原因:
- (1)可能是数据收集方式有问题,比如记录值的仪表存在误差;
- (2)可能是数据输入错误导致的;
- (3)还可能是因为数据生成时环境出现异常,这意味着数据点是正确的,但应谨慎根据数据得出任何结论。
鉴于此,我们想检测出异常数据。一种检测异常数据的常用方法是,计算数据的标准偏差,并将超过3 倍标准偏差(或其他类似距离)的数据点视为异常数据。
在统计学中,我们把这种检测异常值的方式称为 中位数绝对偏差(Median Absolute Deviation,MAD) 的方法,可以用来识别异常值并将其排除在外。MAD是一种基于中位数的离散度量,它可以帮助识别数据集中的异常值。
公式如下: