机器学习笔记 - 异常检测之OneClass SVM算法简述
一、异常检测是什么?
如下图,理想中我们可以找到一个框住大部分正常样本的决策边界,而在边界外部的数据点(蓝点)即视为异常。
但实际情况下数据都没有标签,因此很难定义正常还是不正常。异常检测的主要挑战如下:正常与异常行为之间的界限往往并不明确、不同的应用领域对异常的有意定义不同、数据可能存在噪声、异常行为的数据含有难以采集(样本量极少、训练时存在严重不平衡数据的问题)以及正常行为不会一成不变,会有不断发展变化的模式。
异常检测的算法非常多元,(1)图形方法:箱型图二。(2)统计方法:单变量/多变量高斯分布。(3)基于距离的方法。(4)基于密度的方法。(5) 基于模型的方法:孤立森林、RNN等。
我们这里主要了解OneClass SVM 算法。