无监督学习:聚类、异常检测
聚类
工作原因我对聚类特别熟悉,因此视频课程基本快进看完,不做记录
异常检测
高斯(正态)分布
多特征异常检测
将每个特征作为独立特征(实践证明即使不完全独立也影响不大)计算高斯分布的参数,然后将待预估样本代入各高斯函数作为每个特征概率,乘起来作为最终概率,小于阈值时认为异常。
建立一个异常检测系统
使用真实数据评估你的模型,通过交叉验证集可以调整你的 参数
异常检测与监督学习算法对比
其实本质区别是监督学习需要学习,因此需要有足够的正负样本,并且监督学习只认识见过的东西,没有见过的识别不准,所以适合类型变化不大的检测
如何选择特征
在有监督学习中,如果你使用了一些不太准确的特征或者少量多余的特征没有什么问题,因为在学习过程中可以通过标签调整特征权重之类。但是在无监督学习中,模型很难学习到什么特征重要,因此在无监督学习中,选择合适的特征很重要
1. 选择符合高斯分布的特征,或者通过变换转换为高斯分布
2. 误差分析,调整特征的使用,增删