样本不均衡-研究现状
更新中
什么是样本不均衡/数据倾斜?
怎么判断处理样本不均衡问题的必要性?
- 学习任务的复杂度与样本不平衡的敏感度是成正比的。评估复杂度从特征强弱、数据噪音情况以及模型容量等方面评估
- 训练样本的分布与真实样本分布是否一致且稳定
- 判断是否出现某一类别样本数目非常稀少的情况,这时模型很有可能学习不好,类别不均衡是需要解决的,如选择一些数据增强的方法,或者尝试如异常检测的单分类模型
解决方案
从四个层面分析:样本、损失函数、模型、决策及评估指标
样本层面
常用方法:欠/过采样、数据增强
损失函数
主流的方法也就是常用的代价敏感学习(cost-sensitive),为不同的分类错误给予不同惩罚力度(权重),在调节类别平衡的同时,也不会增加计算复杂度。
常用方法:class weight、OHEM 和 Focal Loss
模型
常用方法:集成学习,异常检测
目前的研究方案可以分为one stage, two stage两种模型
one stage
focal loss + retinanet
先验框:
猫是大物体,应该用10*10或者5*5的先验框来确定
总结而言,Retinanet不过是把一张图片划分成不同的网格,每个网格都存在着若干个先验框,当某一个物体与某个网格的某个先验框最接近的时候,这个物体就由这个网格的这个先验框来确定。
科普:什么是Retinanet目标检测算法(Bubbliiiing 深度学习 教程)_哔哩哔哩_bilibili
REF:
一文解决样本不均衡(全) - 知乎 (zhihu.com)