当前位置: 首页 > article >正文

样本不均衡-研究现状

更新中

什么是样本不均衡/数据倾斜?

怎么判断处理样本不均衡问题的必要性?

  • 学习任务的复杂度与样本不平衡的敏感度是成正比的。评估复杂度从特征强弱、数据噪音情况以及模型容量等方面评估
  • 训练样本的分布与真实样本分布是否一致且稳定
  • 判断是否出现某一类别样本数目非常稀少的情况,这时模型很有可能学习不好,类别不均衡是需要解决的,如选择一些数据增强的方法,或者尝试如异常检测的单分类模型

解决方案

从四个层面分析:样本、损失函数、模型、决策及评估指标

样本层面

常用方法:欠/过采样、数据增强

损失函数

主流的方法也就是常用的代价敏感学习(cost-sensitive),为不同的分类错误给予不同惩罚力度(权重),在调节类别平衡的同时,也不会增加计算复杂度。

常用方法:class weight、OHEM 和 Focal Loss

模型

常用方法:集成学习,异常检测

目前的研究方案可以分为one stage, two stage两种模型

one stage

focal loss + retinanet

先验框:

猫是大物体,应该用10*10或者5*5的先验框来确定

总结而言,Retinanet不过是把一张图片划分成不同的网格,每个网格都存在着若干个先验框,当某一个物体与某个网格的某个先验框最接近的时候,这个物体就由这个网格的这个先验框来确定。

科普:什么是Retinanet目标检测算法(Bubbliiiing 深度学习 教程)_哔哩哔哩_bilibili

REF:

一文解决样本不均衡(全) - 知乎 (zhihu.com)


http://www.kler.cn/a/372558.html

相关文章:

  • 单例模式 — 设计模式
  • 微服务之间调用,OpenFeign传递用户(RequestInterceptor接口)
  • Python虚拟显示器pyvirtualdisplay
  • 使用pytorch实现LSTM预测交通流
  • 股票基础交易规则!最小变动数量规则!最大数量限制规则!
  • java-web-day5
  • 005 IP地址的分类
  • Consul微服务配置中心部署(在线安装)
  • 【SpringCloud】06-Sentinel
  • KVM 虚拟机Anolis OS 8.9 下利用宝塔面板中的 Docker 配置 Nextcloud + onlyoffice
  • BSV区块链为供应链管理带来效率革命
  • Python爬虫——网站基本信息
  • shell函数详解
  • 大模型面试题持续更新_Moe(2024-10-30)
  • WebRTC学习六:MediaStream 常用API介绍
  • 深度学习之激活函数
  • vue3(setup) keep-alive 列表页跳转详情缓存,跳转其它更新
  • unity 中使用zeroMq和Mqtt 进行通讯
  • layui xm-select
  • HTML入门教程14:HTML图像
  • NewStarCTF2024-Week4-Web-WP
  • 关于微信小程序启用组件按需注入
  • openGauss开源数据库实战十
  • 详解:模板设计模式
  • Linux多机器文件分发
  • 时间序列分类任务---tsfresh库