当前位置：首页 > article >正文

过采样和欠采样

article 2025/2/22 17:01:01

过采样和欠采样是处理不平衡数据集的两种常用技术，主要用于机器学习和数据挖掘中。

过采样（Oversampling）

过采样是指在不平衡数据集中，通过增加少数类样本的数量来平衡各类别之间的样本数。这可以通过以下几种方式实现：

复制样本：简单地复制少数类的样本。
合成样本：使用算法（如SMOTE）生成新的少数类样本，通过在现有样本之间插值来创建新的样本。

欠采样（Undersampling）

欠采样则是通过减少多数类样本的数量来平衡类别。这可以通过以下方式实现：

随机删除样本：随机选择并删除多数类中的一些样本。
聚类方法：使用聚类算法选择代表性样本，保留一定数量的多数类样本。

应用

过采样通常在少数类样本较少时使用，以避免模型对多数类的偏见。
欠采样则在多数类样本过多时使用，以降低计算成本和提高模型的训练效率。

选择使用哪种方法取决于具体数据集的特点和模型的需求。结合使用两者也是一种常见的做法。

http://www.kler.cn/a/313583.html

相关文章：

C++ 字符串最后一个单词的长度（牛客网）

# wps必须要登录激活才能使用吗？

摄影学习平台

【Linux】简易日志系统

Web前端开发

PHP 数组排序类型介绍

基于微信小程序的剧本杀游玩一体化平台

[数据结构]算法复杂度详解

代码随想录算法训练营Day7

基于MySQL全量备份+GTID同步的主从架构恢复数据至指定时间点

Linux--禁止root用户通过ssh直接登录

Java项目实战II基于Java+Spring Boot+MySQL的网上租贸系统设计与实现（开发文档+源码+数据库）

情感AI：科技赋能情感计算的新时代

SpringBoot：token是用来鉴权的，那session的作用是什么？

笔记：将WPF中可视化元素（Visual）保存为图像，如PNG,JPEG或BMP的方法简介

设计模式七大原则

毕业设计选题：基于ssm+vue+uniapp的农产品自主供销小程序

与转录组结合，开发下一代诊断技术，或许是医学AI领域的下一个热点｜个人观点·24-09-21

中国电子学会202303青少年软件编程（Python）等级考试试卷（四级）真题

pandas入门