当前位置：首页 > article >正文

非平衡数据的处理

article 2025/3/7 4:23:33

非平衡数据的特征

在实际应用中，类别型的因变量可能存在严重的偏倚，即类别之间的比例严重失调。如欺诈问题中，欺诈类观测在样本集中毕竟占少数；客户流失问题中，忠实的客户往往也是占很少一部分；在某营销活动的响应问题中，真正参与活动的客户也同样只是少部分。

如果数据存在严重的不平衡，预测得出的结论往往也是有偏的，即分类结果会偏向于较多观测的类。为了解决数据的非平衡问题，2002年Chawla提出了SMOTE算法，即合成少数过采样技术，它是基于随机过采样算法的一种改进方案。

SMOTE算法的思想

SMOTE算法的基本思想就是对少数类别样本进行分析和模拟，并将人工模拟的新样本添加到数据集中，进而使原始数据中的类别不再严重失衡。

在这里插入图片描述

SMOTE算法的步骤

1.采样最邻近算法，计算出每个少数类样本的K个近邻。
2.从K个近邻中随机挑选N个样本进行随机线性插值。
3.构造新的少数类样本。
4.将新样本与原数据合成，产生新的训练集。

SMOTE算法的手工案例

在这里插入图片描述
1.利用第11章所介绍的KNN算法，选择离样本点x_1最近的k个同类样本点(不放最近邻为5).
2.从最近的k个同类样本点中，随机挑选M个样本点（不妨设M为2），M的选择依赖于最终所希望的平衡率。
3.对于每一个随机选中的样本点，构造新的样本点。新样本点的构造需要使用下方的公式：
$x_{new}=x_i +rand(0,1)*(x_j-x_i) ,j=1,2,...M$
其中，x_i表示少数类别中的一个样本点(如图中五角星所代表的 $x_1$ 样本)； $x_j$ 表示从k近邻中随机挑选的样本点j;
rand(0,1)表示生成0-1的随机数。

假设图中样本点 $x_1$ 的观测值为(2,3,10,7),从图中的5个近邻随机挑选两个样本点，它们的观测值分别为(1,1,5,8)和(2,1,7,6),
由此得到的两个新样本点为：
$x_{new1} =(2,3,10,7)+0.3*((1,1,5,8)-(2,3,10,7)) =(1.7,2.4,8.5,7.3)$
$x_{new2} =(2,3,10,7)+0.26*((2,1,7,6)-(2,3,10,7)) =(2,2.48,9.22,6.74)$

4.重复步骤1,2,3，通过迭代少数类别中的每一个样本 $x_i$ ,最终将原始的少数类别样本量扩大为理想的比例。

SMOTE函数

SMOTE(ratio='auto', random_state=None, k_neighbors=5, m_neighbors=10)

ratio：用于指定重抽样的比例，如果指定字符型的值，可以是’minority’（表示对少数类别的样本进行抽样）、‘majority’（表示对多数类别的样本进行抽样）、‘not minority’（表示采用欠采样方法）、‘all’（表示采用过采样方法），默认为’auto’，等同于’all’和’not minority’。如果指定字典型的值，其中键为各个类别标签，值为类别下的样本量。
random_state：用于指定随机数生成器的种子，默认为None，表示使用默认的随机数生成器。
k_neighbors：指定近邻个数，默认为5个。
m_neighbors：指定从近邻样本中随机挑选的样本个数，默认为10个。

示例

from imblearn.over_sampling import SMOTE
from sklearn.datasets import make_classification
from collections import Counter

# 生成一个不平衡数据集
X, y = make_classification(n_classes=2, class_sep=2,
                           weights=[0.1, 0.9], n_informative=3,
                           n_redundant=1, flip_y=0, n_features=20,
                           n_clusters_per_class=1, n_samples=1000, random_state=10)

print('原始数据集类别分布:', Counter(y))

# 初始化SMOTE
smote = SMOTE(sampling_strategy='auto', random_state=42, k_neighbors=5)

# 生成新的样本
X_resampled, y_resampled = smote.fit_resample(X, y)

print('经过SMOTE处理后的类别分布:', Counter(y_resampled))

结果如下：

原始数据集类别分布: Counter({np.int64(1): 900, np.int64(0): 100})
经过SMOTE处理后的类别分布: Counter({np.int64(0): 900, np.int64(1): 900})

查看全文

http://www.kler.cn/a/571818.html

DeepSeek本地接口调用（Ollama）

【一文学会 HTML】

基于单片机的可燃气体火灾报警器的设计与实现

2.反向传播机制简述——大模型开发深度学习理论基础

如何将飞书多维表格与DeepSeek R1结合使用：效率提升的完美搭档

【每日学点HarmonyOS Next知识】网络请求回调toast问题、Popup问题、禁止弹窗返回、navigation折叠屏不显示返回键、响应式布局

匹配HTML标签中 href 属性的正则表达式

开源向量数据库Milvus简介

公司网络安全组织结构

rnmapbox

单例模式记录

信贷风控系统架构设计

厦门大学第3弹：DeepSeek大模型及其企业应用实践（150页PPT，企业人员的大模型宝典）

深度学习神经网络分类原理

串口通讯基础

javaweb自用笔记：Vue

【朝夕教育】《鸿蒙原生应用开发从零基础到多实战》004-TypeScript 中的泛型

【MATLAB源码-第269期】基于matlab的鱼鹰优化算法(OOA)无人机三维路径规划，输出做短路径图和适应度曲线.

显式 GC 的使用：留与去，如何选择？

深入 Java 的 Queue 容器