当前位置：首页 > article >正文

新手村：数据预处理-缺失值补充策略

article 2025/3/17 14:47:45

新手村：数据预处理-缺失值补充策略

在这里插入图片描述

缺失值补充策略

策略	描述	适用场景	优点	缺点
删除含有缺失值的行或列	删除包含任何缺失值的行或列。	当缺失值`比例较小且数据量较大`时。	简单直接，不会引入新的误差。	可能导致数据丢失，特别是在缺失值较多的情况下。
用固定值填充	使用一个特定值（如0、均值、中位数等）来填充缺失值。	`数据分布较为均匀，缺失值不是特别多时`。	简单易行，适用于大多数情况。	如果选择的固定值不合适，可能会引入偏差。
用插值法填充	对于`有序数据`，使用插值法（如线性插值）来估计缺失值。	时间序列数据或其他有序数据。	能较好地保留数据的趋势和模式。	对于非有序数据效果不佳。
用模型预测填充	使用机器学习模型（如KNN、随机森林等）预测并填充缺失值。	`复杂数据集，缺失值较多且有较强的相关性时`。	能够更准确地填充缺失值，特别是当数据之间存在复杂关系时。	实现复杂，`计算成本较高`，需要更多的计算资源和时间。

示例代码与解释

删除含有缺失值的行或列

import pandas as pd
import numpy as np

# 创建一个示例数据集
data = {
    'A': [1, 2, np.nan, 4, 5],
    'B': [np.nan, 2, 3, 4, 5],
    'C': [1, np.nan, np.nan, 4, 5]
}

df = pd.DataFrame(data)

# 删除含有缺失值的行
df_dropped_rows = df.dropna()
print("删除含有缺失值的行后的数据：")
print(df_dropped_rows)

# 删除含有缺失值的列
df_dropped_columns = df.dropna(axis=1)
print("\n删除含有缺失值的列后的数据：")
print(df_dropped_columns)

在这里插入图片描述

用固定值填充

# 用均值填充缺失值
df_filled_mean = df.fillna(df.mean())
print("\n用均值填充缺失值后的数据：")
print(df_filled_mean)

# 用中位数填充缺失值
df_filled_median = df.fillna(df.median())
print("\n用中位数填充缺失值后的数据：")
print(df_filled_median)

# 用固定值（如0）填充缺失值
df_filled_zero = df.fillna(0)
print("\n用0填充缺失值后的数据：")
print(df_filled_zero)

在这里插入图片描述

用插值法填充

# 用线性插值法填充缺失值
df_interpolated = df.interpolate()
#df_interpolated = df.interpolate(axis=1)
print("\n用线性插值法填充缺失值后的数据：")
print(df_interpolated)

在这里插入图片描述

用模型预测填充

from sklearn.impute import KNNImputer

# 使用KNN算法进行缺失值填充
imputer = KNNImputer(n_neighbors=2)
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print("\n用KNN算法填充缺失值后的数据：")
print(df_imputed)