当前位置：首页 > article >正文

数据预处理实战：缺失值处理与数据标准化

article 2025/2/28 14:56:40

数据预处理实战：缺失值处理与数据标准化

1. 数据集介绍

2. 缺失值处理

3. 数据标准化

4. 总结

数据预处理实战：缺失值处理与数据标准化

在数据分析与机器学习项目中，数据预处理是至关重要的一步。现实中，数据集常常存在缺失值、异常值等问题，这会影响模型的性能。因此，对数据进行缺失值处理和标准化处理十分必要。本文将通过一个具体的 Python 代码示例，详细讲解如何使用 Pandas 和 Scikit-learn 进行数据预处理。

1. 数据集介绍

假设我们有一个数据集，其中包含一些数值特征以及部分缺失值。缺失值可能由数据采集过程中的错误或数据丢失造成。在本文中，我们将展示如何填充缺失值，并使用标准化方法将特征数据转换为均值为 0、标准差为 1 的分布。

2. 缺失值处理

在处理缺失值时，常用的方法有：

删除包含缺失值的样本或特征；
使用统计值（如均值、中位数）填充缺失值；
使用更复杂的插值或预测方法进行填充。

在本示例中，我们将使用 Pandas 内置的 fillna 方法，通过均值填充缺失值。

import pandas as pd
import numpy as np

# 构造一个示例数据集
data = {
    'feature1': [1.0, 2.0, np.nan, 4.0, 5.0],
    'feature2': [2.0, np.nan, 6.0, 8.0, 10.0],
    'feature3': [np.nan, 3.0, 5.0, 7.0, 9.0]
}
df = pd.DataFrame(data)
print("原始数据：")
print(df)

# 使用均值填充缺失值
df_filled = df.fillna(df.mean())
print("\n填充缺失值后的数据：")
print(df_filled)

代码解析：

我们首先构造了一个包含缺失值的 DataFrame。
通过 df.mean() 计算每个特征的均值，然后使用 fillna 方法填充缺失值，得到完整的数据集。

3. 数据标准化

标准化是将数据转换为均值为 0，标准差为 1 的分布，这对于大多数机器学习算法尤其是基于梯度下降的优化算法非常有帮助。我们可以使用 Scikit-learn 提供的 StandardScaler 进行标准化。

from sklearn.preprocessing import StandardScaler

# 实例化 StandardScaler
scaler = StandardScaler()

# 对填充后的数据进行标准化处理
scaled_data = scaler.fit_transform(df_filled)
df_scaled = pd.DataFrame(scaled_data, columns=df_filled.columns)
print("\n标准化后的数据：")
print(df_scaled)

代码解析：