当前位置：首页 > article >正文

sklearn_pandas.DataFrameMapper的用法

article 2025/2/28 15:47:34

文章目录

介绍
主要作用
基本用法
示例
- 对不同列应用不同的转换器
- 对多列应用相同的转换器
- 输出为 Pandas DataFrame
注意事项
- 转换器的适用性：
- 输出格式：
- 与 scikit-learn 的兼容性：

介绍

DataFrameMapper 是 sklearn-pandas 库中的一个工具，主要用于将 Pandas DataFrame 与 scikit-learn 的预处理工具无缝结合。它的作用是将 DataFrame 的列映射到特定的特征转换器（如标准化、编码等），从而方便地对不同列应用不同的预处理操作。

主要作用

列选择与特征转换：可以对 DataFrame 的不同列指定不同的预处理方法（如标准化、独热编码等）。
与 scikit-learn 集成：生成的特征矩阵可以直接用于 scikit-learn 的模型训练和预测。
简化预处理流程：避免手动对 DataFrame 的列进行分割和转换，提供了一个统一的接口。

基本用法

DataFrameMapper 的基本用法是将 DataFrame 的列与特定的转换器（如 StandardScaler、OneHotEncoder 等）映射起来。

from sklearn_pandas import DataFrameMapper  

mapper = DataFrameMapper([  
    ('column_name', transformer),  # 对某列应用特定的转换器  
    (['col1', 'col2'], transformer),  # 对多列应用同一个转换器  
    ('column_name', None)  # 不对某列进行转换  
])

示例

对不同列应用不同的转换器

import pandas as pd  
from sklearn_pandas import DataFrameMapper  
from sklearn.preprocessing import StandardScaler, OneHotEncoder  

# 创建一个示例 DataFrame  
data = pd.DataFrame({  
    'age': [25, 32, 47],  
    'income': [50000, 60000, 120000],  
    'gender': ['male', 'female', 'male']  
})  

# 定义 DataFrameMapper  
mapper = DataFrameMapper([  
    ('age', StandardScaler()),  # 对 'age' 列进行标准化  
    ('income', StandardScaler()),  # 对 'income' 列进行标准化  
    ('gender', OneHotEncoder())  # 对 'gender' 列进行独热编码  
])  

# 转换数据  
transformed_data = mapper.fit_transform(data)  
print(transformed_data)

对多列应用相同的转换器

mapper = DataFrameMapper([  
    (['age', 'income'], StandardScaler()),  # 对 'age' 和 'income' 同时进行标准化  
    ('gender', OneHotEncoder())  # 对 'gender' 进行独热编码  
])  

transformed_data = mapper.fit_transform(data)  
print(transformed_data)

输出为 Pandas DataFrame

如果希望输出结果为 Pandas DataFrame，可以设置 df_out=True。

mapper = DataFrameMapper([  
    ('age', StandardScaler()),  
    ('income', StandardScaler()),  
    ('gender', OneHotEncoder())  
], df_out=True)  

transformed_data = mapper.fit_transform(data)  
print(transformed_data)