数据分析-33-时间序列特征工程及feature-engine库的应用
文章目录
- 1 空气质量数据分析
-
- 1.1 数据集简介
- 1.2 加载xlsx文件
- 1.3 数据预处理
- 1.4 加载CSV文件
- 1.5 数据清洗
- 2 时间序列的特征工程
-
- 2.1 常见的时间序列特征类型
- 2.2 feature-engine库
- 2.3 特征工程
-
- 2.3.1 数据过滤
- 2.3.2 日期时间特征
- 2.3.3 滞后特征
- 2.3.4 窗口特征
- 2.3.5 移除空值
- 2.3.6 移除特征
- 2.4 应用pipeline
- 3 参考附录
1 空气质量数据分析
1.1 数据集简介
包含部署在意大利城市现场的气体多传感器设备的响应。记录每小时的平均响应以及来自认证分析仪的气体浓度参考。
该数据集包含 9358 个嵌入空气质量化学多传感器设备中的 5 个金属氧化物化学传感器阵列的每小时平均响应实例。该设备位于意大利城市内道路水平的严重污染区域的现场。数据记录于 2004 年 3 月至 2005 年 2 月(一年),代表了现场部署的空气质量化学传感器设备响应的最长免费记录。CO、非金属碳氢化合物、苯、总氮氧化物(NOx)和二氧化氮(NO2)的实况每小时平均浓度,并由位于同一位置的参考认证分析仪提供。
缺失值用 - 200 值标记。
此数据集可专门用于研究目的。完全排除商业目的。
1.2 加载xlsx文件
import pandas as pd
# 读取数据
df = pd.read_excel(