当前位置: 首页 > article >正文

用Python实现时间序列模型实战——Day 3: 时间序列数据预处理

一、学习内容
1. 时间序列的差分运算

差分运算

  • 差分运算是时间序列平稳化的一种方法,通过计算相邻时间点的差值来消除序列中的趋势和季节性成分。

  • 一阶差分用于去除线性趋势,公式为:

    y'_t = y_t - y_{t-1}

    其中:

        y_t是时间 t 的原始值,

        y'_t 是一阶差分后的值。

  • 二阶差分用于去除更复杂的趋势,公式为:

    y''_t = y'_t - y'_{t-1} = (y_t - y_{t-1}) - (y_{t-1} - y_{t-2}) = y_t - 2y_{t-1} + y_{t-2}]

        其中:

        y_t是时间 t 的原始值,

        y'_t是一阶差分后的值,

        y''_t是二阶差分后的值。

2. 时间序列的去趋势与去季节性

去趋势

  • 去趋势是指通过去除时间序列中的长期趋势成分,使数据更适合用于建模。常见的方法包括差分法和回归法。

去季节性

  • 去季节性是指消除时间序列中的季节性成分,以便更好地分析数据的长期趋势和随机成分。通常通过移动平均法或季节性差分来实现。
3. 时间序列的平滑技术(移动平均法)

移动平均法

  • 移动平均法是一种通过计算数据的平均值来平滑时间序列的方法,帮助减少数据中的波动,使趋势和季节性更加明显。
  • 简单移动平均 (SMA) 是最常见的平滑方法,计算方式为:

         SMA_t = \frac{y_t + y_{t-1} + \dots + y_{t-n+1}}{n}

        其中:

        y_t是时间 t 的原始值,

        n 是移动平均的窗口大小。

        SMA_t是时间 t计算得到的移动平均值。

二、实战案例
1. 数据加载与原始数据可视化
import pandas as pd
import matplotlib.pyplot as plt

# 加载时间序列数据集
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/airline-passengers.csv"
data = pd.read_csv(url, parse_dates=['Month'], index_col='Month')

# 绘制原始数据的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(data['Passengers'], label='Original')
plt.title('Original Time Series')
plt.xlabel('Date')
plt.ylabel('Number of Passengers')
plt.legend()
plt.grid(True)
plt.show()

输出结果:

原始数据的时间序列图:图表显示了航空乘客数量的时间序列,存在明显的上升趋势和季节性波动。 

程序解释:

我们首先加载了 airline_passengers 数据集,该数据集记录了 1949 年至 1960 年期间的航空乘客数量。

然后,我们绘制了原始数据的时间序列图,显示乘客数量随时间的变化。

2. 一阶差分
# 一阶差分
data_diff = data.diff().dropna()

# 绘制一阶差分后的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(data_diff['Passengers'], label='First Order Differencing', color='orange')
plt.title('First Order Differencing')
plt.xlabel('Date')
plt.ylabel('Differenced Passengers')
plt.legend()
plt.grid(True)
plt.show()

输出结果:

 

一阶差分后的时间序列图:差分后的序列消除了线性趋势,数据围绕零上下波动,说明差分操作有效地去除了趋势成分。 

程序解释:

我们计算了时间序列的一阶差分,以消除数据中的线性趋势。

使用 data.diff() 计算一阶差分,.dropna() 去除首行的 NaN 值(因为差分操作会导致首行数据为空)。

差分后的时间序列图显示了去趋势后的数据波动情况。

3. 移动平均去趋势
# 移动平均去趋势 (12个月的窗口)
data['12-months SMA'] = data['Passengers'].rolling(window=12).mean()

# 绘制移动平均后的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(data['Passengers'], label='Original')
plt.plot(data['12-months SMA'], label='12-Months SMA', color='red')
plt.title('12-Months Simple Moving Average (SMA)')
plt.xlabel('Date')
plt.ylabel('Number of Passengers')
plt.legend()
plt.grid(True)
plt.show()

输出结果:

 

移动平均去趋势的时间序列图:使用 12 个月的窗口计算的 SMA 平滑了数据,使得趋势更加明显,同时保留了数据中的季节性成分。 

程序解释:

我们使用 12 个月的简单移动平均 (SMA) 来平滑数据,消除季节性波动,使长期趋势更加明显。

使用 rolling(window=12).mean() 计算 12 个月的 SMA,并将其绘制在原始数据的图上进行比较。

4. 去季节性处理
# 去季节性 (差分一年)
data_seasonal_diff = data['Passengers'].diff(periods=12).dropna()

# 绘制去季节性后的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(data_seasonal_diff, label='Seasonal Differencing (12 months)', color='green')
plt.title('Seasonal Differencing (12 months)')
plt.xlabel('Date')
plt.ylabel('Differenced Passengers')
plt.legend()
plt.grid(True)
plt.show()

输出结果:

 

去季节性后的时间序列图:季节性差分有效地去除了数据中的季节性波动,序列变得更平稳。

 程序解释:

通过季节性差分 (period=12) 去除数据中的季节性成分。

绘制去季节性后的时间序列图,显示差分处理后的序列变化。

三、运行结果分析
1. 一阶差分

差分运算有效地去除了时间序列中的趋势成分。差分后的数据不再表现出明显的趋势,变得更加平稳,适合进一步的时间序列建模。

2. 移动平均去趋势

移动平均法通过平滑数据,消除了数据中的短期波动,使长期趋势更加明显。然而,这种方法可能会滞后于实际趋势,且移动平均后的数据仍保留了季节性成分。

3. 去季节性处理

季节性差分消除了序列中的季节性波动,使得数据更加平稳。这是建模和预测前的重要步骤,尤其是对于存在明显季节性的时间序列。

通过这些预处理步骤,我们能够将原始的非平稳时间序列转化为平稳序列,从而为后续的时间序列建模(如 ARIMA 模型)奠定基础。这些预处理技术是时间序列分析中不可或缺的部分,有助于提高模型的准确性和稳定性。


http://www.kler.cn/a/286643.html

相关文章:

  • MongoDB 备份与恢复综述
  • 【Flask】在Flask应用中使用Flask-Limiter进行简单CC攻击防御
  • Baklib如何推动企业知识管理的创新与转型探讨
  • 【机器学习】穷理至极,观微知著:微积分的哲思之旅与算法之道
  • 【Uniapp-Vue3】动态设置页面导航条的样式
  • openssl交叉编译(这次基本上正规了)
  • 经验笔记:理解中间件及其在软件开发中的应用
  • 通过python 操作mysql 脚本
  • 『功能项目』怪物受击后显示受击状态UI【12】
  • 通义说【线性代数】线性方程组和线性代数的关系
  • LeetCode - 11 盛最多水的容器
  • nrm|npm快速切源
  • 旅行追踪和行程规划工具AdventureLog
  • 基于微信小程序的挂号管理系统-小程序端
  • 【工具】bash、zsh的切换,使用oh-my-zsh修改颜色主题
  • 集成电路学习:什么是GUI图形用户界面
  • Colly官方文档入门教程
  • pytest运行冒烟用例:冒烟类和冒烟函数区别
  • 【栈经典问题剖析】上
  • linux环境下安装配置go环境
  • [M二叉树] lc98. 验证二叉搜索树(dfs+多方法+前中后序+算法思维)
  • 深度解析提升 Kafka 效率的多种关键手段
  • 大数据基础:离线与实时数仓区别和建设思路
  • 【攻防世界新手入门】simple_js
  • 弹性资源组件集成系列(二)elastic-job集成弹性资源设计解释
  • Linux高级编程-进程间通信(IPC)