当前位置: 首页 > article >正文

从0开始深度学习(28)——序列模型

序列模型是指一类特别设计来处理序列数据的神经网络模型。序列数据指的是数据中的每个元素都有先后顺序,比如时间序列数据(股票价格、天气变化等)、自然语言文本(句子中的单词顺序)、语音信号等。

1 统计工具

前面介绍了卷积神经网络架构,但是在处理序列数据时,需要新的神经网络架构,下面以股票价格为例:
在这里插入图片描述
我们用 x t x_{t} xt表示价格,其中 t t t表示时间步(time step),也就是在时间步 t t t时观察到的价格 x t x_{t} xt,我们通过下列公式来表示我们预测第 t t t日的价格:
x t ∼ P ( x t ∣ x t − 1 , … , x 1 ) . x_t \sim P(x_t \mid x_{t-1}, \ldots, x_1). xtP(xtxt1,,x1).
即,在已知 1 1 1 t − 1 t-1 t1 的价格,求第 t t t 天的价格的概率分布。

1.1 自回归模型

为了实现这个预测,可以使用自回归模型:假设当前值 y t y_{t} yt 与过去的值 y t − 1 , y t − 2 , . . . y t − p y_{t-1} , y_{t-2} , ...y_{t-p} yt1,yt2,...ytp 之间存在线性关系,一般形式为 :
在这里插入图片描述
其中:
在这里插入图片描述
大致分为两种策略:
①自回归模型: 假设在现实情况下相当长的序列 x t − 1 , … , x 1 x_{t-1}, \ldots, x_1 xt1,,x1可能是没价值的,因此我们只需要满足某个长度为 τ \tau τ的时间跨度, 即使用观测序列 x t − 1 , … , x t − τ x_{t-1}, \ldots, x_{t-\tau} xt1,,xtτ。也就是说过长的历史序列可能并不必要,因此只需要关注较短的一段历史数据即可。因为只考虑观测值本身,所以叫自回归模型

②隐变量自回归模型: 即保留一些对过去观测的总结 h t h_{t} ht,这个“总结”是无法直观解释的,它是模型自助捕捉的内部关系依赖,然后同时更新预测值 x ^ t \hat{x}_t x^t h t h_t ht,即变为下列式子: x ^ t = P ( x t ∣ h t ) 和 h t = g ( h t − 1 , x t − 1 ) \hat{x}_t = P(x_t \mid h_{t}) 和h_t = g(h_{t-1}, x_{t-1}) x^t=P(xtht)ht=g(ht1,xt1)由于 h t h_{t} ht h t h_{t} ht从未被观测到,这类模型也被称为隐变量自回归模型,这里做出一个假设,即序列本身的动力学(数据随时间演变的方式)不会改变,意味着我们可以用过去的数据来推断未来的趋势,因为我们假定基本的动态规则是一致的。因此,整个序列的概率值可以表示为一系列条件概率的乘积:
P ( x 1 , … , x T ) = ∏ t = 1 T P ( x t ∣ x t − 1 , … , x 1 ) . P(x_1, \ldots, x_T) = \prod_{t=1}^T P(x_t \mid x_{t-1}, \ldots, x_1). P(x1,,xT)=t=1TP(xtxt1,,x1).
注意,如果我们处理的是离散的对象(如单词), 而不是连续的数字,则上述的考虑仍然有效。我们需要使用分类器而不是回归模型来估计

1.2 马尔可夫模型

马尔可夫条件: 在自回归模型中,如果 t t t 时刻的数值,只与 x t − 1 , … , x t − τ x_{t-1}, \ldots, x_{t-\tau} xt1,,xtτ 有关,而不是整个过去的序列,则称其满足马尔可夫条件。

如果 τ = 1 \tau = 1 τ=1 ,则得到了一个一阶马尔可夫模型 P ( x ) P(x) P(x)由如下公式表示:
P ( x 1 , … , x T ) = ∏ t = 1 T P ( x t ∣ x t − 1 )  当  P ( x 1 ∣ x 0 ) = P ( x 1 ) . P(x_1, \ldots, x_T) = \prod_{t=1}^T P(x_t \mid x_{t-1}) \text{ 当 } P(x_1 \mid x_0) = P(x_1). P(x1,,xT)=t=1TP(xtxt1)  P(x1x0)=P(x1).
若当假设 x t x_t xt 仅是离散值时,可以使用动态规划可以沿着马尔可夫链精确地计算结果。

2 训练、预测

下面我们将用一个正弦函数和一些噪声生成1000个序列数据,并使用自回归模型进行训练和预测

2.1 生成数据

import torch
from torch import nn
import matplotlib.pyplot as plt
import numpy as np
from torch.utils.data import TensorDataset, DataLoader

T=1000
time=torch.arange(1,T+1,dtype=torch.float32)
x=torch.sin(0.01*time)+torch.normal(0,0.2,(T,))
# 绘制折线图
plt.plot(time, x)
plt.xlabel('Time')
plt.ylabel('Value')
plt.title('Time Series Data')
plt.show()

运行结果
在这里插入图片描述

2.2 构造数据集

我们是准备用 y t = F ( X t ) y_t=F(X_t) yt=F(Xt),其中 X t = [ x t − τ , … , x t − 1 ] X_t= [x_{t-\tau}, \ldots, x_{t-1}] Xt=[xtτ,,xt1],我们这里假设 τ = 4 \tau=4 τ=4,即用前四个数据来预测下一个数据,但是这样的话,前 4 4 4 个数据就没有历史样本去描述了,一般的做法是直接舍弃,或者用零序列去填充

这里我们用600个数据进行训练,剩余的用于预测。

构建数据集时,使用滑动窗口去构建:
在这里插入图片描述

# 构造数据集
tau=4

# 初始化特征矩阵,因为前四个值就是当前值的特征
features = torch.zeros((T - tau, tau))
for i in range(T - tau): # 用滑动窗口进行构建
    features[i,:]=x[i:tau+i]
print('features:',features.shape)
print(features[:5])

labels = x[tau:].reshape((-1, 1))
print('labels:',labels.shape)
print(labels[:5])

batch_size = 16
n = 600  # 只有前600个样本用于训练
dataset = TensorDataset(features[:n], labels[:n])
train_iter = DataLoader(dataset, batch_size=batch_size, shuffle=False)

运行结果
在这里插入图片描述

2.3 构造模型进行训练

# 构造模型
def init_weights(m):
    if type(m)==nn.Linear:
        nn.init.xavier_uniform_(m.weight)

def net():
    net=nn.Sequential(
        nn.Linear(4,10),
        nn.ReLU(),
        nn.Linear(10,1)
    )
    net.apply(init_weights)
    return net
    
# 评估模型在给定数据集上的损失
def evaluate_loss(net, data_iter, loss):
    """评估模型在给定数据集上的损失"""
    net.eval()  # 设置模型为评估模式
    total_loss = 0.0
    with torch.no_grad():  # 不计算梯度
        for X, y in data_iter:
            y_hat = net(X)
            l = loss(y_hat, y)
            total_loss += l.sum().item()  # 计算总损失
    net.train()  # 恢复模型为训练模式
    return total_loss / len(data_iter.dataset)


loss=nn.MSELoss(reduction='none')
lr=0.01
net=net()
optimzer=torch.optim.Adam(net.parameters(),lr)
loss_sum=[]
num_epoch=20
def train(net,num_epoch,train_iter,loss,optimzer,loss_sum):
    for epoch in range(num_epoch):
        for x,y in train_iter:
            optimzer.zero_grad()
            l=loss(net(x),y)
            l.sum().backward()
            optimzer.step()
        temp=evaluate_loss(net,train_iter,loss)
        loss_sum.append(temp)
        print("epoch ",epoch+1,": loss:",temp)

train(net,num_epoch,train_iter,loss,optimzer,loss_sum)
            
# 绘制折线图
plt.plot(range(num_epoch), loss_sum)
plt.xlabel('epoch')
plt.ylabel('loss')
plt.show()

运行结果
在这里插入图片描述

2.4 预测

# 使用模型进行预测
def predict(net, data_iter):
    net.eval()  # 设置模型为评估模式
    predictions = []
    with torch.no_grad():  # 不计算梯度
        for X, y in data_iter:
            y_hat = net(X)
            predictions.extend(y_hat.numpy())
    net.train()  # 恢复模型为训练模式
    return predictions

# 获取测试集的预测结果
predictions = predict(net, test_iter)

# 绘制预测结果与真实值的对比图
true_values = labels[n:].numpy()
plt.plot(true_values, label='True Values')
plt.plot(predictions, label='Predictions')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()

运行结果
在这里插入图片描述

2.5 多步预测

# 多步预测
def multistep_predict(net, data_iter, steps):
    net.eval()  
    multistep_predictions = []
    with torch.no_grad():  
        for X, y in data_iter:
            current_features = X.clone()
            for _ in range(steps):
         '''在每一步中,模型用 current_features 作为输入,并预测出 y_hat。
            然后将 y_hat 拼接到 current_features 的末尾,
            同时移除 current_features 的第一个时间步,
            保持输入长度不变。这样,y_hat 成为下一步的输入'''
                y_hat = net(current_features)
                current_features = torch.cat([current_features[:, 1:], y_hat], dim=1)
            multistep_predictions.extend(y_hat.numpy())
    net.train() 
    return multistep_predictions

# 获取测试集的不同步数的多步预测结果
steps = [4, 16, 32]
multistep_predictions = {step: multistep_predict(net, test_iter, step) for step in steps}

# 绘制结果
plt.figure(figsize=(12, 6))  # 设置图像的宽度为12英寸,高度为6英寸
plt.plot(true_values, label='True Values')
plt.plot(ones_predictions, label='1-step Predictions')
for step, preds in multistep_predictions.items():
    plt.plot(preds, label=f'{step}-step Predictions')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()

在这里插入图片描述
上述的多步预测是迭代预测法,即用自己预测数据再去预测下一个数据,另一种方法是seq2seq,后面在介绍,迭代预测法如下图所示:
在这里插入图片描述


http://www.kler.cn/a/387475.html

相关文章:

  • 深度学习服务器租赁AutoDL
  • 35.3K+ Star!PhotoPrism:一款基于AI的开源照片管理工具
  • 即插即用篇 | YOLOv8 引入 代理注意力 AgentAttention
  • AI赋能电商:创新应用提升销售与用户体验
  • 微服务电商平台课程三:搭建后台服务
  • 探索 Seata 分布式事务
  • 在 CIFAR10 数据集上训练 Vision Transformer (ViT)
  • 解释一下Java中的异常处理机制
  • IDM扩展添加到Edge浏览器
  • 怎么给llama3.2-vision:90b模型进行量化剪枝蒸馏
  • 类加载的生命周期?
  • opencv实时弯道检测
  • 1.6K+ Star!Ichigo:一个开源的实时语音AI项目
  • 华为机试HJ29 字符串加解密
  • SDL打开YUV视频
  • AI和大模型技术在网络脆弱性扫描领域的最新进展与未来发展趋势
  • [C++ 核心编程]笔记 4.4.3 成员函数做友元
  • <<零基础C++第一期, C++入门基础>>
  • 打造完整 Transformer 编码器:逐步实现高效深度学习模块
  • 深度学习在大数据处理中的应用
  • 电子电气架构 --- 车载以太网架构安全性要求
  • Qt使用属性树(QtProPertyBrowser)时,引用报错#include “QtTreePropertyBrowser“解决方案
  • HDR视频技术之二:光电转换与 HDR 图像显示
  • python批量合并excel文件
  • 经典的ORACLE 11/12/19闪回操作
  • 前端vue3若依框架pnpm run dev启动报错