当前位置: 首页 > article >正文

【2024】Wavelet Mixture of Experts for Time Series Forecasting

1.方法

在这里插入图片描述

1.输入数据(X):
输入数据是一个时间序列信号,表示为波形信号。这个信号在处理之前首先通过 Reversible Instance Normalization (RevIN) 进行归一化,以确保其在后续的分析中保持一致的尺度和分布。

2.小波变换(DWT):
数据接着通过 离散小波变换(Discrete Wavelet Transform, DWT)进行处理。小波变换会将信号分解成两个部分:

  • 低频部分(Approximate Coefficient, XA):它捕捉信号的周期性和主要趋势。
  • 高频部分(Detail Coefficient, XD):它捕捉信号的噪声和细节。
    在此步骤中,高通滤波器(h[t])和 低通滤波器(g[t])用于从输入信号中提取这两个不同的成分。

3.低频部分(XA)的处理:
对于低频部分(XA),有两种处理方式,根据使用的模型不同:
WaveTS-B(基础模型):

  • MLP(多层感知机) 用来处理低频部分。MLP是一个简单的前馈神经网络,它将低频部分的输入(XA)传入并进行预测。
    WaveTS-M(高级模型):
  • 在WaveTS-M中,除了使用MLP外,还加入了 专家混合模型(MoE) 来对低频部分进行更加细致的处理。

4.专家混合模型(MoE)的工作原理:
1. 门控网络(Gating Network):
门控网络的任务是根据输入数据 XA 动态地计算每个通道的权重。这些权重用于决定不同 专家网络(Expert Networks) 的重要性。门控网络的输出是一个概率分布,表示每个专家网络在当前任务中的重要性(即每个专家的“权重”)。

2. 专家网络(Expert Networks):
每个专家网络是一个单独的神经网络,它专注于数据的不同特征。通过门控网络的引导,每个专家根据分配的权重专门处理特定部分的数据,进行独立的预测。每个专家有自己特定的擅长领域,可能适合不同的数据模式或者特征。多个专家的预测结果会通过门控网络的权重进行加权融合,得到最终的输出。

输出层(Y) 部分是你需要修改的地方。从 回归 输出(连续数值)改为 分类 输出(类别概率)。需要加一个 Softmax 层来生成类别概率,并使用 交叉熵损失 来训练模型。其他的部分,如 MoE 和 MLP 结构,依然适用,可以保持不变。

5.预测组合:
WaveTS-M模型最终的低频部分(XA)的预测是通过门控网络和专家网络的联合工作完成的。每个专家根据自己的擅长领域做出预测,然后门控网络根据不同专家的权重动态加权,最终产生低频部分的预测。
这个加权的预测会与 高频部分(XD) 进行融合。高频部分使用 线性变换(Linear) 来处理。最终,低频和高频部分的预测会合并,得到完整的时间序列预测。

6.逆归一化(iRevIN):
最后,预测结果会通过 逆归一化(iRevIN) 进行处理,以恢复到原始数据的尺度和分布,得到最终的预测值。


http://www.kler.cn/a/551035.html

相关文章:

  • 函数的返回值的使用
  • C# 运算符
  • Fink与Hadoop的简介以及联系
  • WhatRuns指纹识别下载安装使用教程,图文教程(超详细)
  • 【全栈】SprintBoot+vue3迷你商城-细节解析(1):Token、Jwt令牌、Redis、ThreadLocal变量
  • 安全问答—安全的基本架构
  • NLP基础-人工评估(Human Evaluation)
  • 如何选择合适的超参数来训练Bert和TextCNN模型?
  • PyCharm 中的 %reset -f 功能:一键重置控制台变量
  • 【MySQL】我在广州学Mysql 系列——Mysql 日志管理详解
  • Ubuntu虚拟机NDK编译ffmpeg
  • 富唯智能可重构柔性装配产线:以智能协同赋能制造业升级
  • 洗衣洗鞋上门预约融合小程序新模式
  • 50页PDF|数字化转型成熟度模型与评估(附下载)
  • Word中样式的管理
  • 百度千帆平台对接DeepSeek官方文档
  • Linux驱动学习(一)--符号表
  • [LeetCode力扣hot100]-二叉树相关手撕题
  • Ubuntu 下 systemd 介绍
  • 机柜机箱制冷风扇在使用过程中突然停止运转的原因