【2024】Wavelet Mixture of Experts for Time Series Forecasting
1.方法
1.输入数据(X):
输入数据是一个时间序列信号,表示为波形信号。这个信号在处理之前首先通过 Reversible Instance Normalization (RevIN) 进行归一化,以确保其在后续的分析中保持一致的尺度和分布。
2.小波变换(DWT):
数据接着通过 离散小波变换(Discrete Wavelet Transform, DWT)进行处理。小波变换会将信号分解成两个部分:
- 低频部分(Approximate Coefficient, XA):它捕捉信号的周期性和主要趋势。
- 高频部分(Detail Coefficient, XD):它捕捉信号的噪声和细节。
在此步骤中,高通滤波器(h[t])和 低通滤波器(g[t])用于从输入信号中提取这两个不同的成分。
3.低频部分(XA)的处理:
对于低频部分(XA),有两种处理方式,根据使用的模型不同:
WaveTS-B(基础模型):
- MLP(多层感知机) 用来处理低频部分。MLP是一个简单的前馈神经网络,它将低频部分的输入(XA)传入并进行预测。
WaveTS-M(高级模型): - 在WaveTS-M中,除了使用MLP外,还加入了 专家混合模型(MoE) 来对低频部分进行更加细致的处理。
4.专家混合模型(MoE)的工作原理:
1. 门控网络(Gating Network):
门控网络的任务是根据输入数据 XA 动态地计算每个通道的权重。这些权重用于决定不同 专家网络(Expert Networks) 的重要性。门控网络的输出是一个概率分布,表示每个专家网络在当前任务中的重要性(即每个专家的“权重”)。
2. 专家网络(Expert Networks):
每个专家网络是一个单独的神经网络,它专注于数据的不同特征。通过门控网络的引导,每个专家根据分配的权重专门处理特定部分的数据,进行独立的预测。每个专家有自己特定的擅长领域,可能适合不同的数据模式或者特征。多个专家的预测结果会通过门控网络的权重进行加权融合,得到最终的输出。
输出层(Y) 部分是你需要修改的地方。从 回归 输出(连续数值)改为 分类 输出(类别概率)。需要加一个 Softmax 层来生成类别概率,并使用 交叉熵损失 来训练模型。其他的部分,如 MoE 和 MLP 结构,依然适用,可以保持不变。
5.预测组合:
WaveTS-M模型最终的低频部分(XA)的预测是通过门控网络和专家网络的联合工作完成的。每个专家根据自己的擅长领域做出预测,然后门控网络根据不同专家的权重动态加权,最终产生低频部分的预测。
这个加权的预测会与 高频部分(XD) 进行融合。高频部分使用 线性变换(Linear) 来处理。最终,低频和高频部分的预测会合并,得到完整的时间序列预测。
6.逆归一化(iRevIN):
最后,预测结果会通过 逆归一化(iRevIN) 进行处理,以恢复到原始数据的尺度和分布,得到最终的预测值。