当前位置：首页 > article >正文

极光优化PLO-Transformer-LSTM多变量时序

article 2025/3/31 0:15:19

极光优化算法(PLO)于2024年8月发表于SCI期刊《Neurocomputing》，利用算法极光优化算法PLO优化Transformer-LSTM模型，同时提供与未优化模型的对比，包含柱状图、两张雷达图、二维散点图等等。
（一）LSTM模型LSTM是一种在时间序列数据建模中广泛使用的循环神经网络（Recurrent Neural Network, RNN）变体。LSTM解决了传统RNN中的梯度消失和梯度爆炸等问题，能更好地捕捉序列数据中的长期依赖关系。
（二）Transformer模型Transformer是一种适用于自然语言处理的模型，旨在解决序列到另一个序列的任务，处理长期依赖问题。Transformer模型的核心机制包括自注意力机制、多头注意力、位置编码、残差连接和层归一化。模型编码器（Encoder）和解码器（Decoder）组成，适用于序列到另一个序列的任务，如机器翻译。
（三）Transformer-LSTM为什么可以结合？
LSTM虽然在一定程度上缓解了长期依赖问题，但由于其递归结构，无法真正地解决长期依赖问题。而基于自注意力机制的Transformer模型采用并行注意力机制，不存在长期依赖问题，可以对较远的时序特征进行提取，更精准地捕捉序列中的依赖关系。
（四）Transformer-LSTM如何结合？
正是由于Transformer模型采用并行机制，本身是适用于自然语言处理任务，可以很好地实现机器翻译的任务，当Transformer模型应用于时序数据预测时，输入序列可能会存在时间信息的缺失；且时间序列滑动窗口数据之间的映射和机器翻译任务不同，带掩码的多头注意力层（Masked Multi-Head Attention）是用于确保在生成文本序列时，模型只能看到当前位置之前的内容，以确保生成的文本是合理连贯的。而在时间序列预测中，模型的输入是已知的历史时间数据，而输出是未来时间的预测值，在这种情况下，是不需要解码器的注意力层结构的。这也回答了开头文中的问题。LSTM模型作为一种循环神经网络，适用于序列数据的建模，其在时间序列预测任务中表现出色，能够更好地捕捉到数据的动态模式。因此，创新性地尝试将传统Transformer模型中的Decoder层修改为全连接层，用LSTM层替换原来的注意力层

（五）在我们的实验中，原始Transformer模型设置最大训练次数为50次，初始学习率为0.01，L2正则化系数为0.005，自注意力机制中的头数为4，因此每个头的键的通道数为4*32。但是，原始Transformer模型需要人为设置参数，通常依据工程经验来确定，工作量较大且较为繁琐，若模型拥有过多超参数则人工难以寻找最优参数组合。因此，采用PLO算法优化Transformer中的自注意力机制头数、学习率、正则化系数三个超参数，目标函数值为MAPE，也就是使其误差最小。

代码能正常运行时不负责答疑!

部分效果如下图：

电子产品，一经出售，概不退换

算法设计、毕业设计、期刊专利！感兴趣可以联系我。

🏆代码获取方式1：
私信博主
🏆代码获取方式2
利用同等价值的matlab代码兑换博主的matlab代码
先提供matlab代码运行效果图给博主评估其价值，可以的话，就可以进行兑换。