深度解析iTransformer:维度倒置与高效注意力机制的结合
今天,我想和大家一起探讨一篇非常有意思的Paper——iTransformer。作为一种针对多变量时间序列预测的新型架构,iTransformer 引入了颠覆性的设计思路,特别是在维度倒置和高效自注意力机制上的创新,展现出了出色的性能和适应性。
在接下来的讨论中,我将详细探讨iTransformer模型的架构、优势以及在多个时间序列预测任务中的实验表现。老样子,我还是会按照论文的框架来对文章进行详细解读。
1. Abstract
近年来,线性预测模型的迅速发展对基于 Transformer 的预测模型的架构改进热潮提出了质疑。这些预测模型利用 Transformer 来建模时间序列中时间片段(temporal tokens)之间的全局依赖关系,其中每个时间片段由同一时间点的多个变量组成。然而,当处理具有较长回溯窗口的时间序列时,Transformer 面临性能下降和计算成本爆炸的问题。此外,每个时间片段的嵌入融合了多个变量,这些变量可能代表潜在的延迟事件或不同的物理测量值,这可能导致无法学习基于变量的表示,从而生成无意义的注意力图。在这项工作中,本文重新思考了 Transformer 组件的核心职责,并在不修改其基本组件的前提下重新设计了 Transformer 架构。提出了 iTransformer,该模型简单地将注意力机制和前馈网络应用于倒置的维度上。具体而言,单个序列的时间点被嵌入为变量令牌(variate tokens),并利用注意力机制捕捉变量间的相关性;同时,前馈网络被应用于每个变量令牌,以学习非线性表示。iTransformer 模型在具有挑战性的真实世界数据集上实现了最新的性能,进一步赋予了 Transformer 系列模型更高的性能、跨变量的泛化能力,以及对任意回溯窗口的更好利用能力,使其成为时间序列预测的一个理想基础架构选择。
2. Introduction
Transformer(Vaswani et al., 2017)在自然语言处理(Brown et al., 2020)和计算机视觉(Dosovitskiy et al., 2021)领域取得了巨大成功,逐渐发展成为遵循扩展法则(Kaplan et al., 2020)的基础模型。受到在多个领域中取得巨大成功的启发,Transformer 凭借其强大的描述成对依赖关系和提取序列多层次表示的能力,正逐步应用于时间序列预测(Wu et al., 2021;Nie et al., 2023)。
然而,研究人员最近开始质疑基于 Transformer 的预测模型的有效性。这些模型通常将同一时间点的多个变量嵌入到难以区分的通道中,并在这些时间片段(temporal tokens)上应用注意力机制以捕捉时间依赖性。鉴于时间点之间更多是数值上的关系而非语义关系,研究人员发现简单的线性层(其起源可追溯到统计预测模型 Box & Jenkins, 1968)在性能和效率上均已超越复杂的 Transformer 模型(Zeng et al., 2023;Das et al., 2023)。与此同时,最近的研究越来越强调确保变量的独立性并利用互信息,通过显式建模多变量间的相关性来实现更准确的预测(Zhang & Yan, 2023;Ekambaram et al., 2023)。然而,若不颠覆原始的 Transformer 架构,这一目标几乎难以实现。
文章详细链接:深度解析iTransformer:维度倒置与高效注意力机制的结合