当前位置：首页 > article >正文

时序，这很Transformer！颠覆传统，实现了性能的全面超越！

article 2025/4/2 12:53:37

时间序列分析与Transformer模型的结合，已成为深度学习领域的一大趋势。这种结合不仅提升了模型处理时间序列数据的能力，还增强了其在捕捉长期依赖和识别复杂模式方面的表现。时间序列+Transformer技术在金融预测、气象预报、健康监测等多个重要领域均取得了显著的进展，其创新的方法和卓越的性能使其成为研究的热点。

最近，该领域的一个重大进展是iTransformer的问世，它在不改变原有架构的基础上，实现了性能的全面超越。这一进步凸显了对Transformer架构进行优化，以提高预测准确性的迫切需求。特别是在时间序列预测任务中，Transformer面临的挑战包括其自注意力机制的二次计算复杂度，这在处理长序列时可能导致计算效率低下。为了解决这一问题，informer模型应运而生。

为了帮助研究人员深入理解时间序列+Transformer技术，并探索新的研究方向，我们精心整理了近两年内发表的20篇顶级会议和期刊论文。这些论文涵盖了该领域的最新研究成果，包括论文全文、来源链接以及相关代码资源，旨在为研究人员提供宝贵的参考和启发。

三篇论文详述

1、4D Panoptic Scene Graph Generation

方法

该论文提出了一种名为PSG-4D的新方法，用于生成四维全景场景图（4D Panoptic Scene Graph，PSG-4D），该方法能够处理动态的四维（3D空间加上时间维度）环境。PSG-4D由节点和边组成，节点代表具有精确位置和状态信息的实体，边表示时间关系。论文中的方法包括以下几个关键步骤：

数据集构建：创建了一个包含3K RGB-D视频、总共1M帧的PSG-4D数据集，每个视频帧都标记有4D全景分割掩码和细致的动态场景图。
模型架构：提出了一个基于Transformer的模型PSG4DFormer，该模型能够预测全景分割掩码，沿时间轴追踪掩码，并通过关系组件生成相应的场景图。
4D全景分割建模：设计了一个能够处理RGB-D和点云数据输入的4D全景分割模型，输出包含3D对象掩码的视频，这些掩码在时间维度上被持续追踪。
关系建模：使用时空变换器架构来处理3D掩码管，以描绘长期依赖性和复杂的实体间关系，进而生成关系场景图。
实验验证：在新数据集上进行了广泛的实验，证明了所提出方法的有效性。

创新点

4D全景场景图（PSG-4D）：提出了一种新的场景图表示方法，不仅包含空间信息，还整合了时间维度，为动态场景理解提供了更丰富的信息。
PSG4DFormer模型：开发了一个统一的框架，该框架包含两个主要组件：4D全景分割模型和关系模型，能够处理RGB-D和点云视频输入。
时空变换器：在关系建模中引入了时空变换器编码器，增强了特征管的时空信息，提高了对动态场景的理解能力。
大规模注释数据集：构建了一个大规模且丰富的PSG-4D数据集，为未来在这一领域的研究提供了宝贵的资源。
实际应用示例：展示了如何将大型语言模型集成到PSG-4D系统中，以实现动态场景理解，并提供了服务机器人中的实际应用示例。

2、A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition

方法

该论文研究了在音频视觉语音识别（AVSR）中，由于视频帧缺失导致的模型对数据的敏感性问题，并提出了一种新的方法来提高模型的鲁棒性。主要方法包括：

问题识别：识别出现有的AVSR系统在面对视频帧缺失时性能下降的问题，甚至在某些情况下比单一模态的模型表现还差。
模态偏差假设（MBH）：提出了模态偏差假设来描述多模态系统中模态偏差与缺失模态鲁棒性之间的关系。
多模态分布近似与知识蒸馏（MDA-KD）框架：为了避免在完整数据输入时性能下降，同时在视频数据缺失时保持鲁棒性，提出了MDA-KD框架。该框架使用从完整数据对中提取的隐藏知识，防止学生模型在鲁棒性训练过程中偏向单模态分布。
模态特定适配器（MS-Adapter）：为了处理视频数据严重或完全缺失的情况，采用了适配器来动态切换决策模式。