当前位置：首页 > article >正文

基于Transformer的自编码器模型在故障检测中的应用

article 2025/3/1 9:43:21

在现代工业和制造领域，故障检测是保证设备和生产线安全、高效运行的关键。传统的故障检测方法往往依赖于人工经验或规则，然而，这些方法的准确性和泛化能力有限。随着深度学习技术的迅速发展，越来越多的智能故障检测方法应运而生，其中基于自编码器和Transformer模型的组合，为我们提供了一种创新且高效的解决方案。

本文将详细介绍一个基于Transformer和自编码器的故障检测模型，它通过处理多维时序数据来检测设备运行中的异常或故障。我们将从数据预处理、模型构建、训练与评估的全过程进行讲解，同时展示如何将该技术应用于工业故障检测任务中。

1. 背景与挑战

在传统工业设备故障检测中，常见的方法有基于规则的异常检测和基于统计的故障诊断。然而，这些方法无法很好地处理高维、时序性强的数据。在过去的几年里，深度学习特别是自编码器（Autoencoder）和Transformer模型在异常检测中展现出了巨大的潜力。

自编码器通常用于降噪、数据压缩以及异常检测，它通过学习数据的潜在特征来重构输入数据，从而发现数据中的异常部分。而Transformer模型，凭借其强大的序列建模能力，在处理时序数据时表现出了非凡的优势。

本文介绍的模型结合了这两种技术——自编码器用于重构输入数据，Transformer则用于捕捉数据中的时序依赖关系，最终实现高效的故障检测。

2. 模型架构

我们的模型是一个基于自编码器和Transformer的深度学习框架，其主要包括以下几个模块：

(1) Pyramid Feature Extractor (金字塔特征提取器)

该模块由多个卷积层构成，目的是提取输入数据中的多尺度特征。卷积层通过不同的核大小（如3和5）捕捉数据中的局部模式，而后将这些特征融合并通过全连接层进行处理。

class PyramidFeatureExtractor(tf.keras.layers.Layer):
    def __init__(self, kernel_sizes, channels, embed_dim):
        super(PyramidFeatureExtractor, self).__init__()
        self.conv_layers = [
            tf.keras.layers.Conv1D(channels, kernel_size=k, padding="same", activation="relu")
            for k in kernel_sizes
        ]
        self.output_layer = tf.keras.layers.Dense(embed_dim, activation="relu")

    def call(self, inputs):
        outputs = [conv(inputs) for conv in self.conv_layers]
        fused = tf.keras.layers.Concatenate(axis=-1)(outputs)
        return self.output_layer(fused)

(2) Transformer编码器

Transformer编码器是模型的核心部分，负责从时序数据中学习到复杂的时序依赖关系。该模块包括多头自注意力机制（Multi-Head Attention）和前馈神经网络（Feed-Forward Network, FFN），并且每个子模块都配有层归一化，以保证训练过程的稳定性。

class TransformerBlock(tf.keras.layers.Layer):
    def __init__(self, embed_dim, num_heads, ff_dim):
        super(TransformerBlock, self).__init__()
        self.attention = tf.keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=embed_dim)
        self.ffn = tf.keras.Sequential([
            tf.keras.layers.Dense(ff_dim, activation="relu"),
            tf.keras.layers.Dense(embed_dim),
        ])
        self.layernorm1 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.layernorm2 = tf.keras.layers.LayerNormalization(epsilon=1e-6)

    def call(self, inputs):
        attn_output = self.attention(inputs, inputs)
        out1 = self.layernorm1(inputs + attn_output)
        ffn_output = self.ffn(out1)
        return self.layernorm2(out1 + ffn_output)

(3) 模型的重构与故障预测

模型的最后部分通过全连接层对Transformer输出进行处理，产生两类结果：一是通过重构损失（Reconstruction Loss）计算输入数据的重构误差，二是通过二分类输出预测设备是否出现故障。

class GA_TranFD(tf.keras.Model):
    def __init__(self, seq_len, num_features, embed_dim, num_heads, ff_dim, kernel_sizes, channels):
        super(GA_TranFD, self).__init__()
        self.feature_extractor = PyramidFeatureExtractor(kernel_sizes, channels, embed_dim)
        self.encoder = TransformerBlock(embed_dim, num_heads, ff_dim)
        self.global_pool = tf.keras.layers.GlobalAveragePooling1D()  # 聚合序列信息
        self.decoder1 = tf.keras.layers.Dense(num_features, activation="linear")  # 重构输出
        self.decoder2 = tf.keras.layers.Dense(1, activation="sigmoid")  # 故障预测

    def call(self, inputs):
        features = self.feature_extractor(inputs)
        encoded = self.encoder(features)
        encoded_pooled = self.global_pool(encoded)  # 聚合后的全局表示
        reconstructed = self.decoder1(encoded_pooled)  # 重构输出
        fault_prob = self.decoder2(encoded_pooled)  # 故障概率
        return reconstructed, fault_prob

3. 数据处理与训练流程

数据预处理

对于工业设备数据，我们首先需要进行标准化处理，以消除不同特征之间的量纲差异。这里使用了StandardScaler进行数据归一化，使得每个特征的均值为0，标准差为1。

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data = scaler.fit_transform(data)

训练与评估

我们采用了生成对抗网络（GAN）的思想，设计了一个同时优化自编码器和故障预测器的训练流程。生成器通过重构输入数据来学习正常模式，而判别器则根据预测的故障概率来区分正常与故障数据。训练过程中，我们不断更新生成器和判别器的权重，以提升模型的性能。

@tf.autograph.experimental.do_not_convert
@tf.function
def train_step(model, inputs):
    with tf.GradientTape(persistent=True) as tape:
        reconstructed, fault_prob = model(inputs)
        gen_loss = mse_loss(inputs[:, -1, :], reconstructed)  # 重构最后一时刻
        real_labels = tf.zeros((tf.shape(inputs)[0], 1))  # 假设正常样本为0
        dis_loss = bce_loss(real_labels, fault_prob)

    gen_gradients = tape.gradient(gen_loss, model.trainable_variables)
    disc_gradients = tape.gradient(dis_loss, model.trainable_variables)

    generator_optimizer.apply_gradients(zip(gen_gradients, model.trainable_variables))
    discriminator_optimizer.apply_gradients(zip(disc_gradients, model.trainable_variables))
    
    return gen_loss, dis_loss

故障检测与可视化

在模型训练完成后，我们通过计算重构误差和故障检测概率来评估模型的效果。重构误差较大的样本通常被认为是异常样本，而故障检测概率较高的样本则被标记为故障。

def evaluate_and_visualize(model, test_dataset, true_labels):
    predicted_probs = []
    reconstructed_outputs = []
    inputs_data = []

    for batch in test_dataset:
        reconstructed, fault_prob = te_step(model, batch)
        reconstructed_outputs.append(reconstructed.numpy())
        predicted_probs.append(fault_prob.numpy())
        inputs_data.append(batch.numpy())

    reconstruction_errors = np.mean(np.square(inputs_data[:, -1, :] - reconstructed_outputs), axis=1)

    plt.figure(figsize=(14, 6))
    plt.subplot(1, 2, 1)
    plt.plot(reconstruction_errors, label="Reconstruction Errors")
    plt.xlabel("Sample Index")
    plt.ylabel("Reconstruction Error")
    plt.legend()
    plt.title("Reconstruction Error Plot")

    plt.subplot(1, 2, 2)
    plt.plot(predicted_probs, label="Predicted Fault Probability", color="red")
    plt.xlabel("Sample Index")
    plt.ylabel("Fault Probability")
    plt.legend()
    plt.title("Fault Detection Probability")

    plt.tight_layout()
    plt.show()