当前位置: 首页 > article >正文

【深度学习】常见模型-Transformer模型

Transformer 是一种深度学习模型,首次由 Vaswani 等人在 2017 年提出(论文《Attention is All You Need》),在自然语言处理(NLP)领域取得了革命性成果。它的核心思想是通过 自注意力机制(Self-Attention Mechanism) 和完全基于注意力的架构来捕捉序列数据中的依赖关系。


Transformer 的基本结构

Transformer 模型由两个主要模块组成:

  1. 编码器(Encoder)

    • 输入序列经过嵌入(Embedding)和位置编码(Positional Encoding)后,逐层通过多个编码块。
    • 每个编码块包括两个主要子层:
      1. 多头自注意力层(Multi-Head Self-Attention)。
      2. 前馈全连接网络(Feedforward Neural Network)。
  2. 解码器(Decoder)

    • 解码器也由多层解码块组成,结构类似编码器,但有额外的交叉注意力机制。
    • 解码块主要包含:
      1. 多头自注意力层(Masked Multi-Head Self-Attention)。
      2. 交叉注意力层(Encoder-Decoder Attention)。
      3. 前馈全连接网络。

Transformer 的输入经过编码器进行特征提取,解码器利用编码器输出生成目标序列。


核心组件

1. 自注意力机制(Self-Attention Mechanism)
  • 目标:在序列的每个位置,计算它与其他所有位置的相关性,捕获全局依赖关系。
  • 公式

    \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V
    • Q:查询矩阵(Query)。
    • K:键矩阵(Key)。
    • V:值矩阵(Value)。
    • d_k:键向量的维度(用于缩放防止梯度爆炸)。
2. 多头注意力机制(Multi-Head Attention)
  • 将输入数据分为多个头(head),并分别计算注意力。
  • 优点:能够从不同的子空间捕获特征,提高模型的表达能力。
3. 位置编码(Positional Encoding)
  • 因为 Transformer 不使用 RNN 或 CNN,所以需要显式地表示序列位置。
  • 常用正弦和余弦函数来表示:

    PE(pos, 2i) = \sin\left(\frac{pos}{10000^{2i/d}}\right), \quad PE(pos, 2i+1) = \cos\left(\frac{pos}{10000^{2i/d}}\right)
    • pos:位置索引。
    • i:维度索引。
    • d:嵌入维度。
4. 前馈全连接网络(FFN)
  • 每个编码器或解码器块都包含一个独立的全连接网络:

    FFN(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2
5. 残差连接与层归一化
  • 每个子层后加残差连接(Residual Connection)并归一化(Layer Normalization),以加速训练和稳定梯度。

Transformer 的整体结构

Transformer 使用堆叠的编码器和解码器模块处理输入和输出:

  1. 输入序列(如句子)经过嵌入和位置编码后输入到编码器。
  2. 编码器生成的上下文向量传递到解码器。
  3. 解码器通过交叉注意力结合编码器的上下文向量和解码器中间状态生成输出序列。

代码实现

以下是使用 TensorFlow 和 Keras 构建简单 Transformer 的代码示例:

import tensorflow as tf
from tensorflow.keras.layers import Dense, Embedding, LayerNormalization, Dropout
import numpy as np

# 自注意力机制
class MultiHeadAttention(tf.keras.layers.Layer):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        self.num_heads = num_heads
        self.d_model = d_model

        assert d_model % self.num_heads == 0

        self.depth = d_model // self.num_heads
        self.wq = Dense(d_model)
        self.wk = Dense(d_model)
        self.wv = Dense(d_model)
        self.dense = Dense(d_model)

    def split_heads(self, x, batch_size):
        x = tf.reshape(x, (batch_size, -1, self.num_heads, self.depth))
        return tf.transpose(x, perm=[0, 2, 1, 3])  # (batch_size, num_heads, seq_len, depth)

    def call(self, q, k, v, mask):
        batch_size = tf.shape(q)[0]

        q = self.wq(q)  # (batch_size, seq_len, d_model)
        k = self.wk(k)
        v = self.wv(v)

        q = self.split_heads(q, batch_size)
        k = self.split_heads(k, batch_size)
        v = self.split_heads(v, batch_size)

        # Scaled dot-product attention
        matmul_qk = tf.matmul(q, k, transpose_b=True)
        dk = tf.cast(tf.shape(k)[-1], tf.float32)
        scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)

        if mask is not None:
            scaled_attention_logits += (mask * -1e9)

        attention_weights = tf.nn.softmax(scaled_attention_logits, axis=-1)  # (batch_size, num_heads, seq_len_q, seq_len_k)
        output = tf.matmul(attention_weights, v)  # (batch_size, num_heads, seq_len_q, depth_v)

        output = tf.transpose(output, perm=[0, 2, 1, 3])  # (batch_size, seq_len_q, num_heads, depth)
        concat_attention = tf.reshape(output, (batch_size, -1, self.d_model))  # (batch_size, seq_len_q, d_model)

        return self.dense(concat_attention)

# 示例调用
sample_mha = MultiHeadAttention(d_model=512, num_heads=8)
temp_q = tf.random.uniform((1, 60, 512))  # (batch_size, seq_len, d_model)
temp_k = tf.random.uniform((1, 60, 512))
temp_v = tf.random.uniform((1, 60, 512))
temp_out = sample_mha(temp_q, temp_k, temp_v, None)
print(temp_out.shape)  # (1, 60, 512)


Transformer 的应用

  1. 自然语言处理

    • 机器翻译(Google Translate 使用 Transformer)。
    • 文本摘要(如 BERT、GPT)。
    • 情感分析、问答系统。
  2. 计算机视觉

    • 图像分类(如 Vision Transformer)。
    • 目标检测、图像生成。
  3. 音频处理

    • 语音识别(如 Wav2Vec)。
    • 音乐生成。
  4. 其他领域

    • 推荐系统、时间序列预测、生物信息学。

优点与缺点

优点:
  1. 并行处理能力强,速度快。
  2. 能捕获长距离依赖关系。
  3. 通用性强,适用于多种任务。
缺点:
  1. 计算成本高(尤其是自注意力机制在长序列上的时间复杂度)。
  2. 对内存需求大,训练大型模型需高性能硬件。

Transformer 以其强大的表达能力和灵活性,已经成为深度学习领域的重要基石,为 NLP 和其他领域带来了巨大变革。


http://www.kler.cn/a/522163.html

相关文章:

  • 机器人抓取与操作概述(深蓝)——1
  • 【性能优化专题系列】利用CompletableFuture优化多接口调用场景下的性能
  • PySide(PyQT)进行SQLite数据库编辑和前端展示的基本操作
  • SQL注入漏洞之高阶手法 宽字节注入以及编码解释 以及堆叠注入原理说明
  • 二进制安卓清单 binary AndroidManifest - XCTF apk 逆向-2
  • 图漾相机——C++语言属性设置
  • 基于微信小程序游泳馆管理系统 游泳馆管理系统小程序 (设计与实现)
  • 梯度下降优化算法-RMSProp
  • 【源码+文档+调试讲解】基于Spring Boot的摇滚乐鉴赏网站的设计与实现
  • Git 出现 Please use your personal access token instead of the password 解决方法
  • 发布 VectorTraits v3.1(支持 .NET 9.0,支持 原生AOT)
  • 基于微信小程序的助农扶贫系统设计与实现(LW+源码+讲解)
  • 98.1 AI量化开发:长文本AI金融智能体(Qwen-Long)对金融研报大批量处理与智能分析的实战应用
  • 高阶C语言|深入理解字符串函数和内存函数
  • 【C++高并发服务器WebServer】-10:网络编程基础概述
  • 寒假刷题Day16
  • Compose笔记(一)--LifecycleEventObserver
  • 能量提升法三:赞美
  • 设置jmeter外观颜色
  • EasyExcel写入和读取多个sheet
  • 【景区导游——LCA】
  • 《深入Python子域名扫描:解锁网络空间的隐藏宝藏》
  • CPP-存储区域
  • c语言网 1127 尼科彻斯定理
  • 阅读springboot源码 记录
  • 动手学深度学习-卷积神经网络-3填充和步幅