【深度学习|Transformer模型学习】Transformer 块的起源、发展和概述!快来看看吧
【深度学习|Transformer模型学习1】Transformer 块的起源、发展和概述!快来看看吧
【深度学习|Transformer模型学习1】Transformer 块的起源、发展和概述!快来看看吧
提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
- 【深度学习|Transformer模型学习1】Transformer 块的起源、发展和概述!快来看看吧
- Transformer 块的详细论述
- 1. 什么是 Transformer 块?
- 2. Transformer 的起源和发展
- 3. Transformer 块的作用
- 3.1. 自注意力机制(Self-Attention)
- 3.2. 多头注意力(Multi-Head Attention)
- 3.3. 前馈神经网络(Feed-Forward Neural Network)
- 土木建筑、城市主题
- 第二届城市建设与交通运输国际学术会议(UCT 2025)
- 第五届智慧城市工程与公共交通国际学术会议(SCEPT 2025)
- 第六届土木建筑及灾害防控国际学术会议暨第三届智慧城市建筑与基础设施耐久性国际学术会议 (CADPC & DuraBI 2025)
- 2025年工程管理与安全工程国际学术会议 (EMSE 2025)
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz
Transformer 块的详细论述
1. 什么是 Transformer 块?
Transformer 是一种基于自注意力机制(Self-Attention)的神经网络架构,最初被提出用于自然语言处理任务,特别是在机器翻译领域。Transformer 块是构成 Transformer 模型的基本单元,它在输入序列中计算每个元素与其他元素之间的关系,从而有效捕捉长期依赖关系。
Transformer 块包含两个主要部分:
- 自注意力机制(Self-Attention Mechanism):它通过计算输入序列中所有位置的加权平均,来学习序列中各个部分之间的关系。
- 前馈神经网络(Feed-Forward Neural Network):对每个位置的表示进行非线性变换,以增强模型的表示能力。
每个 Transformer 块的结构通常包括:
-
输入层:将输入的词向量表示为嵌入(embedding)。
-
多头自注意力(Multi-Head Attention):计算每个位置的注意力权重,将多个头的注意力机制结果融合,捕捉更丰富的依赖关系。
-
前馈网络:通过两个全连接层进行信息的非线性变换。
-
残差连接(Residual Connection):帮助训练深层网络,避免梯度消失问题。
-
层归一化(Layer Normalization):稳定网络训练过程。
2. Transformer 的起源和发展
Transformer 由 Vaswani 等人在 2017 年提出,名为《Attention is All You Need》的论文中进行了详细介绍。
Transformer 的提出,彻底改变了自然语言处理(NLP)领域的神经网络架构。以前,序列模型(如 RNN、LSTM 和 GRU)依赖于递归计算,而 Transformer 通过自注意力机制消除了这种依赖,使得序列中的每个元素都可以同时被处理,从而显著提高了计算效率。
Transformer 的最大优点是可以并行计算,相较于 RNN/LSTM,Transformer 在训练时能更有效地利用现代硬件(如 GPU)的并行计算能力。因此,它成为了许多自然语言处理任务中的主流架构,并在机器翻译、文本生成、语言理解等领域取得了巨大的成功。
随着 Transformer 的流行,很多变种和优化模型也随之涌现,如:
- BERT(Bidirectional Encoder Representations from Transformers):预训练模型,用于上下文理解。
- GPT(Generative Pre-trained Transformer):用于生成任务,基于自回归模型。
- T5(Text-To-Text Transfer Transformer):统一的文本到文本框架。
- Vision Transformer (ViT):将 Transformer 架构应用于计算机视觉任务。
3. Transformer 块的作用
Transformer 块的核心作用是通过自注意力机制捕捉输入序列中各个部分之间的全局依赖关系,从而使得每个位置的表示不仅包含局部信息,还包含远距离的信息。这样,Transformer 模型能够高效地处理长序列,并且能够在多种任务(包括NLP和CV)中表现出色。
Transformer 块的核心组成部分
3.1. 自注意力机制(Self-Attention)
自注意力机制通过计算输入序列中每个元素与其他元素的相似度(通常使用点积)来决定各个元素之间的权重。对于每个位置 i i i,计算其对其他位置 j j j 的注意力值。自注意力机制的公式为:
其中,
Q
Q
Q 是查询矩阵(Query),
K
K
K 是键矩阵(Key),
V
V
V 是值矩阵(Value),而
d
k
d_k
dk 是键向量的维度。
3.2. 多头注意力(Multi-Head Attention)
- 多头注意力机制将自注意力计算分成多个子空间进行独立计算,每个头学习到不同的表示。最终的结果是将这些头的输出拼接起来,再经过一个线性层进行变换。
3.3. 前馈神经网络(Feed-Forward Neural Network)
- 前馈网络通常由两个全连接层组成,带有激活函数(例如 ReLU)。它对每个位置的表示进行非线性转换,增强模型的表达能力。
土木建筑、城市主题
第二届城市建设与交通运输国际学术会议(UCT 2025)
- www.icuct.net
- 2025年1月17-19日,长春
- 投稿高录用,对综述类、人文社科经管类方向友好;见刊快速,见刊后Scopus、知网稳定检索。
第五届智慧城市工程与公共交通国际学术会议(SCEPT 2025)
- www.scept.org
- 2025年2月21-23日,北京
- 征集交通工程、智能汽车、交通运输系统、供应链、智慧城市、物联网、城市管理、通信信号、港口/水路/内陆航运和船舶交通等主题论文
第六届土木建筑及灾害防控国际学术会议暨第三届智慧城市建筑与基础设施耐久性国际学术会议 (CADPC & DuraBI 2025)
- www.cadpc.info
- 2025年2月28日-3月2日,青岛
- 设专题研讨会,多位国际化专家与会报告。征集土木工程、建筑工程、混凝土结构、土工结构、灾害防控、智能防灾、建筑抗震等主题论文
2025年工程管理与安全工程国际学术会议 (EMSE 2025)
- www.ic-emse.com
- 2025年3月21-23日,南京
- 多位同济大学、东南大学、南京工业大学等土木强校教授担任主讲。征集工程管理、安全工程、建筑环境、城市交通、物流与供应链、智能建筑、工程结构、安全监控、工程法规、风险管理等主题论文