当前位置: 首页 > article >正文

深度学习技术演进:从 CNN、RNN 到 Transformer 的发展与原理解析

在这里插入图片描述

深度学习的技术演进经历了从卷积神经网络(CNN)到循环神经网络(RNN)再到 Transformer 的重要发展。这三个架构分别擅长处理图像、序列数据和多种任务的特征,标志着深度学习在不同领域取得的进步。


1. 卷积神经网络(CNN)

基本原理

CNN 最早用于图像处理任务,利用卷积操作和池化层来提取图像的空间特征。CNN 中的核心是卷积核(或过滤器),它会在输入图像上滑动,以获得局部特征,再经过多个卷积层和池化层逐步抽取高层次的特征。CNN 利用权值共享和局部感知,适合处理固定大小的输入和空间不变性的任务。

Python 示例代码

以下代码使用 PyTorch 构建一个简单的 CNN 来处理手写数字数据集(MNIST):

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

# CNN 模型定义
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.fc1 = nn.Linear(64 * 7 * 7, 128)
        self.fc2 = nn.Linear(128, 10)
        self.pool = nn.MaxPool2d(2, 2)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 64 * 7 * 7)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# 加载 MNIST 数据集
transform = transforms.Compose([transforms.ToTensor()])
train_data = datasets.MNIST(root='mnist', train=True, download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_data, batch_size=64, shuffle=True)

# 初始化模型和优化器
model = SimpleCNN()
optimizer = optim.Adam(model.parameters(), lr=0.001)
criterion = nn.CrossEntropyLoss()

# 训练模型
for epoch in range(1, 6):
    for data, target in train_loader:
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
    print(f'Epoch {epoch}, Loss: {loss.item()}')

2. 循环神经网络(RNN)

基本原理

RNN 是为序列数据设计的网络,通过引入“循环”连接,RNN 能够在处理当前输入时记住之前的输入信息,适合处理序列数据如文本、时间序列数据等。但由于 RNN 存在梯度消失问题,无法有效捕获长距离的依赖关系。改进版如 LSTM 和 GRU 通过引入门控机制缓解了这些问题。

Python 示例代码

以下代码实现了一个简单的 RNN 进行字符级文本生成:

import torch
import torch.nn as nn
import torch.optim as optim

# RNN 模型定义
class SimpleRNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleRNN, self).__init__()
        self.hidden_size = hidden_size
        self.rnn = nn.RNN(input_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, x, hidden):
        out, hidden = self.rnn(x, hidden)
        out = self.fc(out[:, -1, :])
        return out, hidden

    def init_hidden(self):
        return torch.zeros(1, 1, self.hidden_size)

# 准备数据
input_size = 10
hidden_size = 50
output_size = 10
model = SimpleRNN(input_size, hidden_size, output_size)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)

# 训练 RNN 模型(伪数据)
data = torch.rand(1, 5, input_size)
target = torch.randint(0, output_size, (1,))

for epoch in range(1, 6):
    hidden = model.init_hidden()
    optimizer.zero_grad()
    output, hidden = model(data, hidden)
    loss = criterion(output, target)
    loss.backward()
    optimizer.step()
    print(f'Epoch {epoch}, Loss: {loss.item()}')

3. Transformer

基本原理

Transformer 摒弃了 RNN 的循环结构,完全基于自注意力机制,直接让每个输入词能够“关注”其他词的位置。这种并行化处理提高了效率,能够捕获序列中的长程依赖。Transformer 模型的核心组件包括自注意力、多头注意力、前馈神经网络、编码器和解码器模块。典型的 Transformer 应用是自然语言处理中的机器翻译和文本生成。

Python 示例代码

以下是 PyTorch 中一个简单的 Transformer 模型定义,用于序列到序列任务:

import torch
import torch.nn as nn
import torch.optim as optim

# Transformer 模型定义
class SimpleTransformer(nn.Module):
    def __init__(self, input_dim, output_dim, hidden_dim, n_heads, num_layers):
        super(SimpleTransformer, self).__init__()
        self.embedding = nn.Embedding(input_dim, hidden_dim)
        self.transformer = nn.Transformer(d_model=hidden_dim, nhead=n_heads, num_encoder_layers=num_layers)
        self.fc = nn.Linear(hidden_dim, output_dim)

    def forward(self, src, tgt):
        src_emb = self.embedding(src)
        tgt_emb = self.embedding(tgt)
        transformer_output = self.transformer(src_emb, tgt_emb)
        return self.fc(transformer_output)

# 初始化模型
input_dim = 10
output_dim = 10
hidden_dim = 16
n_heads = 2
num_layers = 2
model = SimpleTransformer(input_dim, output_dim, hidden_dim, n_heads, num_layers)

# 模拟输入输出序列
src = torch.randint(0, input_dim, (5, 1))
tgt = torch.randint(0, output_dim, (5, 1))

# 模型输出
output = model(src, tgt)
print(output.shape)  # 输出形状为 (序列长度, 批次大小, 输出维度)

三者之间的关系

  1. 应用场景:CNN主要用于图像处理领域,RNN则擅长处理序列数据(如文本、语音等),而Transformer则进一步提升了处理序列数据的能力,尤其在自然语言处理领域表现出色。
  2. 技术演进:CNN和RNN是深度学习领域的早期代表性模型,为后来的技术发展奠定了基础。Transformer则是在RNN的基础上,通过引入自注意力机制和多头注意力机制,实现了计算效率的显著提升和模型性能的突破。
  3. 模型结构:CNN通过卷积层和池化层提取特征,RNN通过循环连接保留序列信息,而Transformer则通过编码器-解码器架构和自注意力机制捕捉全局依赖关系。

综上所述,从CNN到RNN再到Transformer的技术演进,代表了深度学习在处理不同类型数据方面的不断进步和创新。这些模型在各自的应用领域都取得了显著的成果,并推动了人工智能技术的快速发展。

总结

  • CNN:善于处理图像和其他固定维度数据,利用卷积提取特征。
  • RNN:擅长处理序列数据,但在长距离依赖关系上存在局限。
  • Transformer:通过自注意力机制解决了 RNN 的瓶颈,在 NLP 和多模态任务中取得了极大成功。

http://www.kler.cn/news/365686.html

相关文章:

  • kafka 如何减少数据丢失?
  • 【揭秘】图像算法工程师岗位如何进入?
  • Erric Gamma 关于resuable code的采访
  • 操作系统期末|考研复习知识点汇总 - 持续更新
  • Unity-Editor扩展,引擎管理AudioClip,音乐音效快捷播放功能
  • 0基础学java之Day14
  • input标签v-model属性失效
  • softmax回归从零实现
  • 怎么压缩ppt大小?压缩PPT文件非常简单的几种方法
  • Python 语法与数据类型详解
  • 易泊车牌识别相机在智慧工地的应用
  • 中间件之Seata
  • 中小企业设备管理效率提升:Spring Boot系统设计
  • 铜业机器人剥片 - SNK施努卡
  • git 修改当前分支的上游分支
  • A survey on instance segmentation: state of the art——论文笔记
  • 基于Springboot+Vue的租房系统(含源码数据库)
  • ISO26262在汽车领域的意义
  • Chunkr: 在线PDF文档解析与OCR工具
  • 认识区块链,认知区块链——DePIN
  • 数据治理与主数据管理:现代企业数据管理的核心
  • 大语言模型推理源码解读(基于llama3模型)
  • 基于docker 部署redis
  • 解决: java.lang.RuntimeException: can not run elasticsearch as root
  • 034 RabbitMQ简介 安装 SpringBoot整合RabbitMQ框架搭建
  • STMicroelectronics意法半导体车规芯片系列--亿配芯城(ICgoodFind)