【深度学习】常见模型-卷积神经网络(Convolutional Neural Networks, CNN)
卷积神经网络(CNN)
概念简介
卷积神经网络(Convolutional Neural Networks, CNN)是一种专门用于处理数据具有网格状拓扑结构(如图像、语音)的深度学习模型。它通过卷积操作从输入数据中提取局部特征,并逐层构建更复杂的特征表示,广泛应用于图像分类、目标检测、语音识别等领域。
关键组成部分
-
卷积层(Convolutional Layer)
- 使用卷积核(滤波器)在输入上滑动,提取局部特征。
- 每个卷积核会学习一个特定的特征,例如图像的边缘、纹理等。
-
激活函数(Activation Function)
- 常用 ReLU 激活函数,使模型具有非线性能力。
- 如:ReLU(x)=max(0,x)\text{ReLU}(x) = \max(0, x)ReLU(x)=max(0,x)
-
池化层(Pooling Layer)
- 减少特征图的维度,降低计算复杂度,同时保留主要特征。
- 常见方法:最大池化(Max Pooling)和平均池化(Average Pooling)。
-
全连接层(Fully Connected Layer, FC Layer)
- 将提取到的特征展平并输入到全连接神经网络,用于分类或回归任务。
-
损失函数(Loss Function)
- 衡量预测值与真实值之间的差异,指导模型更新参数。
- 常用:交叉熵损失(分类)或均方误差(回归)。
CNN 工作流程
- 输入图像(如 28 × 28 的灰度图片)。
- 通过多层卷积操作提取局部特征。
- 经过池化层压缩特征图的尺寸。
- 多次迭代后,提取高层语义特征。
- 最后通过全连接层输出预测结果。
代码示例
以下是使用 Keras 实现简单 CNN 的示例:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
# 构建模型
model = Sequential([
# 卷积层 + 激活函数
Conv2D(filters=32, kernel_size=(3, 3), activation='relu', input_shape=(28, 28, 1)),
# 池化层
MaxPooling2D(pool_size=(2, 2)),
# 第二个卷积层
Conv2D(filters=64, kernel_size=(3, 3), activation='relu'),
MaxPooling2D(pool_size=(2, 2)),
# 展平层
Flatten(),
# 全连接层
Dense(units=128, activation='relu'),
# 输出层
Dense(units=10, activation='softmax') # 假设输出为 10 个类别
])
# 编译模型
model.compile(optimizer='adam',
loss='categorical_crossentropy',
metrics=['accuracy'])
# 查看模型结构
model.summary()
输出结果
Model: "sequential"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
conv2d (Conv2D) (None, 26, 26, 32) 320
max_pooling2d (MaxPooling2 (None, 13, 13, 32) 0
D)
conv2d_1 (Conv2D) (None, 11, 11, 64) 18496
max_pooling2d_1 (MaxPoolin (None, 5, 5, 64) 0
g2D)
flatten (Flatten) (None, 1600) 0
dense (Dense) (None, 128) 204928
dense_1 (Dense) (None, 10) 1290
=================================================================
Total params: 225034 (879.04 KB)
Trainable params: 225034 (879.04 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________
特点
- 参数共享:通过卷积核共享参数,降低模型复杂度。
- 空间不变性:卷积操作具有平移不变性,适合图像任务。
- 局部连接:仅连接相邻像素,减少计算负担。
应用场景
- 图像分类:如手写数字识别(MNIST 数据集)。
- 目标检测:如 YOLO、Faster R-CNN。
- 语义分割:如自动驾驶中的道路标记。
- 医疗图像处理:如肿瘤检测。
- 风格迁移:如图像艺术化处理。
优缺点
优点:
- 能有效提取图像、语音等数据的局部特征。
- 参数少、计算高效。
- 易于扩展和组合。
缺点:
- 对小数据集可能过拟合,需要数据增强或正则化。
- 对时间序列数据不适用(适合使用 RNN 或 Transformer)。
CNN 是深度学习领域的一项革命性方法,其强大的特征提取能力让其成为许多视觉任务的首选工具。