当前位置：首页 > article >正文

卷积神经网络 - 卷积层

article 2025/3/20 2:37:17

卷积神经网络一般由卷积层、汇聚层和全连接层构成，本文我们来学习卷积层。

卷积层（Convolutional Layer）是卷积神经网络（CNN）的核心组件，专门用于处理具有网格结构的数据（如图像、音频、时间序列等）。它的核心思想是通过局部连接和权重共享，高效提取数据的局部特征。

一、核心思想：用“滑动窗口”提取局部特征

假设你正在观察一张猫的图片：

全连接层：需要将整张图片的像素展开成一维向量，每个像素与神经元独立连接，导致参数爆炸。
卷积层：像用放大镜扫描图片，每次只观察一个小窗口（如3×3的区域），通过重复使用同一组权重（卷积核）扫描全图。

类比：
卷积层相当于一组“可学习的特征探测器”，每个探测器（卷积核）专门捕捉一种局部模式（如边缘、纹理、颜色过渡等）。

卷积层在CNN中的输出通常用一个三维张量表示，其结构为 (H, W, D)：

H（高度）和 W（宽度）：对应卷积后得到的特征图的空间尺寸。这个尺寸取决于原始输入图像的大小、卷积核尺寸、步幅（stride）和填充（padding）策略。
D（深度或通道数）：对应卷积层使用的滤波器（卷积核）的个数。每个滤波器在整个输入上滑动后会生成一个二维特征图，这些二维特征图堆叠起来形成第三个维度。

举个例子：

假设输入是一张尺寸为32×32的RGB彩色图像（即32×32×3），我们在卷积层中使用了16个大小为5×5的卷积核（每个卷积核的深度与输入通道一致，即5×5×3）。如果采用适当的填充（例如“same”填充）和步幅为1，那么卷积层输出的特征图尺寸依然为32×32。因此，输出张量的尺寸就是 32×32×16。

这种三维表示方式能保留图像的空间结构（高度和宽度），同时通过多个滤波器提取不同的局部特征（深度），为后续的层提供丰富的特征信息。

卷积层的三维结构表示如下：

二、卷积层的数学操作

1. 单通道输入（灰度图像）

输入矩阵：X（尺寸 H×W，如5×5）
卷积核：K（尺寸 Kh×Kw，如3×3）
输出特征图：Y（尺寸 (H−Kh+1)×(W−Kw+1)）

计算示例：
输入矩阵：

[[1, 2, 3, 4, 5],
 [6, 7, 8, 9, 10],
 [11,12,13,14,15],
 [16,17,18,19,20],
 [21,22,23,24,25]]

卷积核：

[[1, 0, -1],
 [1, 0, -1],
 [1, 0, -1]]

输出计算（以左上角3×3区域为例）：

Y[0,0]=1×1+2×0+3×(−1)+6×1+7×0+8×(−1)+11×1+12×0+13×(−1)=−24

负值表示检测到从亮到暗的垂直边缘。

2. 多通道输入（如RGB图像）

输入：Cin 个通道的矩阵（尺寸 H×W×Cin）
卷积核：每个输出通道对应 Cin 个核（尺寸 Kh×Kw）
输出：CoutCout 个特征图（尺寸 H′×W′×Cout）

参数计算：
参数总量 = Kh×Kw×Cin×Cout+Cout（含偏置项）

三、特征映射的概念

卷积层中的“特征映射”（Feature Map）是指通过卷积核（滤波器）对输入数据进行局部运算后产生的一组输出矩阵，每个矩阵对应一种特定的特征响应。通俗地讲，可以这样理解：

局部响应：每个卷积核在输入图像上滑动，对每个局部区域计算加权和（加上偏置，并通过激活函数处理），这个计算结果反映了该区域是否包含卷积核所“关注”的特定模式（例如边缘、纹理、角点等）。
特征“激活”图：卷积核得到的输出矩阵就是一个特征映射。矩阵中每个数值代表在对应位置上该特征出现的强度。比如，一个专门检测垂直边缘的滤波器，会在图像中存在垂直边缘的区域输出较高的激活值。
多通道组合：通常一个卷积层会有多个卷积核，每个核负责提取不同的特征。这样，该层的输出就不只是一个矩阵，而是多个矩阵的组合（通道），每个通道对应一个特征映射，整体提供了丰富的局部特征信息。
空间信息保留：特征映射保留了输入图像的空间结构，只不过经过滤波器转换成了另一种表示。这种空间保持性使得后续层能够进一步组合这些局部特征，形成更高层次的语义理解。

总之，特征映射就是卷积层对输入局部区域进行特定模式检测后输出的“图像”，反映了卷积核在整个输入上的响应情况。这一过程使得网络能从原始像素中自动学习并提取有意义的局部特征，为进一步的图像理解和分类提供基础。

四、卷积层的核心特性

1. 局部连接（Local Connectivity）

原理：每个神经元仅连接输入的一个局部区域。
优势：
- 减少参数量（如3×3卷积核仅需9个权重，而全连接层需连接所有像素）。
- 聚焦局部特征，避免全局噪声干扰。

2. 权重共享（Weight Sharing）

原理：同一卷积核在不同位置重复使用。
优势：
- 参数效率极高（1个核扫描全图）。
- 捕捉平移不变性（无论猫耳朵在图像左侧还是右侧，同一核均可检测）。

3. 平移不变性（Translation Invariance）

原理：物体在图像中的位置变化不影响检测结果。
实现：通过滑动窗口覆盖所有位置，同一核在不同位置激活相同特征。

五、卷积层的实际效果

1. 浅层卷积：边缘与纹理检测

示例核：
- 水平边缘检测：[[1,1,1], [0,0,0], [-1,-1,-1]]
- 垂直边缘检测：[[1,0,-1], [1,0,-1], [1,0,-1]]

2. 深层卷积：抽象语义提取

组合低级特征：如通过边缘检测结果组合出车轮、窗户等物体部件。
高级语义：最终识别出“汽车”“人脸”等复杂概念。

3. 特征图可视化

浅层特征：显示边缘、颜色块等低级模式。
深层特征：对应抽象形状或物体部件。

六、卷积层与全连接层的对比

特性	卷积层	全连接层
连接方式	局部连接 + 权重共享	全局连接 + 独立参数
参数量	与输入尺寸无关	与输入尺寸成正比
空间信息保留	保留多维结构（如图像的2D布局）	展平为一维向量（丢失结构）
适用场景	图像、视频、语音等网格数据	简单分类任务