当前位置：首页 > article >正文

CNN神经网络概述

article 2025/3/4 2:09:36

（1）应用领域：

简要：特征提取基本是可以用的

假设你有一张图片(就是样本),他的像素点就是你的特征属性

一张图片[27,27,3]:长，宽，通道（RGB）

1.疑点：为什么3d到2d:因为图像通道分离：rgb 分别分成了 28x28x1的3张像素图

2.疑点：卷积的作用：

卷积就是上面的小数字，3x3矩阵->与像素相乘->得到特征值->组成新的特征矩阵

3.疑点：卷积参数：

步长：就是滑动的步数

卷积核：就是多大的矩阵

卷积个数：一层进行多少次卷积

填充：在原本样本特征上有多少层填零

conv_layer = nn.Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)

3：这是输入通道数（in_channels），意味着输入的特征图具有 3 个通道，通常对应 RGB 彩色图像的三个颜色通道（红、绿、蓝）。

64：代表输出通道数（out_channels），即经过该卷积层处理后，输出的特征图将有 64 个通道。每一个输出通道都对应一组卷积核学习到的不同特征。

kernel_size=(7, 7)：指定卷积核的大小，这里是一个 7x7 的二维卷积核。在卷积操作时，这个 7x7 的卷积核会在输入特征图上滑动，进行卷积计算。

stride=(2, 2)：表示卷积核在输入特征图上滑动的步长。在水平和垂直方向上，卷积核每次移动 2 个像素。较大的步长会使输出特征图的尺寸变小。

padding=(3, 3)：在输入特征图的边界周围填充像素的数量。水平和垂直方向上都填充 3 个像素。填充的目的是为了控制输出特征图的尺寸，避免在卷积过程中特征图尺寸过度缩小。

bias=False：表示在卷积层中不使用偏置项。偏置项是一个可学习的标量，用于在卷积计算后对结果进行偏移。设置为 False 意味着不添加这个偏置项

作用：

加速模型收敛：减少了内部协变量偏移，使得梯度更加稳定，从而加快训练速度。

具有一定正则化作用：可以减少过拟合的风险。

bn_layer = nn.BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

64：这是输入特征图的通道数（num_features）。在 CNN 里，通常会将卷积层的输出特图输入到批量归一化层进行处理，这里的 64 就对应着上一层卷积层输出的特征图通道数量。
eps：一个很小的数值，用于在分母中添加一个小的偏移量，避免在归一化计算时出现除以零的情况，默认值为 1e-05。在批量归一化的计算过程中，需要对输入数据进行标准化，即减去均值并除以标准差，eps 保证了计算的稳定性。
momentum：用于计算运行时的均值和方差的动量参数，默认值为 0.1。在训练过程中，批量归一化层会记录每个批次数据的均值和方差，并使用动量更新全局的运行均值和运行方差。

引入非线性

神经网络的主要目标是学习复杂的非线性关系。如果没有激活函数，神经网络将仅仅是一个线性模型，无论网络有多少层，其本质都只是一个线性变换，只能学习到输入数据的线性组合关系，这极大地限制了神经网络的表达能力。激活函数的引入打破了这种线性限制，使得神经网络能够学习到更复杂、更高级的非线性映射关系，从而可以对各种复杂的数据集进行建模，例如图像、语音等具有高度非线性特征的数据。

增加模型的表达能力

激活函数能够让神经网络具有更强的函数逼近能力。根据通用近似定理，具有非线性激活函数的多层神经网络可以以任意精度逼近任何一个连续函数。这意味着通过选择合适的激活函数和调整神经网络的参数，我们可以让模型拟合几乎任何复杂的函数关系，从而能够处理各种不同类型的任务，如分类、回归、生成等。
不同的激活函数具有不同的非线性特性，例如 Sigmoid 函数具有平滑的饱和特性，ReLU 函数具有单侧线性的特性等，这些不同的特性使得神经网络在学习不同类型的数据和任务时具有不同的优势，进一步丰富了模型的表达能力。