当前位置：首页 > article >正文

FPGA_YOLO学习（一）

article 2025/3/30 23:03:08

一：CNN学习

首先对CNN（卷积神经网络）进行学习。

CNN笔记：通俗理解卷积神经网络_cnn卷积神经网络-CSDN博客

https://blog.csdn.net/v_JULY_v/article/details/51812459?fromshare=blogdetail&sharetype=blogdetail&sharerId=51812459&sharerefer=PC&sharesource=2302_78225718&sharefrom=from_linkhttps://blog.csdn.net/v_JULY_v/article/details/51812459?fromshare=blogdetail&sharetype=blogdetail&sharerId=51812459&sharerefer=PC&sharesource=2302_78225718&sharefrom=from_link根据上述文章进行总结

1.1神经网络的知识

1.1.1 神经元

神经网络由大量的神经元相互连接而成。每两个神经元之间的连接代表加权值，称之为权重（weight）。不同的权重和激活函数，则会导致神经网络不同的输出。

基本wx + b的形式，其中

、表示输入向量
、为权重，几个输入则意味着有几个权重，即每个输入都被赋予一个权重
b为偏置bias
g(z) 为激活函数
a 为输出

g(z) = g( * + * + b )，g表示激活函数，这里的b可以理解成为更好达到目标而做调整的偏置项。

1.1.2 激活函数

常用的非线性激活函数有sigmoid、tanh、relu。前两者sigmoid/tanh比较常见于全连接层，后者relu常见于卷积层

sigmoid的函数表达式如下

sigmoid函数的功能是相当于把一个实数压缩至0到1之间。当z是非常大的正数时，g(z)会趋近于1，而z是非常小的负数时，则g(z)会趋近于0。

1.1.3 神经网络

单个神经元

输入层（Input layer），众多神经元（Neuron）接受大量非线形输入讯息。输入的讯息称为输入向量。
输出层（Output layer），讯息在神经元链接中传输、分析、权衡，形成输出结果。输出的讯息称为输出向量。
隐藏层（Hidden layer），简称“隐层”，是输入层和输出层之间众多神经元和链接组成的各个层面。如果有多个隐藏层，则意味着多个激活函数。

上图中最左边的原始输入信息称之为输入层，最右边的神经元称之为输出层（上图中输出层只有一个神经元），中间的叫隐藏层。

1.2 卷积神经网络以及层结构

最左边是数据输入层，对数据做一些处理，比如去均值（把输入数据各个维度都中心化为0，避免数据过多偏差，影响训练效果）、归一化（把所有的数据都归一到同样的范围）、PCA/白化等等。CNN只对训练集做“去均值”这一步。

1.2.1卷积层以及激励层池化层的理解

1.2.1.1 卷积层（Convolutional Layer）

核心作用：提取局部特征，保留空间信息。

工作原理：通过可学习的卷积核（滤波器）在输入数据（如图像）上滑动，进行局部区域的乘积和求和运算，生成特征图（Feature Map）。

关键特性：

参数共享：同一卷积核在整个输入上共享权重，大幅减少参数量。

局部连接：每个神经元仅感受局部区域，模拟生物视觉的“感受野”。

层级特征提取：

浅层卷积核捕捉基础特征（如边缘、纹理）；

深层卷积核组合低级特征，检测复杂模式（如物体部件）。

参数设置：卷积核尺寸（如3×3）、步长（Stride）、填充（Padding）影响特征图大小和信息保留。

1.2.1.2. 激励层（Activation Layer）

核心作用：引入非线性，增强模型的表达能力。

典型函数：ReLU（Rectified Linear Unit）最常用，因其计算高效且缓解梯度消失问题。公式：。

功能解析：

解决卷积层的线性局限性，使网络可拟合复杂的非线性函数。

稀疏性激活：ReLU抑制负值，仅保留显著特征，提高网络稀疏性。

其他激活函数：

Sigmoid和Tanh（易饱和，梯度消失，多用于输出层）；

Leaky ReLU、ELU（缓解ReLU的“神经元死亡”问题）。

1.2.1.3. 池化层（Pooling Layer）

核心作用：降维与特征不变性，提升鲁棒性及计算效率。

常用方法：

最大池化（Max Pooling）：取局部区域最大值，保留显著特征；

平均池化（Average Pooling）：取局部区域均值，平滑特征。

核心优势：

平移不变性：特征的小位移不影响池化结果，增强模型泛化能力。

降维：缩小特征图尺寸（如2×2池化窗口将尺寸减半），减少后续计算量。

抗噪声：抑制局部微小噪声的影响。

权衡：池化可能丢失位置细节信息，常用于低层特征抽象。

协同工作流程

特征提取阶段：
卷积层提取局部特征 → 激励层引入非线性 → 池化层压缩空间维度。

层级堆叠：
多层重复（如 Conv → ReLU → Pooling），逐级抽象（边缘 → 纹理 → 物体部件 → 整体结构）。

全连接层前：
最终高级特征经过展平，输入全连接层进行分类或回归。

示例与对比

无卷积层：模型无法捕捉空间相关性，需全连接处理图像，导致参数爆炸。

无激励层：网络退化为线性变换叠加，无法拟合复杂数据（如异或问题）。

无池化层：特征图尺寸过大，计算成本高，且缺乏平移鲁棒性，易过拟合。