当前位置：首页 > article >正文

1. 深度学习基础：从神经网络到深度学习

article 2025/3/11 15:37:41

深度学习已经成为现代人工智能的核心技术，推动了计算机视觉、自然语言处理等领域的重大进展。本篇博文将介绍深度学习的基础知识，追溯其从简单神经网络到复杂深度学习模型的发展历程，帮助读者理解深度学习的基本概念和模型结构。

神经网络是深度学习的基础，其结构受到人脑中神经元连接模式的启发。一个典型的神经网络由多个层组成，每一层都包含一定数量的神经元。

神经元：每个神经元接收输入，执行加权和操作，并通过激活函数生成输出。输入和权重的加权和再加上偏置，通过激活函数（如ReLU、Sigmoid、Tanh等）进行非线性转换，输出到下一层。
激活函数：激活函数为神经网络引入非线性能力，使其能够学习和表示复杂的函数关系。常见的激活函数包括：
- ReLU（Rectified Linear Unit）： $\max(0, x)$ ，常用于深度神经网络中，因其计算简单且有效缓解梯度消失问题。
- Sigmoid： $\frac{1}{1 + e^{-x}}$ ，将输出限制在0到1之间，适用于二分类任务。
- Tanh： $\tanh(x)$ ，输出范围为-1到1，适用于序列数据处理。
损失函数：损失函数用于衡量模型预测与实际结果之间的差异，常用的有均方误差（MSE）和交叉熵损失。通过优化损失函数，模型逐步调整权重以提高预测准确性。

单层感知器是最简单的神经网络模型，由输入层和输出层构成。它只能解决线性可分的问题，而无法处理复杂的非线性数据。因此，神经网络需要扩展到多层感知器（MLP），即增加一个或多个隐藏层，以增强网络的表示能力。

单层感知器的局限：只能解决线性问题，如“与或非”逻辑运算，但对非线性问题（如XOR）无能为力。
多层感知器（MLP）：通过引入隐藏层，MLP能够学习更复杂的映射关系。每一层的神经元都接收上一层的输出，通过加权和激活函数生成下一层的输入。MLP通过反向传播算法调整权重，使损失函数逐步减少，从而提高模型的预测能力。

深度学习的核心在于“深度”，即网络层数的增加。与传统的浅层网络相比，深度网络拥有更多的隐藏层，可以学习更加复杂和抽象的特征。

层数：神经网络的层数决定了其深度。浅层网络（如MLP）通常只有1-2个隐藏层，而深度网络则可能包含数十甚至上百个隐藏层。
深度与复杂度：随着层数的增加，网络的复杂度也随之增加。深度网络能够捕捉数据的多层次结构，从低层次的边缘、纹理等简单特征，到高层次的对象、类别等抽象特征。
深度学习的优势：相比传统机器学习方法，深度学习通过自动特征提取减少了对人工特征工程的依赖，使得它在图像、语音、文本等数据的处理上表现出色。

深度学习的发展离不开经典模型的推动。早期的神经网络模型如LeNet开启了深度学习的应用，而现代的卷积神经网络（CNN）则进一步提升了深度学习的性能。

LeNet-5：由Yann LeCun等人在1998年提出，LeNet-5是首个应用于手写数字识别的卷积神经网络。它包含两层卷积层、两层池化层和三层全连接层，是深度学习在计算机视觉领域应用的奠基石。
AlexNet：2012年，由Krizhevsky等人提出的AlexNet在ImageNet图像分类比赛中大放异彩，标志着深度学习的复兴。AlexNet采用了更深的网络结构和ReLU激活函数，并引入了Dropout来防止过拟合。
VGGNet：由牛津大学的Simonyan和Zisserman提出，VGGNet通过堆叠多个小卷积核（3x3）的卷积层，进一步提高了图像分类精度。
ResNet：由何凯明等人提出，ResNet引入了残差模块，使得训练超深网络成为可能。ResNet在ImageNet上取得了显著的性能提升，成为深度学习研究的里程碑。