当前位置：首页 > article >正文

pytorch与深度学习随记——AlexNet

article 2025/3/3 2:40:40

AlexNet和LeNet的设计理念非常相似，但也存在显著差异：

基本结构对比

网络深度：AlexNet比LeNet-5要深得多，AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。
激活函数：AlexNet使用ReLU而不是sigmoid作为其激活函数，这有助于缓解梯度消失问题并加速训练过程。

AlexNet架构的创新点

局部响应归一化(LRN)：AlexNet引入LRN层，可以创建一种"侧抑制"机制，增强模型的泛化能力。
Dropout技术：在全连接层使用Dropout（概率为0.5），有效减轻过拟合问题。

架构细节分析

大卷积核尺寸：第一层使用11×11的大卷积核，步长为4，有助于捕捉更大范围的图像特征。
通道数量：AlexNet的通道数远大于LeNet，第一层就有96个过滤器，显著增强了特征提取能力。
池化层设计：使用重叠最大池化（kernel_size=3, stride=2），提高了特征的鲁棒性。
连续卷积层：中间使用三个连续的卷积层而无池化层，可以学习更复杂的特征表示。

pytorch代码实现

net = nn.Sequential(
    # 第一层：大卷积核(11×11)捕捉宏观特征，步幅4减少计算量，96个通道提取丰富特征
    # 另外，输出通道的数目远大于LeNet
    nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    
    # 第二层：中等卷积核(5×5)，使用padding=2保持特征图尺寸，增加到256通道
    nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    
    # 第三至五层：连续的小卷积核(3×3)层，捕捉细节特征
    # 通道数先增加后减少(256→384→384→256)，形成"金字塔"结构
    nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    
    # 展平后连接全连接层，大幅减少参数(6400→4096→4096→1000)
    nn.Flatten(),
    nn.Linear(6400, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),  # 防止过拟合
    nn.Linear(4096, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    nn.Linear(4096, 1000)  # 输出层
)

AlexNet历史意义