当前位置：首页 > article >正文

《深度学习实战》第2集-补充：卷积神经网络（CNN）与图像分类实战代码解析和改进

article 2025/2/28 1:12:35

以下是对《深度学习实战》第2集中 CIFAR-10 数据集使用卷积神经网络进行图像分类实战代码的详细分析，并增加数据探索环节，同时对数据探索、模型训练和评估的过程进行具体说明。所有代码都附上了运行结果配图，方便对比。

《深度学习实战》第2集补充：数据探索与分析

在深度学习项目中，数据探索（Exploratory Data Analysis, EDA）是至关重要的一步。通过数据探索，我们可以了解数据集的基本特性、分布情况以及潜在问题，从而为后续的模型设计和优化提供指导。

1. 数据探索的目标

了解 CIFAR-10 数据集的类别分布。
可视化样本图像，观察其特征。
分析数据预处理的效果。

2. 数据探索实现

2.1 类别分布分析

CIFAR-10 数据集包含 10 个类别，每个类别的样本数量应均匀分布。我们可以通过以下代码统计类别分布：

import matplotlib.pyplot as plt

# 统计类别分布
train_labels = [label for _, label in train_dataset]
class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
label_counts = {class_names[i]: train_labels.count(i) for i in range(10)}

# 可视化类别分布
plt.bar(label_counts.keys(), label_counts.values())
plt.title("Class Distribution in CIFAR-10")
plt.xlabel("Class")
plt.ylabel("Number of Samples")
plt.xticks(rotation=45)
plt.show()

代码运行结果输出:

在这里插入图片描述

结果分析：

如果类别分布均匀，说明数据集没有类别不平衡问题。
在 CIFAR-10 中，每个类别有 5,000 张训练图像，分布均衡。

2.2 样本可视化

为了直观了解数据集中的图像特征，我们可以随机抽取一些样本并可视化：

import numpy as np

# 可视化样本图像
def imshow(img):
    img = img / 2 + 0.5  # 反归一化
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))
    plt.axis('off')
    plt.show()

# 获取一批数据
dataiter = iter(train_loader)
images, labels = next(dataiter)

# 显示图像
imshow(torchvision.utils.make_grid(images[:16]))  # 显示前 16 张图像
print("Labels:", [class_names[label] for label in labels[:16]])

代码运行结果输出:

在这里插入图片描述

Labels: ['bird', 'ship', 'automobile', 'ship', 'cat', 'truck', 'airplane', 'bird', 'airplane', 'frog', 'ship', 'bird', 'automobile', 'bird', 'automobile', 'truck']

结果分析：

图像大小为 32x32，分辨率较低，但足以捕捉基本特征。
不同类别的图像具有明显的视觉差异（如飞机与汽车、猫与狗等），这有助于模型学习区分不同类别。

2.3 数据预处理效果

数据预处理包括调整大小、归一化等操作。我们可以通过打印预处理后的图像张量来验证其效果：

print("Preprocessed Image Shape:", images.shape)  # 输出形状
print("Preprocessed Image Values:", images[0].min().item(), images[0].max().item())  # 输出归一化范围

代码运行输出结果：

Preprocessed Image Shape: torch.Size([64, 3, 224, 224])
Preprocessed Image Values: -0.929411768913269 1.0

结果分析：

预处理后图像被调整为 224x224（ResNet 输入要求），并归一化到 [-1, 1] 范围。
这些操作确保了输入数据的一致性和模型的稳定性。

原代码分析与改进

1. 数据加载与预处理

代码中使用 torchvision.transforms 对数据进行了标准化和尺寸调整。以下是关键步骤的解释：

Resize(224)：将图像从原始的 32x32 调整为 ResNet 的输入尺寸 224x224。
Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))：将像素值归一化到 [-1, 1] 范围，以加速收敛。

改进建议：

添加数据增强（Data Augmentation），如随机裁剪、水平翻转等，以提高模型的泛化能力：

transform = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomCrop(32, padding=4),
    transforms.Resize(224),
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

改进后代码替换原代码，运行后输出：

Epoch 1, Loss: 0.6051
Epoch 2, Loss: 0.3872
Epoch 3, Loss: 0.3126
Epoch 4, Loss: 0.2649
Epoch 5, Loss: 0.2316
Test Accuracy: 0.9022

可以看到损失系数不同，但精确率最终结果差不多。

2. 模型训练

代码中使用了预训练的 ResNet-18 模型，并修改了最后一层以适应 CIFAR-10 的 10 个类别。以下是训练过程的关键点：

2.1 模型结构

ResNet-18 是一个轻量级的 CNN 架构，包含 18 层卷积网络。
修改全连接层（model.fc）以输出 10 个类别的概率。

2.2 训练过程

使用 Adam 优化器，学习率为 0.001。
损失函数为交叉熵损失（nn.CrossEntropyLoss），适用于多分类任务。
每个 epoch 后打印平均损失，便于监控训练进度。

改进建议：

增加学习率调度器（Learning Rate Scheduler），例如余弦退火或 StepLR，以动态调整学习率。
保存最佳模型权重，避免过拟合。

3. 模型评估

代码中通过测试集计算了模型的准确率。以下是评估过程的关键点：

3.1 测试过程

将模型切换为评估模式（model.eval()），关闭 Dropout 和 BatchNorm 的随机性。
使用 torch.no_grad() 禁用梯度计算，减少内存消耗。

3.2 结果分析

假设测试准确率为 75%，说明模型在 CIFAR-10 上表现良好，但仍有一定的提升空间。

改进建议：

计算混淆矩阵（Confusion Matrix），分析模型在不同类别上的表现：

from sklearn.metrics import confusion_matrix
import seaborn as sns

all_preds, all_labels = [], []
with torch.no_grad():
    for images, labels in test_loader:
        images, labels = images.to(device), labels.to(device)
        outputs = model(images)
        _, preds = torch.max(outputs, 1)
        all_preds.extend(preds.cpu().numpy())
        all_labels.extend(labels.cpu().numpy())

cm = confusion_matrix(all_labels, all_preds)
sns.heatmap(cm, annot=True, fmt="d", xticklabels=class_names, yticklabels=class_names)
plt.title("Confusion Matrix")
plt.xlabel("Predicted")
plt.ylabel("True")
plt.show()