当前位置: 首页 > article >正文

计算机视觉语义分割——FCN(Fully Convolutional Networks for Semantic Segmentation)

计算机视觉语义分割——FCN(Fully Convolutional Networks for Semantic Segmentation)

文章目录

  • 计算机视觉语义分割——FCN(Fully Convolutional Networks for Semantic Segmentation)
    • 摘要
    • Abstract
    • 一、全卷积神经网络(FCN)
      • 1. 基本思想
      • 2. 转置卷积
        • 2.1 转置卷积的基本操作
        • 2.2 转置卷积的填充、步幅和多通道
        • 2.3 转置卷积和矩阵变换的关系
      • 3. 双线性插值
        • 3.1 插值
        • 3.2 线性插值
        • 3.3 双线性插值
      • 4. 语义分割数据集VOC2012
        • 4.1 数据集介绍
        • 4.2 预处理数据
        • 4.3 自定义语义分割数据集类
        • 4.4 读取数据集
        • 4.5 整合数据集
      • 5. FCN的代码实现
        • 5.1 初始化转置卷积层
        • 5.2 数据集与训练
        • 5.3 预测
    • 总结

摘要

本周主要学习了全卷积神经网络(Fully Convolutional Network, FCN)在语义分割任务中的应用与实现。深入分析了FCN的基本思想、转置卷积的原理及其与上采样的关系,并通过代码实现了FCN模型。研究了双线性插值对转置卷积核的初始化方法以及其在图像放大中的应用。此外,通过Pascal VOC2012数据集,完成了数据预处理、模型训练与测试,验证了FCN在像素级分类任务中的性能。实验结果表明,FCN能够有效地对图像中每个像素进行分类,从而实现语义分割任务。

Abstract

This week focused on studying the application and implementation of Fully Convolutional Networks (FCN) in semantic segmentation tasks. The fundamental concepts of FCN, the principles of transposed convolution, and its relationship with up-sampling were analyzed in depth. The FCN model was implemented through coding, and bilinear interpolation was examined for initializing transposed convolution kernels and its application in image up-sampling. Additionally, the Pascal VOC2012 dataset was utilized for data preprocessing, model training, and testing to evaluate the performance of FCN in pixel-level classification tasks. Experimental results demonstrate that FCN effectively classifies each pixel in an image, enabling semantic segmentation tasks.

一、全卷积神经网络(FCN)

1. 基本思想

全卷积神经网络(FCN, Fully Convolutional Network)是用深度神经网络来做语义分割的奠基性工作,它用转置卷积来替换CNN最后的全连接层,从而可以实现每个像素的预测。

image-20250107153433781

CNN:在传统的CNN网络中,在最后的卷积层之后会连接上若干个全连接层,将卷积层产生的特征图(feature map)映射成为一个固定长度的特征向量。一般的CNN结构适用于图像级别的分类和回归任务,因为它们最后都期望得到输入图像的分类概率,比如上图中的AlexNet网络最后输出一个1000维的向量,该向量表示输入图像属于的每一类的概率,上图"tabby cat"的预测值最大,表明输入图像被分类为"tabby cat"。

FCN:全卷积神经网络FCN是对图像进行像素级别的分类,也就是对每个像素点都进行分类,从而解决语义级别的图像分割问题。与上面经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类不同,FCN可以接受任意尺寸的输入图像,采用转置卷积层对最后一个卷积层的特征图进行上采样,使它恢复到与输入图像相同的尺寸,从而可以对每一个像素都产生一个预测,同时保留了原始输入图像的空间信息,最后在上采样的特征图中进行像素的分类。

上图表明了将最后三层全连接层卷积化的过程,FCN与CNN的区别在于FCN将CNN最后的全连接层都换成卷积层,其输出的是一张已经标记好的图,而不是一个概率值。

2. 转置卷积

转置卷积是一种上采样(up-sampling)的常见方法,上采样有诸多方法,如最近邻插值(Nearest neighbor interpolation)、双线性插值(Bi-linear interpolation)和双立方插值(Bi-cubic interpolation)。但是,上述的方法都需要插值操作,而这些插值的操作都充满了人为设计和特征工程的气息,而且也没有网络进行学习的余地。如果我们想要网络去学出一种最优的上采样方法,我们可以使用转置卷积。它与基于插值的方法不同,它有可以学习的参数。

2.1 转置卷积的基本操作

我们暂时忽略通道,从基本的转置卷积开始,设步幅为1且没有填充。

  1. 假设我们有一个 n h × n w n_h \times n_w nh×nw的输入张量和一个 k h × k w k_h \times k_w kh×kw的卷积核。
  2. 以步幅为1滑动卷积核窗口,每行 n w n_w nw次,每列 n h n_h nh次,共产生 n h n w n_h n_w nhnw个中间结果。
  3. 每个中间结果都是一个 ( n h + k h − 1 ) × ( n w + k w − 1 ) (n_h + k_h - 1) \times (n_w + k_w - 1) (nh+kh1)×(nw+kw1)的张量,初始化为0。
  4. 为了计算每个中间张量,输入张量中的每个元素都要乘以卷积核,从而使所得的 k h × k w k_h \times k_w kh×kw张量替换中间张量的一部分。每个中间张量被替换部分的位置与输入张量中元素的位置相对应。
  5. 最后,所有中间结果相加以获得最终结果。

image-20250107172952128

上图为 2 × 2 2\times 2 2×2的输入张量计算卷积核为 2 × 2 2\times 2 2×2的转置卷积:

  1. ( n h + k h − 1 ) = = ( n w + k w − 1 ) = = 3 (n_h + k_h - 1)==(n_w + k_w - 1)==3 (nh+kh1)==(nw+kw1)==3,中间张量大小为 ( n h + k h − 1 ) × ( n w + k w − 1 ) = 9 (n_h + k_h - 1) \times (n_w + k_w - 1)=9 (nh+kh1)×(nw+kw1)=9
  2. 输入张量的每个元素都要乘以 k h × k w k_h \times k_w kh×kw的卷积核,得到 k h × k w k_h \times k_w kh×kw大小的张量。并用这个张量替换中间向量的一部分,每个中间向量被替换部分的位置与输入张量中元素的位置相对应。
  3. 最后将所有中间结果相加得到最终结果。

我们可以实现上述基本的转置卷积:

def trans_conv(X, K):
    h, w = K.shape
    Y = torch.zeros((X.shape[0] + h - 1, X.shape[1] + w - 1))
    for i in range(X.shape[0]):
        for j in range(X.shape[1]):
            Y[i: i + h, j: j + w] += X[i, j] * K
    return Y
# 转置卷积通过卷积核“广播”输入元素,从而产生大于输入的输出

输入如下:

X = torch.tensor([[0.0, 1.0], [2.0, 3.0]])
K = torch.tensor([[0.0, 1.0], [2.0, 3.0]])
trans_conv(X, K)

输出如下:

tensor([[ 0.,  0.,  1.],
        [ 0.,  4.,  6.],
        [ 4., 12.,  9.]])

当输入 X X X和卷积核 K K K都是四维张量时,可以使用高级API:ConvTranspose2d

from torch import nn
X, K = X.reshape(1, 1, 2, 2), K.reshape(1, 1, 2, 2)
tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, bias=False)
tconv.weight.data = K
tconv(X)

输出如下:

tensor([[[[ 0.,  0.,  1.],
          [ 0.,  4.,  6.],
          [ 4., 12.,  9.]]]], grad_fn=<ConvolutionBackward0>)
2.2 转置卷积的填充、步幅和多通道

填充

与常规的卷积操作不同,在转置卷积中,填充(padding)是用于输出的,而常规的卷积是先将填充应用于输入。例如,当将高和宽两侧的填充数指定为1时,转置卷积的输出中将删除第一行和第一列以及最后一行和最后一列。

tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, padding=1, bias=False)
tconv.weight.data = K
tconv(X)

输出结果是:

tensor([[[[4.]]]], grad_fn=<ConvolutionBackward0>)
#相较于上面的输出,去掉了第一行第一列和最后一行最后一列,只留下了中间的4

步幅

image-20250107173022339

上图更改了步幅为2,这是计算相同的 2 × 2 2\times 2 2×2的输入张量和卷积核为 2 × 2 2\times 2 2×2的转置卷积的结果。

输入:

tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, stride=2, bias=False)
tconv.weight.data = K
tconv(X)

输出:

tensor([[[[0., 0., 0., 1.],
          [0., 0., 2., 3.],
          [0., 2., 0., 3.],
          [4., 6., 6., 9.]]]], grad_fn=<ConvolutionBackward0>)

多通道

对于多个输入和输出通道,转置卷积与常规卷积以相同方式运作。

  1. 假设输入有 c i c_i ci个通道,且转置卷积为每个输入通道分配了一个 k h × k w k_h\times k_w kh×kw的卷积核张量。当指定多个输出通道时,每个输出通道将有一个 c i × k h × k w c_i\times k_h\times k_w ci×kh×kw的卷积核。
  2. 同样,如果将 X X X代入卷积层 f f f来输出 Y = f ( X ) Y=f(X) Y=f(X),并创建一个与 f f f具有相同的超参数、但输出通道数量是 X X X中通道数的转置卷积层 g g g,那么 g ( Y ) g(Y) g(Y)的形状将与 X X X相同。

输入:

X = torch.rand(size=(1, 10, 16, 16))
conv = nn.Conv2d(10, 20, kernel_size=5, padding=2, stride=3)
tconv = nn.ConvTranspose2d(20, 10, kernel_size=5, padding=2, stride=3)
tconv(conv(X)).shape == X.shape

输出:

True
2.3 转置卷积和矩阵变换的关系

转置卷积为何以矩阵变换中的转置命名呢?
让我们首先看看如何使用矩阵乘法来实现卷积。在下面的示例中,我们定义了一个 3 × 3 3\times 3 3×3的输入X 2 × 2 2\times 2 2×2卷积核K,然后使用corr2d函数计算卷积输出Y

输入:

X = torch.arange(9.0).reshape(3, 3)
K = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
Y = d2l.corr2d(X, K)
Y

输出:

tensor([[27., 37.],
        [57., 67.]])

接下来,我们将卷积核K重写为包含大量0的稀疏权重矩阵W。权重矩阵的形状是( 4 4 4 9 9 9),其中非0元素来自卷积核K

def kernel2matrix(K):
    k, W = torch.zeros(5), torch.zeros((4, 9))
    k[:2], k[3:5] = K[0, :], K[1, :]
    W[0, :5], W[1, 1:6], W[2, 3:8], W[3, 4:] = k, k, k, k
    return W

W = kernel2matrix(K)
W

输出:

tensor([[1., 2., 0., 3., 4., 0., 0., 0., 0.],
        [0., 1., 2., 0., 3., 4., 0., 0., 0.],
        [0., 0., 0., 1., 2., 0., 3., 4., 0.],
        [0., 0., 0., 0., 1., 2., 0., 3., 4.]])

逐行连j接输入的X,获得了一个长度为9的矢量。 然后,W的矩阵乘法和向量化的X给出了一个长度为4的向量。 重塑它之后,可以获得与上面的原始卷积操作所得相同的结果Y:我们刚刚使用矩阵乘法实现了卷积。

输入:

Y == torch.matmul(W, X.reshape(-1)).reshape(2, 2)

输出:

tensor([[True, True],
        [True, True]])
#这表明卷积操作和矩阵乘法的结果一致

同样,我们可以使用矩阵乘法来实现转置卷积。在下面的示例中,我们将上面的常规卷积 2 × 2 2 \times 2 2×2的输出Y作为转置卷积的输入。想要通过矩阵相乘来实现它,我们只需要将权重矩阵W的形状转置为 ( 9 , 4 ) (9, 4) (9,4)

输入:

Z = trans_conv(Y, K)
Z == torch.matmul(W.T, Y.reshape(-1)).reshape(3, 3)

输出:

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

抽象来看,给定输入向量 x \mathbf{x} x和权重矩阵 W \mathbf{W} W,卷积的前向传播函数可以通过将其输入与权重矩阵相乘并输出向量 y = W x \mathbf{y}=\mathbf{W}\mathbf{x} y=Wx来实现。
由于反向传播遵循链式法则和 ∇ x y = W ⊤ \nabla_{\mathbf{x}}\mathbf{y}=\mathbf{W}^\top xy=W,卷积的反向传播函数可以通过将其输入与转置的权重矩阵 W ⊤ \mathbf{W}^\top W相乘来实现。
因此,转置卷积层能够交换卷积层的正向传播函数和反向传播函数:它的正向传播和反向传播函数将输入向量分别与 W ⊤ \mathbf{W}^\top W W \mathbf{W} W相乘。

3. 双线性插值

3.1 插值

插值指两个方面:

一是在数学上,在离散数据的基础上补插连续函数,使得这条连续曲线通过全部给定的离散数据点;

二是在图像处理上面,是利用已知邻近像素点的灰度值或RGB中的三色值产生未知像素点的灰度值或RGB三色值,目的是由原始图像再生出具有更高分辨率的图像。通俗一点理解就是已知推导未知,从而强化图像。

3.2 线性插值

线性插值是指插值函数为一次多项式的插值方式,其在插值节点上的插值误差为零。也就是连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的办法。

线性插值法是认为现象的变化发展是线性的、均匀的,所以可利用两点式的直线方程式进行线性插值。其几何意义可以示意为利用图中过A点 ( x 0 , y 0 ) ({x_0},{y_0}) (x0,y0)和B点 ( x 1 , y 1 ) ({x_1},{y_1}) (x1,y1)的直线来推断未知C点 ( x , y ) (x,y) (x,y)的坐标。

在这里插入图片描述

求y的坐标转换为公式计算为: y − y 0 y 1 − y 0 = x − x 0 x 1 − x 0 {{y - {y_0}} \over {{y_1} - {y_0}}} = {{x - {x_0}} \over {{x_1} - {x_0}}} y1y0yy0=x1x0xx0

即: y = x 1 − x x 1 − x 0 y 0 + x − x 0 x 1 − x 0 y 1 y = {{{x_1} - x} \over {{x_1} - {x_0}}}{y_0} + {{x - {x_0}} \over {{x_1} - {x_0}}}{y_1} y=x1x0x1xy0+x1x0xx0y1

首先看分子,分子可以看成 x x x x 0 x_0 x0 x 1 x_1 x1的距离作为权重,这也是很好理解的,C点与A、B点符合线性变化关系,所以P离A近就更接近A,反之则更接近B。

现在再把公式中的分式看成一个整体,原式可以理解成 y 0 y_0 y0 y 1 y_1 y1是加权系数,如何理解这个加权,要返回来思考一下,咱们先要明确一下根本的目的:咱们现在不是在求一个公式,而是在图像中根据2个点的像素值求未知点的像素值。现在根据实际的目的理解,就很好理解这个加权了, y 0 y_0 y0 y 1 y_1 y1分别代表原图像中的像素值,上面的公式可以写成如下形式: f ( C ) = x 1 − x x 1 − x 0 f ( A ) + x − x 0 x 1 − x 0 f ( B ) f(C) = {{{x_1} - x} \over {{x_1} - {x_0}}}f(A) + {{x - {x_0}} \over {{x_1} - {x_0}}}f(B) f(C)=x1x0x1xf(A)+x1x0xx0f(B)

单个维度的线性插值只利用两点的对应值推算,两点本身的偶然性会造成结果的误差较大,因而在图像处理中多采用双线性插值。

3.3 双线性插值

既然单个维度的线性插值误差较大,那么很自然的会想到从多维度的角度去减小误差,这就是双线性插值,其核心思想是在两个方向分别进行一次线性插值。

如上图所示,我们的目标是得到未知函数 f f f在绿色点 P ( x , y ) P(x,y) P(x,y)的像素值,已知 Q 11 ( x 1 , y 1 ) {Q_{11}}({x_1},{y_1}) Q11(x1,y1) Q 12 ( x 1 , y 2 ) {Q_{12}}({x_1},{y_2}) Q12(x1,y2) Q 21 ( x 2 , y 1 ) {Q_{21}}({x_2},{y_1}) Q21(x2,y1) Q 22 ( x 2 , y 2 ) {Q_{22}}({x_2},{y_2}) Q22(x2,y2)的坐标以及对应的像素值。首先在 x x x方向进行插值,得到 R 1 R_1 R1 R 2 R_2 R2的像素值,然后在 y y y方向进行插值,得到 P P P的像素值,这就是整个思路。

其中 R 1 R_1 R1 R 2 R_2 R2的计算公式如下:

微信图片_20250111173907

y y y方向插值,计算 P P P的计算公式为:

微信图片_20250111174249

4. 语义分割数据集VOC2012

语义分割semantic segmentation)问题,它重点关注于如何将图像分割成属于不同语义类别的区域。 与目标检测不同,语义分割可以识别并理解图像中每一个像素的内容,其语义区域的标注和预测是像素级的。

计算机视觉领域还有2个与语义分割相似的重要问题,即图像分割image segmentation)和实例分割instance segmentation)。
我们在这里将它们同语义分割简单区分一下。

  • 图像分割将图像划分为若干组成区域,这类问题的方法通常利用图像中像素之间的相关性。它在训练时不需要有关图像像素的标签信息,在预测时也无法保证分割出的区域具有我们希望得到的语义。例如,图像分割可能会将狗分为两个区域:一个覆盖以黑色为主的嘴和眼睛,另一个覆盖以黄色为主的其余部分身体。
  • 实例分割也叫同时检测并分割simultaneous detection and segmentation),它研究如何识别图像中各个目标实例的像素级区域。与语义分割不同,实例分割不仅需要区分语义,还要区分不同的目标实例。例如,如果图像中有两条狗,则实例分割需要区分像素属于的两条狗中的哪一条。

**最重要的语义分割数据集之一是Pascal VOC2012。**下面我们深入了解一下这个数据集。

4.1 数据集介绍

进入路径../VOCdevkit/VOC2012之后,我们可以看到这个数据集的不同组件。ImageSets/Segmentation路径包含用于训练和测试样本的文本文件,而JPEGImagesSegmentationClass路径分别存储着每个示例的输入图像和标签。此处的标签也采用图像格式,其尺寸和它所标注的输入图像的尺寸相同。
此外,标签中颜色相同的像素属于同一个语义类别。下面定义read_voc_images函数将所有输入的图像和标签读入内存

import os
import torch
import torchvision
from d2l import torch as d2l

def read_voc_images(voc_dir, is_train=True):
    """读取所有VOC图像并标注"""
    txt_fname = os.path.join(voc_dir, 'ImageSets', 'Segmentation',
                             'train.txt' if is_train else 'val.txt')
    mode = torchvision.io.image.ImageReadMode.RGB
    with open(txt_fname, 'r') as f:
        images = f.read().split()
    features, labels = [], []
    for i, fname in enumerate(images):
        features.append(torchvision.io.read_image(os.path.join(
            voc_dir, 'JPEGImages', f'{fname}.jpg')))
        labels.append(torchvision.io.read_image(os.path.join(
            voc_dir, 'SegmentationClass' ,f'{fname}.png'), mode))
    return features, labels

train_features, train_labels = read_voc_images(voc_dir, True)

在标签图像中,白色和黑色分别表示边框和背景,而其他颜色则对应不同的类别。

接下来,我们列举RGB颜色值和类名

VOC_COLORMAP = [[0, 0, 0], [128, 0, 0], [0, 128, 0], [128, 128, 0],
                [0, 0, 128], [128, 0, 128], [0, 128, 128], [128, 128, 128],
                [64, 0, 0], [192, 0, 0], [64, 128, 0], [192, 128, 0],
                [64, 0, 128], [192, 0, 128], [64, 128, 128], [192, 128, 128],
                [0, 64, 0], [128, 64, 0], [0, 192, 0], [128, 192, 0],
                [0, 64, 128]]

VOC_CLASSES = ['background', 'aeroplane', 'bicycle', 'bird', 'boat',
               'bottle', 'bus', 'car', 'cat', 'chair', 'cow',
               'diningtable', 'dog', 'horse', 'motorbike', 'person',
               'potted plant', 'sheep', 'sofa', 'train', 'tv/monitor']

通过上面定义的两个常量,我们可以方便地查找标签中每个像素的类索引。我们定义了voc_colormap2label函数来构建从上述RGB颜色值到类别索引的映射,而voc_label_indices函数将RGB值映射到在Pascal VOC2012数据集中的类别索引。

def voc_colormap2label():
    """构建从RGB到VOC类别索引的映射"""
    colormap2label = torch.zeros(256 ** 3, dtype=torch.long)
    for i, colormap in enumerate(VOC_COLORMAP):
        colormap2label[
            (colormap[0] * 256 + colormap[1]) * 256 + colormap[2]] = i
    return colormap2label

def voc_label_indices(colormap, colormap2label):
    """将VOC标签中的RGB值映射到它们的类别索引"""
    colormap = colormap.permute(1, 2, 0).numpy().astype('int32')
    idx = ((colormap[:, :, 0] * 256 + colormap[:, :, 1]) * 256
           + colormap[:, :, 2])
    return colormap2label[idx]

例如:在第一张样本图像中,飞机头部区域的类别索引为1,而背景索引为0。

y = voc_label_indices(train_labels[0], voc_colormap2label())
y[105:115, 130:140], VOC_CLASSES[1]

输出:

(tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
         [0, 0, 0, 0, 0, 0, 0, 1, 1, 1],
         [0, 0, 0, 0, 0, 0, 1, 1, 1, 1],
         [0, 0, 0, 0, 0, 1, 1, 1, 1, 1],
         [0, 0, 0, 0, 0, 1, 1, 1, 1, 1],
         [0, 0, 0, 0, 1, 1, 1, 1, 1, 1],
         [0, 0, 0, 0, 0, 1, 1, 1, 1, 1],
         [0, 0, 0, 0, 0, 1, 1, 1, 1, 1],
         [0, 0, 0, 0, 0, 0, 1, 1, 1, 1],
         [0, 0, 0, 0, 0, 0, 0, 0, 1, 1]]),
 'aeroplane')
4.2 预处理数据

在前面的分类任务中,我们通过再缩放图像使其符合模型的输入形状。然而在语义分割中,这样做需要将预测的像素类别重新映射回原始尺寸的输入图像。 这样的映射可能不够精确,尤其在不同语义的分割区域。 为了避免这个问题,我们将图像裁剪为固定尺寸,而不是再缩放。 具体来说,我们使用图像增广中的随机裁剪,裁剪输入图像和标签的相同区域

def voc_rand_crop(feature, label, height, width):
    """随机裁剪特征和标签图像"""
    rect = torchvision.transforms.RandomCrop.get_params(
        feature, (height, width))
    feature = torchvision.transforms.functional.crop(feature, *rect)
    label = torchvision.transforms.functional.crop(label, *rect)
    return feature, label
imgs = []
for _ in range(n):
    imgs += voc_rand_crop(train_features[0], train_labels[0], 200, 300)

imgs = [img.permute(1, 2, 0) for img in imgs]
d2l.show_images(imgs[::2] + imgs[1::2], 2, n);

输出:

image-20250111183700517

4.3 自定义语义分割数据集类

通过继承高级API提供的Dataset类,自定义了一个语义分割数据集类VOCSegDataset。通过实现__getitem__函数,我们可以任意访问数据集中索引为idx的输入图像及其每个像素的类别索引。由于数据集中有些图像的尺寸可能小于随机裁剪所指定的输出尺寸,这些样本可以通过自定义的filter函数移除掉。
此外,我们还定义了normalize_image函数,从而对输入图像的RGB三个通道的值分别做标准化。

class VOCSegDataset(torch.utils.data.Dataset):
    """一个用于加载VOC数据集的自定义数据集"""

    def __init__(self, is_train, crop_size, voc_dir):
        self.transform = torchvision.transforms.Normalize(
            mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
        self.crop_size = crop_size
        features, labels = read_voc_images(voc_dir, is_train=is_train)
        self.features = [self.normalize_image(feature)
                         for feature in self.filter(features)]
        self.labels = self.filter(labels)
        self.colormap2label = voc_colormap2label()
        print('read ' + str(len(self.features)) + ' examples')

    def normalize_image(self, img):
        return self.transform(img.float() / 255)

    def filter(self, imgs):
        return [img for img in imgs if (
            img.shape[1] >= self.crop_size[0] and
            img.shape[2] >= self.crop_size[1])]

    def __getitem__(self, idx):
        feature, label = voc_rand_crop(self.features[idx], self.labels[idx],
                                       *self.crop_size)
        return (feature, voc_label_indices(label, self.colormap2label))

    def __len__(self):
        return len(self.features)
4.4 读取数据集

我们通过自定义的VOCSegDataset类来分别创建训练集和测试集的实例。假设我们指定随机裁剪的输出图像的形状为 320 × 480 320\times 480 320×480,下面我们可以查看训练集和测试集所保留的样本个数。

crop_size = (320, 480)
voc_train = VOCSegDataset(True, crop_size, voc_dir)
voc_test = VOCSegDataset(False, crop_size, voc_dir)

输出:

read 1114 examples
read 1078 examples

设批量大小为64,我们定义训练集的迭代器。 打印第一个小批量的形状会发现:与图像分类或目标检测不同,这里的标签是一个三维数组。

batch_size = 64
train_iter = torch.utils.data.DataLoader(voc_train, batch_size, shuffle=True,
                                    drop_last=True,
                                    num_workers=d2l.get_dataloader_workers())
for X, Y in train_iter:
    print(X.shape)
    print(Y.shape)
    break
4.5 整合数据集

最后,我们定义以下load_data_voc函数来下载并读取Pascal VOC2012语义分割数据集。它返回训练集和测试集的数据迭代器。

def load_data_voc(batch_size, crop_size):
    """加载VOC语义分割数据集"""
    voc_dir = d2l.download_extract('voc2012', os.path.join(
        'VOCdevkit', 'VOC2012'))
    num_workers = d2l.get_dataloader_workers()
    train_iter = torch.utils.data.DataLoader(
        VOCSegDataset(True, crop_size, voc_dir), batch_size,
        shuffle=True, drop_last=True, num_workers=num_workers)
    test_iter = torch.utils.data.DataLoader(
        VOCSegDataset(False, crop_size, voc_dir), batch_size,
        drop_last=True, num_workers=num_workers)
    return train_iter, test_iter

5. FCN的代码实现

我们使用在ImageNet数据集上预训练的ResNet-18模型来提取图像特征,并将该网络记为pretrained_net
ResNet-18模型的最后几层包括全局平均汇聚层和全连接层,然而全卷积网络中不需要它们。

import torch
import torchvision
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

#这段代码中列出了ResNet-18模型的最后三层
pretrained_net = torchvision.models.resnet18(pretrained=True)
list(pretrained_net.children())[-3:]

输出:

[Sequential(
   (0): BasicBlock(
     (conv1): Conv2d(256, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
     (bn1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
     (relu): ReLU(inplace=True)
     (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
     (bn2): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
     (downsample): Sequential(
       (0): Conv2d(256, 512, kernel_size=(1, 1), stride=(2, 2), bias=False)
       (1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
     )
   )
   (1): BasicBlock(
     (conv1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
     (bn1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
     (relu): ReLU(inplace=True)
     (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
     (bn2): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
   )
 ),
 AdaptiveAvgPool2d(output_size=(1, 1)),
 Linear(in_features=512, out_features=1000, bias=True)]

接下来,我们创建一个全卷积网络net。它复制了ResNet-18中大部分的预训练层,除了最后的全局平均汇聚层和最接近输出的全连接层。

net = nn.Sequential(*list(pretrained_net.children())[:-2])

给定高度为320和宽度为480的输入,net的前向传播将输入的高和宽减小至原来的1/32,即10和15。

X = torch.rand(size=(1, 3, 320, 480))
net(X).shape

输出:

torch.Size([1, 512, 10, 15])

接下来使用** 1 × 1 1\times1 1×1卷积层将输出通道数转换为Pascal VOC2012数据集的类数(21类)。**最后需要(将特征图的高度和宽度增加32倍),从而将其变回输入图像的高和宽。回想一下卷积层输出形状的计算方法:由于 ( 320 − 64 + 16 × 2 + 32 ) / 32 = 10 (320-64+16\times2+32)/32=10 (32064+16×2+32)/32=10 ( 480 − 64 + 16 × 2 + 32 ) / 32 = 15 (480-64+16\times2+32)/32=15 (48064+16×2+32)/32=15,我们构造一个步幅为 32 32 32的转置卷积层,并将卷积核的高和宽设为 64 64 64,填充为 16 16 16。我们可以看到如果步幅为 s s s,填充为 s / 2 s/2 s/2(假设 s / 2 s/2 s/2是整数)且卷积核的高和宽为 2 s 2s 2s,转置卷积核会将输入的高和宽分别放大 s s s倍。

num_classes = 21
net.add_module('final_conv', nn.Conv2d(512, num_classes, kernel_size=1))
net.add_module('transpose_conv', nn.ConvTranspose2d(num_classes, num_classes,
                                    kernel_size=64, padding=16, stride=32))
5.1 初始化转置卷积层

在图像处理中,我们有时需要将图像放大,即上采样(upsampling)。
双线性插值(bilinear interpolation)是常用的上采样方法之一,它也经常用于初始化转置卷积层。为了解释双线性插值,假设给定输入图像,我们想要计算上采样输出图像上的每个像素。

  1. 将输出图像的坐标 ( x , y ) (x,y) (x,y)映射到输入图像的坐标 ( x ′ , y ′ ) (x',y') (x,y)上。
    例如,根据输入与输出的尺寸之比来映射。
    请注意,映射后的 x ′ x′ x y ′ y′ y是实数。
  2. 在输入图像上找到离坐标 ( x ′ , y ′ ) (x',y') (x,y)最近的4个像素。
  3. 输出图像在坐标 ( x , y ) (x,y) (x,y)上的像素依据输入图像上这4个像素及其与 ( x ′ , y ′ ) (x',y') (x,y)的相对距离来计算。

双线性插值的上采样可以通过转置卷积层实现,内核由以下bilinear_kernel函数构造。

def bilinear_kernel(in_channels, out_channels, kernel_size):
    factor = (kernel_size + 1) // 2
    if kernel_size % 2 == 1:
        center = factor - 1
    else:
        center = factor - 0.5
    og = (torch.arange(kernel_size).reshape(-1, 1),
          torch.arange(kernel_size).reshape(1, -1))
    filt = (1 - torch.abs(og[0] - center) / factor) * \
           (1 - torch.abs(og[1] - center) / factor)
    weight = torch.zeros((in_channels, out_channels,
                          kernel_size, kernel_size))
    weight[range(in_channels), range(out_channels), :, :] = filt
    return weight

让我们用双线性插值的上采样实验,它由转置卷积层实现。我们构造一个将输入的高和宽放大2倍的转置卷积层,并将其卷积核用bilinear_kernel函数初始化。

conv_trans = nn.ConvTranspose2d(3, 3, kernel_size=4, padding=1, stride=2,
                                bias=False)
conv_trans.weight.data.copy_(bilinear_kernel(3, 3, 4));

读取图像X,将上采样的结果记作Y

img = torchvision.transforms.ToTensor()(d2l.Image.open('./catdog.jpg'))
X = img.unsqueeze(0) 
Y = conv_trans(X)  # Y.shape:torch.Size([1, 3, 496, 496])
out_img = Y[0].permute(1, 2, 0).detach()

为了打印图像,我们需要调整通道维的位置,Y已经调整为out_img

d2l.set_figsize()
print('input image shape:', img.permute(1, 2, 0).shape)
d2l.plt.imshow(img.permute(1, 2, 0));
d2l.plt.show();
print('output image shape:', out_img.shape)
d2l.plt.imshow(out_img);
d2l.plt.show();

输出:

image-20250110145451406

可以看到,转置卷积层将图像的高和宽分别放大了2倍。 除了坐标刻度不同,双线性插值放大的图像和原图看上去基本一致。

下面就是FCN用双线性插值的上采样方法初始化了转置卷积层。

W = bilinear_kernel(num_classes, num_classes, 64)
net.transpose_conv.weight.data.copy_(W);
5.2 数据集与训练

数据集使用的是Pascal VOC2012 语义分割数据集

#读取voc数据集,并指定随机裁剪的输出图像的形状为(320, 480),且高和宽都可以被32整除。
batch_size, crop_size = 32, (320, 480)
train_iter, test_iter = d2l.load_data_voc(batch_size, crop_size)

现在我们可以训练全卷积网络了。 这里的损失函数和准确率计算与图像分类中的并没有本质上的不同,使用的是交叉熵损失函数。因为我们使用转置卷积层的通道来预测像素的类别,所以需要在损失计算中指定通道维度。 此外,模型基于每个像素的预测类别是否正确来计算准确率。

def loss(inputs, targets):
    return F.cross_entropy(inputs, targets, reduction='none').mean(1).mean(1)
num_epochs, lr, wd, devices = 5, 0.001, 1e-3, d2l.try_all_gpus()
trainer = torch.optim.SGD(net.parameters(), lr=lr, weight_decay=wd)
d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs, devices)

image-20250110161413809

5.3 预测

在预测时,我们需要将输入图像在各个通道做标准化,并转成卷积神经网络所需要的四维输入格式。

def predict(img):
    X = test_iter.dataset.normalize_image(img).unsqueeze(0)
    pred = net(X.to(devices[0])).argmax(dim=1)
    return pred.reshape(pred.shape[1], pred.shape[2])

为了可视化预测的类别给每个像素,我们将预测类别映射回它们在数据集中的标注颜色。

def label2image(pred):
    colormap = torch.tensor(d2l.VOC_COLORMAP, device=devices[0])
    X = pred.long()
    return colormap[X, :]

测试数据集中的图像大小和形状各异。由于模型使用了步幅为32的转置卷积层,因此当输入图像的高或宽无法被32整除时,转置卷积层输出的高或宽会与输入图像的尺寸有偏差。
为了解决这个问题,我们可以在图像中截取多块高和宽为32的整数倍的矩形区域,并分别对这些区域中的像素做前向传播。注意,这些区域的并集需要完整覆盖输入图像。当一个像素被多个区域所覆盖时,它在不同区域前向传播中转置卷积层输出的平均值可以作为softmax运算的输入,从而预测类别。

为简单起见,我们只读取几张较大的测试图像,并从图像的左上角开始截取形状为 320 × 480 320\times480 320×480的区域用于预测。对于这些测试图像,我们逐一打印它们截取的区域,再打印预测结果,最后打印标注的类别。

voc_dir = d2l.download_extract('voc2012', 'VOCdevkit/VOC2012')
test_images, test_labels = d2l.read_voc_images(voc_dir, False)
n, imgs = 4, []
for i in range(n):
    crop_rect = (0, 0, 320, 480)
    X = torchvision.transforms.functional.crop(test_images[i], *crop_rect)
    pred = label2image(predict(X))
    imgs += [X.permute(1,2,0), pred.cpu(),
             torchvision.transforms.functional.crop(
                 test_labels[i], *crop_rect).permute(1,2,0)]
d2l.show_images(imgs[::3] + imgs[1::3] + imgs[2::3], 3, n, scale=2);

image-20250110161640250

总结

本周的学习和实验验证了全卷积神经网络(FCN)在语义分割任务中的有效性。通过对FCN的基本原理和转置卷积的深入理解,掌握了像素级别的分类方法。结合双线性插值的上采样技术,进一步优化了转置卷积层的初始化效果。利用Pascal VOC2012数据集完成了模型训练和测试,实验结果证明,FCN可以很好地恢复输入图像的空间信息,实现对每个像素的语义分类。这为后续深入研究语义分割和实例分割任务提供了理论与实践基础。


http://www.kler.cn/a/505494.html

相关文章:

  • 上传自己的镜像到docker hub详细教程
  • Level2逐笔成交逐笔委托毫秒记录:今日分享优质股票数据20250115
  • iOS - 关联对象的实现
  • linux mysql 备份
  • ElasticSearch|ES|架构介绍|原理浅析
  • Grails应用http.server.requests指标数据采集问题排查及解决
  • 计算机网络 (37)TCP的流量控制
  • # [Unity] 使用控制运动开发简单的小游戏
  • 【SpringSecurity】SpringSecurity安全框架授权
  • 【Apache Paimon】-- 源码解读之环境问题
  • MybatisPlus--Lombok的使用
  • Cyberchef开发operation操作之-node开发环境搭建
  • 【PCIe 总线及设备入门学习专栏 5.3.1 -- PCIe PHY firmware load | trainning | link up 区别与联系】
  • CES 2025:科技热点与趋势深度剖析
  • JMeter下载与使用,新手详细
  • 【Uniapp-Vue3】showLoading加载和showModal模态框示例
  • Git | git revert命令详解
  • ubuntu各分区的用途
  • 使用virsh-console连接虚拟机报连接到域一直卡着
  • Java基于SSM框架的在线视频教育系统小程序【附源码、文档】
  • 环境部署——minio部署
  • STM32F1——CAN驱动代码
  • 【QT】如何在遍历QTreeWidgetItem的子项过程中正确删除子项
  • 电动汽车V2G技术Matlab/Simulink仿真模型
  • 为什么Hugging Face下载的模型中没有tokenizer.model文件?
  • 【Go】:深入解析 Go 1.24:新特性、改进与最佳实践