Pytorch使用手册-优化 Vision Transformer 模型以用于部署(专题十六)
Vision Transformer 模型将基于注意力机制的 Transformer 模型(最初在自然语言处理领域引入并取得了各种最先进的成果)应用于计算机视觉任务。Facebook 的 Data-efficient Image Transformers (DeiT) 是一种在 ImageNet 上训练的 Vision Transformer 模型,用于图像分类。
在本教程中,我们将首先介绍 DeiT 是什么以及如何使用它,然后逐步讲解如何对模型进行脚本化、量化、优化,并将其应用于 iOS 和 Android 应用程序中。我们还将比较量化优化后的模型与未量化、未优化模型的性能,并展示在模型上应用量化和优化的好处。
什么是 DeiT?
自 2012 年深度学习兴起以来,卷积神经网络(CNN)一直是图像分类的主要模型,但 CNN 通常需要数亿张图像进行训练才能达到最先进的成果。DeiT 是一种 Vision Transformer 模型,它需要更少的数据和计算资源进行训练,却能够在图像分类任务中与领先的 CNN 竞争。这得益于 DeiT 的两个关键组成部分:
- 数据增强:通过数据增强模拟在更大数据集上的训练效果;
- 原生蒸馏:允许 Transformer 网络从 CNN 的输出中学