当前位置：首页 > article >正文

Pytorch使用手册-优化 Vision Transformer 模型以用于部署（专题十六）

article 2025/4/2 5:12:20

Vision Transformer 模型将基于注意力机制的 Transformer 模型（最初在自然语言处理领域引入并取得了各种最先进的成果）应用于计算机视觉任务。Facebook 的 Data-efficient Image Transformers (DeiT) 是一种在 ImageNet 上训练的 Vision Transformer 模型，用于图像分类。

在本教程中，我们将首先介绍 DeiT 是什么以及如何使用它，然后逐步讲解如何对模型进行脚本化、量化、优化，并将其应用于 iOS 和 Android 应用程序中。我们还将比较量化优化后的模型与未量化、未优化模型的性能，并展示在模型上应用量化和优化的好处。

什么是 DeiT？

自 2012 年深度学习兴起以来，卷积神经网络（CNN）一直是图像分类的主要模型，但 CNN 通常需要数亿张图像进行训练才能达到最先进的成果。DeiT 是一种 Vision Transformer 模型，它需要更少的数据和计算资源进行训练，却能够在图像分类任务中与领先的 CNN 竞争。这得益于 DeiT 的两个关键组成部分：