当前位置: 首页 > article >正文

学习笔记——EffcientNetV2

EffcientNetV2: Smaller Models and Faster Training

EfficientNetV2:更小的模型和更快的训练

论文地址: https://arxiv.org/abs/2104.00298

本文介绍了 EfficientNetV2,这是一个新的卷积网络系列,与以前的模型相比,它具有更快的训练速度和更好的参数效率。

1、前言

EfficientNetV2是谷歌的MingxingTan与Quov V.Le对EfficientNet的一次升级,旨在保持参数量高效利用的同时尽可能提升训练速度。在EfficientNet的基础上,使用训练感知神经架构搜索NAS和缩放技术来优化训练速度和参数效率,然后从富含 Fused-MBConv 等新操作的搜索空间中搜索得到的;同时结合一种改进的渐进式学习方法,它会根据图像大小自适应调整正则化。两种改进的组合得到了本文的EfficientNetV2,它在多个基准数据集上取得了SOTA性能,且训练速度更快。在 ImageNet ILSVRC2012 上实现了 87.3% 的 top-1 准确率,比最近的 ViT 准确率高出 2.0%,同时使用相同的计算资源训练速度提高了 5 倍至 11 倍。

作者指出,可以通过在训练过程中逐渐增加图像大小来进一步加快训练速度,但这通常会导致准确性下降。 为了弥补这种准确性下降,我们提出了一种改进的渐进式学习方法,该方法可以根据图像大小自适应调整正则化(例如数据增强)。

作者认为,对不同的图像尺寸保持相同的正则化并不理想:对于同一个网络,小图像尺寸导致网络容量小,因此需要弱正则化; 反之亦然,大图像尺寸需要更强的正则化来对抗过度拟合。 基于这种见解,作者提出了一种改进的渐进式学习方法:在早期训练时期,我们用小图像尺寸和弱正则化(例如,dropout和数据增强)来训练网络,然后我们逐渐增加图像尺寸并添加更强的正则化 。 基于渐进调整大小,但通过动态调整正则化,我们的方法可以加快训练速度,而不会导致准确性下降。

2、EfficientNet 的训练瓶颈

1、Training with very large image sizes is slow:使用大尺寸图像进行训练速度很慢,于是作者在训练期间逐步调整图像大小和正则化。

2、Depthwise convolutions are slow in early layers but ef-fective in later stages:深度卷积在早期层很慢,但在后期很有效

EfficientNet 的另一个训练瓶颈就来自于广泛的深度卷积。 深度卷积比常规卷积具有更少的参数和 FLOP,但它们通常无法充分利用现代加速器,所以就有了Fused-MBConv,它能更好地利用移动或服务器加速器。

当在早期阶段 1-3 中应用时,FusedMBConv 可以提高训练速度,参数和 FLOP 的开销很小,但如果将 Fused-MBConv 替换所有MBConv(阶段 1-7),那么它会显着增加参数和 FLOP,同时也会降低训练速度。 因此,找到 MBConv 和 Fused-MBConv 这两个构建模块的正确组合并非易事,于是作者利用了神经架构搜索来自动搜索最佳组合。下表是用 Fused-MBConv 替换 MBConv,No fused 表示所有阶段都使用 MBConv,Fused stage1-3 表示在阶段 {2,3,4} 中将 MBConv 替换为 Fused-MBConv。

Fused-MBConv

它将 MBConv中的 升维 conv1x1和depthwise_conv3x3 替换为单个普通的 conv3x3

3、Equally scaling up every stage is sub-optimal:同样扩大每个阶段的规模并不是最优的办法

作者使用非均匀缩放策略在后期逐渐添加更多层。 此外,EfficientNets 会大幅扩大图像尺寸,导致内存消耗大、训练速度慢。 为了解决这个问题,作者稍微修改了缩放规则,并将最大图像尺寸限制为较小的值(480像素)。

3、EfficientNetV2 与V1 的主要区别

(1) 第一,EfficientNetV2 在早期层广泛使用 MBConv 和 Fused-MBConv。

(2) 第二,EfficientNetV2 更喜欢 MBConv 的较小扩展比,因为较小的扩展比往往具有较少的内存访问开销。

(3) 第三,EfficientNetV2 更喜欢较小的3x3内核尺寸,但它增加了更多层来补偿较小内核尺寸导致的感受野减小。

(4) 第四,EfficientNetV2 完全删除了原始 EfficientNet 中的最后一个 stride=1 的阶段,这可能是由于其较大的参数大小和内存访问开销。

在卷积神经网络中,步幅为1意味着卷积核在进行卷积操作时,每次移动一个像素的距离。这通常用于减少特征图(feature map)的尺寸,同时增加参数的数量,因为需要更多的卷积核来覆盖整个特征图。

作者发现,原始EfficientNet模型中的最后一个步幅为1的阶段虽然增加了模型的参数量,但同时也带来了较大的内存访问开销。换句话说,这个额外的阶段增加了模型的大小和复杂度,但可能并没有带来与之相称的性能提升。因此,为了提高参数效率和减少内存使用,在V2的设计中选择去掉了这个部分。

简而言之,作者在权衡模型性能和效率后决定牺牲这个可能带来额外计算负担的阶段,以实现更高效的模型设计。这种设计选择反映了EfficientNetV2在追求更快训练速度和更好参数效率的目标。

4、EfficientNetV2-S模型结构

5、在ImageNet ILSVRC2012(1000 个类别)上的结果

EfficientNetV2-m 实现了与 EfficientNet-B7 相当的精度,同时使用相同的计算资源训练速度提高了 11 倍。

EfficientNetV2 模型在准确性和推理速度方面也显着优于所有最新的 RegNet 和 ResNeSt。

EfficientNetV2-L 实现了 85.7% 的 top-1 准确率,超过了 ViT-L/16(21k)。

6、在ImageNet21k(21,841 个类别)上的结果

在 ImageNet21k 上进行预训练,并在 ImageNet ILSVRC2012 上进行微调。与 ViT-L/16(21k) 相比,EfficientNetV2L(21k) 将 top-1 准确率提高了 1.5%(85.3% vs. 86.8%),使用的参数减少了2.5倍,FLOP 次数减少了3.6倍,同时运行速度提高了6倍,训练和推理速度提高7倍。

7、总结

在我的实际使用中,EfficientNetv2效果确实非常好,优于Vision Transformer、ResNet、DenseNet这些网络,略逊于Swin Transformer。需要注意的一点是,虽然EfficientNetv2-s模型大小只有82.6MB,ResNet34模型大小83.2MB,两者从模型大小上相差不大, 但是EfficientNetv2-s的计算复杂度远远高于ResNet34,相同的内存、显存、数据集和参数,ResNet34可以使用32的batchsize,而EfficientNetv2-s只能为8。


http://www.kler.cn/a/313177.html

相关文章:

  • CentOS 7乱码问题如何解决?
  • 初始SpringBoot:详解特性和结构
  • 数据结构-ArrayList和顺序表
  • P8738 [蓝桥杯 2020 国 C] 天干地支
  • systemverilog中的force,release和assign
  • 使用LPT wiggler jtag自制三星单片机(sam88 core)编程器-S3F9454
  • React——点击事件函数调用问题
  • Gradio离线部署到内网,资源加载失败问题(Gradio离线部署问题解决方法)
  • docker搭建个人网盘,支持多种格式,还能画图,一键部署
  • Matlab可视化│常用绘图全家桶
  • HTTP中的301、302实现重定向
  • ActivityManagerService 分发广播(6)
  • Vue3:reactive丢失响应式,数据有更新但表单没有更新
  • gin配置swagger文档
  • 树与图的深度优先遍历(dfs的图论中的应用)
  • 【CPP】类与继承
  • [原创]全新安装最新版Delphi 12.2之前, 如何正确卸载旧版Delphi 12.1?
  • 谈对象第二弹: C++类和对象(中)
  • SQLiteHelper
  • Java:List<String> 转换List<BigDecimal> 并求和
  • Hadoop-MapReduce的 原理 | 块和片 | Shuffle 过程 | Combiner
  • go 战略
  • Observability:构建下一代托管接入服务
  • Linux文件IO(四)-返回错误处理与errno详解
  • 【数据结构与算法】LeetCode:双指针法
  • 基于STM32F103C8T6单片机的DDS信号源设计