当前位置: 首页 > article >正文

深度神经网络模型压缩学习笔记一:模型压缩概述

文章目录

    • 一、模型压缩主要常用方法
      • 1)量化
        • (1)scale和Qint8的计算、对称性和非对称性量化
        • (2)静态量化和动态量化
        • (3)量化粒度选择和PTQ\QAT分类
        • (4)模型量化技术为什么会带来加速?
      • 2)稀疏(也叫做模型剪枝技术)
        • (1) 定义
        • (2)结构化稀疏和非结构化稀疏
      • 3)蒸馏
      • 4)NAS
      • 5)低秩分解
      • (6)总结

一、模型压缩主要常用方法

1)量化

(1)scale和Qint8的计算、对称性和非对称性量化

在这里插入图片描述

  • 对称性量化
    在这里插入图片描述

  • 非对称量化
    在这里插入图片描述

  • 线性和非线性量化比较
    在这里插入图片描述

(2)静态量化和动态量化

在这里插入图片描述

(3)量化粒度选择和PTQ\QAT分类

①权重weight是固定的,一般采用per-channel
②激活输入时在线变化的,一般采用Per-Tensor量化
③per-group量化往往在大模型中的4bit权重量化中应用

  • 量化方法可以分为两大类:
    ①后训练量化(离线量化):PTQ
    ②量化感知训练(在线量化):QAT
    在这里插入图片描述
    PTQ量化举例:TensorRT 选用不同calibration做int8量化
    在这里插入图片描述
(4)模型量化技术为什么会带来加速?

在这里插入图片描述

2)稀疏(也叫做模型剪枝技术)

(1) 定义

在这里插入图片描述
在这里插入图片描述

(2)结构化稀疏和非结构化稀疏

在这里插入图片描述

  • 额外的需求
    在这里插入图片描述

3)蒸馏

在这里插入图片描述

4)NAS

在这里插入图片描述

5)低秩分解

在这里插入图片描述

(6)总结

在这里插入图片描述


http://www.kler.cn/a/413383.html

相关文章:

  • 量化交易系统开发-实时行情自动化交易-8.量化交易服务平台(一)
  • 企业OA管理系统:Spring Boot技术应用与优化
  • 校园交友/校园开黑/校园跑腿等多端系统如何进行二次开发?二次开发有哪些注意事项?
  • 40分钟学 Go 语言高并发:错误处理最佳实践
  • 最大公约数和最小公倍数-多语言
  • C语言——数组基本知识(一)
  • PHP 函数的未来发展有哪些变化呢
  • Github 2024-11-24 php开源项目日报 Top10
  • android 安全sdk相关
  • 【Linux】网络连接模式,VM:桥接、NAT、仅主机如何选择?
  • Linux 共享环境搭建
  • 探索Python词云库WordCloud的奥秘
  • 【C++】IO库(三):string流
  • AScript自动化脚本游戏辅助系列教程
  • els学习
  • 【MySQL】MySQL8.0新特性整理
  • docker部署nginx,并配置SSL证书
  • windows 应用 UI 自动化实战
  • 高级SQL技巧:解锁数据处理与分析的深层能力
  • python除了熟悉的pandas,openpyxl库也很方便的支持编辑Excel表