当前位置：首页 > article >正文

深度神经网络模型压缩学习笔记一：模型压缩概述

article 2025/2/22 2:05:34

文章目录

- 一、模型压缩主要常用方法
- - 1）量化
  - - （1）scale和Qint8的计算、对称性和非对称性量化
    - （2）静态量化和动态量化
    - （3）量化粒度选择和PTQ\QAT分类
    - （4）模型量化技术为什么会带来加速？
  - 2）稀疏（也叫做模型剪枝技术）
  - - （1）定义
    - （2）结构化稀疏和非结构化稀疏
  - 3）蒸馏
  - 4）NAS
  - 5）低秩分解
  - （6）总结

一、模型压缩主要常用方法

1）量化

（1）scale和Qint8的计算、对称性和非对称性量化

在这里插入图片描述

对称性量化
非对称量化
线性和非线性量化比较

（2）静态量化和动态量化

在这里插入图片描述

（3）量化粒度选择和PTQ\QAT分类

①权重weight是固定的，一般采用per-channel
②激活输入时在线变化的，一般采用Per-Tensor量化
③per-group量化往往在大模型中的4bit权重量化中应用

量化方法可以分为两大类：
①后训练量化（离线量化）：PTQ
②量化感知训练（在线量化）：QAT

PTQ量化举例：TensorRT 选用不同calibration做int8量化

（4）模型量化技术为什么会带来加速？

在这里插入图片描述

2）稀疏（也叫做模型剪枝技术）

（1）定义

在这里插入图片描述

（2）结构化稀疏和非结构化稀疏

在这里插入图片描述

额外的需求

3）蒸馏

在这里插入图片描述

4）NAS

在这里插入图片描述

5）低秩分解

在这里插入图片描述

（6）总结

在这里插入图片描述

http://www.kler.cn/a/413383.html

相关文章：

量化交易系统开发-实时行情自动化交易-8.量化交易服务平台（一）

企业OA管理系统：Spring Boot技术应用与优化

校园交友/校园开黑/校园跑腿等多端系统如何进行二次开发?二次开发有哪些注意事项？

40分钟学 Go 语言高并发：错误处理最佳实践

最大公约数和最小公倍数-多语言

C语言——数组基本知识（一）

PHP 函数的未来发展有哪些变化呢

Github 2024-11-24 php开源项目日报 Top10

android 安全sdk相关

【Linux】网络连接模式，VM：桥接、NAT、仅主机如何选择？

Linux 共享环境搭建

探索Python词云库WordCloud的奥秘

【C++】IO库（三）：string流

AScript自动化脚本游戏辅助系列教程

els学习

【MySQL】MySQL8.0新特性整理

docker部署nginx，并配置SSL证书

windows 应用 UI 自动化实战

高级SQL技巧：解锁数据处理与分析的深层能力

python除了熟悉的pandas，openpyxl库也很方便的支持编辑Excel表