当前位置：首页 > article >正文

模型压缩 --学习记录2

article 2025/2/10 23:37:47

模型压缩 --学习记录2

如何找到更好的权衡方式（模型量化）
- 方法一：寻找更好的 range
- 方法二：寻找更好的 X-fp32（浮点数）
- 方法三：寻找更好的 scale 和 zp
- 方法四：寻找更好的 round
- PTQ 后训练量化（离线量化）
- QAT 量化感知训练(在线量化)
- 量化为什么会带来加速?
三、模型稀疏技术
- 3.1、结构化稀疏
- 3.2、半结构化稀疏
- 3.3、纯非结构化稀疏
四、其他模型压缩技术
- 4.1、低秩分解
- 4.2、NAS 神经网络结构搜索
- 4.3、知识蒸馏

模型压缩 --学习记录1

通过学习记录1 可以发现，量化就是一些不同设置的选择问题，甚至当我们选择某个部署工具的时候，这些量化 setting 都已经固定了，比如 Tensorrt 是对称、线性、静态、权重 pre-channel、激活 pre-tensor 的量化。

但是我们再往下看看一些其他的情况：

比如：红点是浮点数，下面的红线是要映射的整型范围。

这样在映射的时候，左边扎堆的点会造成很多的损失，中间空白的部分是一种浪费

在这种时候，我们可以丢弃那个单独的点，可以带来更小的量化误差

丢弃部分数据 -> range 降低了 -> scale 降低了
scale 降低会提高量化的分辨率，但是 scale 过低，丢失的数据又过多。因此，这是权衡的问题
量化研究的另一个关键就是如何找到更好的权衡方式

如何找到更好的权衡方式（模型量化）

方法一：寻找更好的 range

按照最大值的百分比作为阈值，删除过大的数据，缩小 range
遍历阈值，寻找最小量化误差的阈值

http://www.kler.cn/a/539893.html

相关文章：

C++基础系列【8】如何解决编译器报的错误

使用PyCharm进行Django项目开发环境搭建

postgreSQL16.6源码安装

智能理解 PPT 内容，快速生成讲解视频

STM32G474--Whetstone程序移植(单精度)笔记

疯狂前端面试题(二)

算法与数据结构（搜索旋转排序数组）

LLM应用实践（1）- 物流状态判断

c/c++蓝桥杯经典编程题100道（13）杨辉三角

Maven 中常用的 scope 类型及其解析

ubuntu24.04安装布置ros

在亚马逊云科技上云原生部署DeepSeek-R1模型(上)

Vue 过渡动画实现全解析：打造丝滑交互体验

电脑远程控制vivo手机，切换按钮就能让vivo仅投屏、不受控制！

DevOps ：无价值指标与可操作指标

PHP点餐小程序

React 第二十二节 useSyncExternalStore Hook 常见问题及用法详解

Axure PR 9 中继器 01 创建数据表

如何在 Spring 中注入一个 Java Collection？

企业如何评估云计算的投资回报率（ROI）？

Linux 下使用更强的ripgrep来搜索

性能测试中的DB优化

深入学习设计模式

手机向电脑传输文件方法有哪些？

Baklib优化数字化内容管理用科技提升商业效率与增值潜力