当前位置: 首页 > article >正文

模型压缩 --学习记录2

模型压缩 --学习记录2

  • 如何找到更好的权衡方式(模型量化)
    • 方法一:寻找更好的 range
    • 方法二:寻找更好的 X-fp32(浮点数)
    • 方法三:寻找更好的 scale 和 zp
    • 方法四:寻找更好的 round
    • PTQ 后训练量化(离线量化)
    • QAT 量化感知训练(在线量化)
    • 量化为什么会带来加速?
  • 三、模型稀疏技术
    • 3.1、结构化稀疏
    • 3.2、半结构化稀疏
    • 3.3、纯非结构化稀疏
  • 四、其他模型压缩技术
    • 4.1、低秩分解
    • 4.2、NAS 神经网络结构搜索
    • 4.3、知识蒸馏

模型压缩 --学习记录1

通过学习记录1 可以发现,量化就是一些不同设置的选择问题,甚至当我们选择某个部署工具的时候,这些量化 setting 都已经固定了,比如 Tensorrt 是对称、线性、静态、权重 pre-channel、激活 pre-tensor 的量化。

但是我们再往下看看一些其他的情况:

比如: 红点是浮点数,下面的红线是要映射的整型范围。
在这里插入图片描述
这样在映射的时候,左边扎堆的点会造成很多的损失,中间空白的部分是一种浪费
在这里插入图片描述
在这种时候,我们可以丢弃那个单独的点,可以带来更小的量化误差
在这里插入图片描述

  • 丢弃部分数据 -> range 降低了 -> scale 降低了
  • scale 降低会提高量化的分辨率,但是 scale 过低,丢失的数据又过多。因此,这是权衡的问题
  • 量化研究的另一个关键就是如何找到更好的权衡方式

如何找到更好的权衡方式(模型量化)

方法一:寻找更好的 range

  • 按照最大值的百分比作为阈值,删除过大的数据,缩小 range
  • 遍历阈值,寻找最小量化误差的阈值


http://www.kler.cn/a/539893.html

相关文章:

  • C++基础系列【8】如何解决编译器报的错误
  • python--sqlite
  • 使用PyCharm进行Django项目开发环境搭建
  • postgreSQL16.6源码安装
  • 智能理解 PPT 内容,快速生成讲解视频
  • STM32G474--Whetstone程序移植(单精度)笔记
  • 疯狂前端面试题(二)
  • 算法与数据结构(搜索旋转排序数组)
  • LLM应用实践(1)- 物流状态判断
  • c/c++蓝桥杯经典编程题100道(13)杨辉三角
  • Maven 中常用的 scope 类型及其解析
  • ubuntu24.04安装布置ros
  • 在亚马逊云科技上云原生部署DeepSeek-R1模型(上)
  • Vue 过渡动画实现全解析:打造丝滑交互体验
  • 电脑远程控制vivo手机,切换按钮就能让vivo仅投屏、不受控制!
  • DevOps :无价值指标与可操作指标
  • PHP点餐小程序
  • React 第二十二节 useSyncExternalStore Hook 常见问题及用法详解
  • Axure PR 9 中继器 01 创建数据表
  • 如何在 Spring 中注入一个 Java Collection?
  • 企业如何评估云计算的投资回报率(ROI)?
  • Linux 下使用更强的ripgrep来搜索
  • 性能测试中的DB优化
  • 深入学习设计模式
  • 手机向电脑传输文件方法有哪些?
  • Baklib优化数字化内容管理用科技提升商业效率与增值潜力