当前位置：首页 > article >正文

深度学习-76-大模型量化之压缩映射方法和量化校准方法简介

article 2025/2/28 15:55:46

文章目录

1 量化技术
- 1.1 大模型的参数
- 1.2 量化简介
- 1.3 常见数据类型
2 压缩(映射)方法
- 2.1 对称量化(绝对最大值量化)
- 2.2 非对称量化(零点量化)
- 2.3 范围映射与裁剪(异常值处理)
3 量化校准
- 3.1 权重值
- 3.2 激活值
- 3.3 校准方法
4 参考附录

1 量化技术

Quantization （量化技术）在机器学习和深度学习领域是一种用于降低计算复杂度、减少内存占用、加速推理的优化方法，尤其当模型部署在资源有限的设备（如移动设备或嵌入式系统）时非常有用。

在大模型的应用中，通过将模型的权重和激活从高精度（如 32 位浮点数，FP32）转换为低精度（如 16 位浮点数，FP16 或 8 位整数，INT8），可以极大地减少计算量和内存带宽需求。

量化的核心目标是将模型中的浮点数权重和激活值转换为低精度数值表示，同时保持模型的准确性和性能尽可能不受影响。更具体一点来说，量化通过使用更小的数据类型（如 INT8、FP16 等）表示模型中的权重和激活值，而不是标准的 32 位浮点数。

1.1 大模型的参数

我们常说的”大模型“，在模型规模方面，通常拥有数十亿参数（主要是权重），存储成本相当高昂；
在推理过程中，激活值作为输入与权重的乘积生成，其大小同样相当可观。
这些值由“位-bits”或二进制数字表示。
IEEE-754 标准描述了位如何表示三种功能之一来表示该值：符号(sign)、指数(exponent) 、

查看全文

http://www.kler.cn/a/453794.html