当前位置：首页 > article >正文

大模型量化算法之Smoothquant

article 2025/3/7 11:27:37

SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models
发表于 ICML 2023

8-bit weight, 8-bit activation (W8A8) 训练后量化方法（PTQ）

在这里插入图片描述
量化的部分是线性层以及矩阵乘法，LayerNorm 以及 Softmax 还是以更高精度的半精度浮点数 FP16 进行计算的

Insights：
在这里插入图片描述
大模型中因为 outliers 的存在，其 activation 比较难以量化，而 Weight 相对平坦则更加容易量化；
因此，作者提出将 Activation 的量化困难性部分迁移到 Weight 上，使得 Weight 和 Activation 二者变得都比较容易量化

具体做法也比较简单，
因为，outlier 是出现在 Activation 的部分 channel 中。因此，作者首先对 Activation 除以一个 per-channel 的缩放因子，同时将该因子的倒数乘到相应的 Weight 上，确保 “Smooth” 对于模型来说是一个恒等变换。
矩阵形式的公式如下所示：
$Y=(X\text{diag(s)}^{-1})\cdot(\text{diag(s)}W)=\hat X \hat W$

达到的效果如下图所示
在这里插入图片描述
缩放因子 s 是通过预训练数据上取得的校准数据估计得到的
具体地，第 j 个输入channel 的缩放因子 $s_j$ 以如下的方式计算：
$s_j=\text{max}(|X_j|)^\alpha/\text{max}(|W_j|)^{1-\alpha}$