斯坦福:LLM混合量化方法BlockDialect
📖标题:BlockDialect: Block-wise Fine-grained Mixed Format for Energy-Efficient LLM Inference
🌐来源:arXiv, 2501.01144
🌟摘要
🔸大型语言模型(LLM)已经取得了显著的成功,但它们不断增长的规模在内存使用和计算成本方面带来了重大挑战。量化权重和激活可以解决这些问题,细粒度逐块量化成为一种有前景的硬件支持解决方案,可以减轻异常值。然而,现有的方法很难捕捉到细微的块数据分布。
🔸为了解决这个问题,我们提出了BlockDialect,这是一种逐块细粒度混合格式技术,它从格式书中为每个块分配一个最佳数字格式,以获得更好的数据表示。此外,我们还介绍了DialectFP4,这是一个适应不同数据分布的FP4变体(类似于方言)的格式书。重要的是,DialectFP4通过选择可表示的值作为与低精度整数算术兼容的缩放整数来确保硬件效率。此外,我们提出了一种在线DialectFP4激活量化的两阶段方法。
🔸与MXFP4格式相比,BlockDialect在LLaMA3-8B(LLaMA2-7B)模型上实现了11.40%(6.90%)的精度增益,每个数据的比特使用率相当,而即使在量化全路径矩阵乘法时,其精度也仅比全精度低5.89%(3.31%)。我们的工作侧重于如何表示过度扩展,为节能LLM推理提供了一条有前景的道路。
🛎️文章简介
🔸研究问题:大语言模型(LLM)推理中存在内存瓶颈和计算成本,需要通过量化技术减少内存需求和数据移动开销,同时提高推理速度、面积和能效。
🔸主要贡献:论文提出了BlockDialect,一种新颖的块级细粒度混合格式技术,能够为每个块分配最优的数字格式,从而在4位权重和激活的后训练量化中实现准确的数据分布表示。
📝重点思路
🔸主要思想:通过将张量划分为较小的块,并对每个块进行单独量化,以有效减少异常值的影响。
🔸块级分析:通过对LLaMA3-8B和Mistral-7B等模型进行详细分析,确定每个块的最优数字格式。
🔸两阶段选择过程:首先根据块的最大幅度选择一对数字格式,然后通过评估哪个格式在有益范围内包含更多块元素来确定最优格式。
🔸硬件支持的细粒度量化:利用硬件支持的细粒度缩放,确保量化过程的高效性和兼容性。
🔸在线量化和MAC操作:通过硬件高效的方法加速在线量化和乘法累加(MAC)操作,确保推理速度和能效。
🔎分析总结
🔸性能提升:BlockDialect在多个大语言模型上表现优于现有方法,尤其是在低精度、能效高的MAC单元上。
🔸块大小的影响:较小的块大小通过限制异常值的影响,提高了性能,但也增加了有效位宽,需要在性能和内存占用之间进行权衡。
🔸格式书的选择:16个数字格式的格式书在覆盖最大幅度和大幅度分布方面表现最佳,进一步增加格式书数量会导致性能下降。
🔸块形状的影响:2D方形块在捕捉通道间激活方差方面表现更好,但在线性层上的影响较小。
🔸动态块大小分配:在特定投影层上应用较小的块大小可以进一步提高性能,尤其是在对异常值敏感的层上。
💡个人观点
论文的核心在于为每个块分配最优的数字格式,以提升数据分布表示。
🧩附录