当前位置: 首页 > article >正文

大语言模型 LLM 量化技术略解

什么是量化?

随着语言模型规模的不断增大,其训练的难度和成本已成为共识。而随着用户数量的增加,模型推理的成本也在不断攀升,甚至可能成为限制模型部署的首要因素。因此,我们需要对模型进行压缩以加速推理过程,而模型量化是其中一种有效的方法。

大语言模型的参数通常以高精度浮点数存储,这导致模型推理需要大量计算资源。量化技术通过将高精度数据类型存储的参数转换为低精度数据类型存储,可以在不改变模型参数量和架构的前提下加速推理过程。这种方法使得模型的部署更加经济高效,也更具可行性。
在这里插入图片描述

浮点数一般由3部分组成:符号位、指数位和尾数位。指数位越大,可表示的数字范围越大。尾数位越大、数字的精度越高。量化可以根据何时量化分为:后训练量化训练感知量化,也可以根据量化参数的确定方式分为:静态量化动态量化

PTQ

后训练量化(PTQ, Post-Training Quantization)一般是指在模型预训练完成后,基于校准数据集(calibration dataset)确定量化参数进而对模型进行量化。

GPTQ

GPTQ(Group-wise Precision Tuning Quantization)是一种静态的后训练量化技术。"静态"指的是预训练模型一旦确定,经过量化后量化参数不


http://www.kler.cn/news/336478.html

相关文章:

  • 如何初步部署自己的服务器,达到生信分析的及格线2(待更新)
  • 代码随想录算法训练营day42
  • 无人机电力巡检:点亮电力巡检新视野!
  • 传奇GOM引擎架设好进游戏后提示请关闭非法外挂,重新登录,如何处理?
  • TCP ---滑动窗口以及拥塞窗口
  • 掌握 WPF 开发:基础、数据绑定与自定义控件
  • 【华为HCIP实战课程四】OSPF邻居关系排错时间和区域问题,网络工程师
  • 【Unity踩坑】UWP项目安装包认证失败
  • PEFT库和transformers库在NLP大模型中的使用和常用方法详解
  • 【Android 源码分析】Activity生命周期之onStop-2
  • 毕业设计 深度学习社交距离检测系统(源码+论文)
  • springboot+大数据+基于协同过滤算法的校园食堂订餐系统【内含源码+文档+部署教程】
  • QT系统学习篇(4)-对象树、定义自己的按钮
  • 毕业设计_基于SpringBoot+vue的社区博客系统【源码+SQL+教程+可运行】41002
  • Oracle架构之物理存储之审计文件
  • 【PS2020】Adobe Photoshop 2020 中文免费版
  • 城市扩张与土地资源:压力之下寻平衡之道
  • 【C++】vector类的模拟实现
  • MacOS 终端执行安装 Brew
  • NLP进阶(一)