当前位置: 首页 > article >正文

解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题(从源码重新安装 Auto-GPTQ)

这里解决的是使用 Auto-GPTQ 或者 Transformers 导入 GPTQ 模型后推理速度很慢的问题。

值得注意的是,这个问题很有可能是因为安装不正确,所以 GPTQ 无法正确使用 GPU 进行推理,也就是说无法进行加速,即便 print(model.device) 显示为 “cuda”。类似的问题见 Is This Inference Speed Slow? #130/ CUDA extension not installed #694。

这个问题是普遍存在的,当你直接使用 pip install auto-gptq 进行安装时,可能就会出现。

你可以通过以下命令检查已安装的版本:

pip list | grep auto-gptq

如果发现之前安装的版本不带 cuda 标识,卸载它,从源码重新进行安装(推理速度将提升为原来的 15 倍以上)。

如果存在 cuda 标识,那么应该去检查代码的参数是否正确。

pip uninstall auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ.git && cd AutoGPTQ
# 以下两种方式任选一种进行安装,经测试均有效
pip install -vvv --no-build-isolation -e .
# >> Successfully installed auto-gptq-0.8.0.dev0+cu121

python setup.py install
# >> Finished processing dependencies for auto-gptq==0.8.0.dev0+cu121

http://www.kler.cn/news/341440.html

相关文章:

  • 在树莓派上部署安装OAK
  • 用echarts画天气预报
  • 【优选算法】(第三十二篇)
  • Vue3浮动按钮(FloatButton)
  • C语言二级考试上机题
  • 宠物心肺健康监测仪:医疗科技的新突破
  • 在线绘图工具drawio,visio的平替
  • 数据排列组合实现
  • MySQL【知识改变命运】03
  • 05_23 种设计模式之《建造者模式》
  • Python 打包为 .whl(Wheel)格式的包 发布到 PyPI
  • 《14天从0到1学Java》第二天之01Java中的分支结构if语句
  • Python简介与入门
  • jmeter入门: 安装
  • mpi 示例小程序集锦
  • C语言之扫雷小游戏(完整代码版)
  • SpringBoot美发门店系统:提升服务质量
  • git pull
  • 如何激发员工对FMEA的浓厚兴趣与深度应用?
  • 谈谈英国硕士毕业论文如何收集问卷数据