当前位置: 首页 > article >正文

通义千问 Qwen-7B-Chat-Int4 模型本地化部署

 

如需在本地或离线环境下运行本项目,需要首先将项目所需的模型下载至本地,通常开源 LLM 与 Embedding 模型可以从 HuggingFace 下载。

以本项目中默认使用的 LLM 模型 THUDM/ChatGLM2-6B 与 Embedding 模型 moka-ai/m3e-base 为例:

下载模型需要先安装 Git LFS,然后运行

参考:通义千问部署搭建_代码浪人的博客-CSDN博客

git clone https://www.modelscope.cn/qwen/Qwen-7B-Chat.git

 git clone https://www.modelscope.cn/qwen/Qwen-7B-Chat-Int4.git

拉代码

git clone https://github.com/QwenLM/Qwen-7B.git

pip install -r requirements.txt

pip install -r requirements_web_demo.txt

修改web_demo.py

启动:python web_demo.py

量化:(量化过程 报GPU版本问题 暂时未调通)

GPTQ

请注意:我们更新量化方案为基于 AutoGPTQ 的量化,提供Int4量化模型。该方案在模型评测效果几乎无损,且存储需求更低,推理速度更优。

以下我们提供示例说明如何使用Int4量化模型。在开始使用前,请先保证满足要求(如torch 2.0及以上,transformers版本为4.32.0及以上,等等),并安装所需安装包:

pip install auto-gptq optimum

随后即可使用和上述一致的用法调用量化模型:

下载:git clone https://www.modelscope.cn/qwen/Qwen-7B-Chat-Int4.git

没成功 一直报这个GPU版本的问题

nvidia-smi

Start Locally | PyTorch

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

conda  info --envs

conda remove --name ancillary --all

-------------------------------------------------------------

参考:【PyTorch】PyTorch、Cuda 的安装和使用_cuda pytorch-CSDN博客

conda create -n pytorch python=3.8

进入: conda activate pytorch

nvcc --version

查看版本

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

退出:deactivate(参考)

pip install -r requirements.txt

再次启动 GPU 可以使用了。

改用量化的模型

修改模型的路径后

参考:通义千问-7B-Chat-Int4 · 模型库 (modelscope.cn)

pip install modelscope

pip install auto-gptq optimum

cd ..

git clone -b v1.0.8 https://github.com/Dao-AILab/flash-attention

cd flash-attention && pip install .

启动成功后 速度不错:

---------------------------------------------------------------------

#获取版本号
conda --version 或 conda -V

#检查更新当前conda
conda update conda

#查看当前存在哪些虚拟环境
conda env list 或 conda info -e

#查看--安装--更新--删除包

conda list:
conda search package_name# 查询包
conda install package_name
conda install package_name=1.5.0
conda update package_name
conda remove package_name

#创建名为your_env_name的环境
conda create --name your_env_name
#创建制定python版本的环境
conda create --name your_env_name python=2.7
conda create --name your_env_name python=3.6
#创建包含某些包(如numpy,scipy)的环境
conda create --name your_env_name numpy scipy
#创建指定python版本下包含某些包的环境
conda create --name your_env_name python=3.6 numpy scipy
 

conda activate your_env_name

deactivate your_env_name

conda remove -n your_env_name --all

conda remove --name your_env_name --all


http://www.kler.cn/news/148825.html

相关文章:

  • 机器人规划算法——movebase导航框架源码分析
  • Linux的软件安装
  • linaro交叉编译工具链下载与使用笔记
  • Nacos 端口偏移量说明
  • java文件上传以及使用阿里云OSS
  • 【ArcGIS Pro微课1000例】0038:基于ArcGIS Pro的人口密度分析与制图
  • 11 动态规划解最后一块石头的重量II
  • TiDB 在咪咕云原生场景下的实践
  • 人工智能原理复习--知识表示(一)
  • 图论 2023.11.27
  • springboot 自定义starter逐级抽取
  • MATLAB算法实战应用案例精讲-【图像处理】FPGA
  • 编写安全 JavaScript 代码的最佳实践
  • Gossip协议理解
  • Android控件全解手册 - 任意View缩放平移工具-实现思路和讲解
  • 京东大数据(京东运营数据采集):2023年10月京东牛奶乳品行业品牌销售排行榜
  • 解决:SyntaxError: Non-UTF-8 code starting with À in file but no encoding declared
  • pgsql分别获取日期中的年、月、日,并处理前台展示有小数点的情况
  • STM32CubeIDE(ADC)
  • C++面试,说明const和#define的特点和区别
  • 基于单片机的智能饮水机控制系统(论文+源码)
  • JAVA进阶之路JVM-2:类加载机制,类的生命周期,类加载过程,类加载时机,类加载器,双亲委派模型,对象创建过程
  • LuatOS-SOC接口文档(air780E)--rtc - 实时时钟
  • uniapp微信小程序中阻止事件冒泡
  • 如何根据接口文档,轻松快速的模拟接口服务?
  • Java小游戏 王者荣耀
  • 安卓横竖屏切换后,应用只展示半屏问题 AndroidAutoSize
  • 图像重定向Image Retarget
  • Gradle 翻译说明
  • Elsevier的latex模板