通义Qwen实战(2): vllm框架部署实战
文章目录
-
- 1. 环境安装
-
- 1.1 基础环境
- 1.2 vllm-gptq库安装
- 2. vllm 原理
-
- 2.1 vllm介绍
- 2.2 vllm 框架的使用
- 3 vllm 部署实战
-
- 3.1 离线推理
- 3.2 chat 方法实现
-
- 3.2.1 初始化函数
- 3.2.2 chat方法实现
- 3.2.3 效果展示
- 4. 服务端部署
-
- 4.1 效果演示
- 4. 2 代码详解
- 4.3 聊天可视化
1. 环境安装
1.1 基础环境
conda create -n vllm python=3.10 -y
conda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda