通过vLLM部署LLM模型到生产环境中
文章目录
- 1 使用 vLLM 部署模型
- 2 部署过程
-
- 2.1 准备GPU环境
- 2.2 安装vLLM依赖项
- 3 使用vLLM部署模型并启动服务
-
- 3.1 部署开源模型
- 3.2 部署微调模型
- 4 测试服务是否正常运行
- 5 评估服务性能
1 使用 vLLM 部署模型
本地部署模型主要包含下载模型、编写模型加载代码和发布为支持API访问的应用服务这三个步骤。
这个过程通常伴随较高的人工部署成本,vLLM可以用来简化这一流程。它是一个专为大模型推理设计的开源框架,能够以简单的命令行参数快速部署模型,并通过内存优化和缓存策略提升推理速度和支持高并发请求。
本课程将使用vLLM加载模型并启动模型服务。
该服务提供的HTTP接口兼容OpenAI API,可以通过调用HTTP接口,如/v1/chat/completions,让你快速体验大模型的推理能力。
2 部署过程
2.1 准备GPU环境
确保在GPU环境下执行模型部署操作。
2.2 安装vLLM依赖项
# 此外,还需要安装这些依赖
! pip install vllm==0.6.2 modelscope==1.20.1
3 使用vLLM部署模型并启动服务
3.1 部署开源模型
这里选择在ModelScope模型库中下载Qwen2.5-1.5B-Instruct模型进行部署。当然,也可以在HuggingFace模型库下载开源模型进行部署,暂不在此演示。
首先,下载模型文件到本地。
!mkdir -p ./model/qwen2_5-1_5b-instruct
!modelscope download --model qwen/Qwen2.5-1.5B-Instruct --local_dir './model/qwen2_5-1_5b-instruct'
下载成功后,模型文件会保存在./model/qwen2_5-1_5b-instruct文件夹下。
接着,在终端窗口执行vllm命令启动一个模型服务。
vllm serve "./model/qwen2_5-1_5b-instruct" --load-format "safetensors" --port 8000
vllm serve:表示启动模型服务。
“./model/qwen2_5-1_5b-instruct”:表示加载的模型路径,通常包含模型文件、版本信息等。
–load-format “safetensors”:指定加载模型时使用的格式。
–port 8000:指定端口号,如果端口被占用,请切换为其他端口,如8100等。
服务启动成功后