当前位置：首页 > article >正文

通过vLLM部署LLM模型到生产环境中

article 2025/2/8 6:00:06

文章目录

1 使用 vLLM 部署模型
2 部署过程
- 2.1 准备GPU环境
- 2.2 安装vLLM依赖项
3 使用vLLM部署模型并启动服务
- 3.1 部署开源模型
- 3.2 部署微调模型
4 测试服务是否正常运行
5 评估服务性能

1 使用 vLLM 部署模型

本地部署模型主要包含下载模型、编写模型加载代码和发布为支持API访问的应用服务这三个步骤。

这个过程通常伴随较高的人工部署成本，vLLM可以用来简化这一流程。它是一个专为大模型推理设计的开源框架，能够以简单的命令行参数快速部署模型，并通过内存优化和缓存策略提升推理速度和支持高并发请求。

本课程将使用vLLM加载模型并启动模型服务。

该服务提供的HTTP接口兼容OpenAI API，可以通过调用HTTP接口，如/v1/chat/completions，让你快速体验大模型的推理能力。

2 部署过程

2.1 准备GPU环境

确保在GPU环境下执行模型部署操作。

2.2 安装vLLM依赖项

# 此外，还需要安装这些依赖
! pip install vllm==0.6.2 modelscope==1.20.1

3 使用vLLM部署模型并启动服务

3.1 部署开源模型

这里选择在ModelScope模型库中下载Qwen2.5-1.5B-Instruct模型进行部署。当然，也可以在HuggingFace模型库下载开源模型进行部署，暂不在此演示。

首先，下载模型文件到本地。

!mkdir -p ./model/qwen2_5-1_5b-instruct
!modelscope download --model qwen/Qwen2.5-1.5B-Instruct --local_dir './model/qwen2_5-1_5b-instruct'

下载成功后，模型文件会保存在./model/qwen2_5-1_5b-instruct文件夹下。

接着，在终端窗口执行vllm命令启动一个模型服务。

vllm serve "./model/qwen2_5-1_5b-instruct" --load-format "safetensors" --port 8000

vllm serve：表示启动模型服务。
“./model/qwen2_5-1_5b-instruct”：表示加载的模型路径，通常包含模型文件、版本信息等。
–load-format “safetensors”：指定加载模型时使用的格式。
–port 8000：指定端口号，如果端口被占用，请切换为其他端口，如8100等。

服务启动成功后

查看全文

http://www.kler.cn/a/536052.html