当前位置: 首页 > article >正文

通过vLLM部署LLM模型到生产环境中

文章目录

  • 1 使用 vLLM 部署模型
  • 2 部署过程
    • 2.1 准备GPU环境
    • 2.2 安装vLLM依赖项
  • 3 使用vLLM部署模型并启动服务
    • 3.1 部署开源模型
    • 3.2 部署微调模型
  • 4 测试服务是否正常运行
  • 5 评估服务性能

1 使用 vLLM 部署模型

本地部署模型主要包含下载模型编写模型加载代码发布为支持API访问的应用服务这三个步骤。

这个过程通常伴随较高的人工部署成本,vLLM可以用来简化这一流程。它是一个专为大模型推理设计的开源框架,能够以简单的命令行参数快速部署模型,并通过内存优化和缓存策略提升推理速度和支持高并发请求。

本课程将使用vLLM加载模型并启动模型服务。

该服务提供的HTTP接口兼容OpenAI API,可以通过调用HTTP接口,如/v1/chat/completions,让你快速体验大模型的推理能力。

2 部署过程

2.1 准备GPU环境

确保在GPU环境下执行模型部署操作。

2.2 安装vLLM依赖项

# 此外,还需要安装这些依赖
! pip install vllm==0.6.2 modelscope==1.20.1

3 使用vLLM部署模型并启动服务

3.1 部署开源模型

这里选择在ModelScope模型库中下载Qwen2.5-1.5B-Instruct模型进行部署。当然,也可以在HuggingFace模型库下载开源模型进行部署,暂不在此演示。

首先,下载模型文件到本地。

!mkdir -p ./model/qwen2_5-1_5b-instruct
!modelscope download --model qwen/Qwen2.5-1.5B-Instruct --local_dir './model/qwen2_5-1_5b-instruct'

下载成功后,模型文件会保存在./model/qwen2_5-1_5b-instruct文件夹下。

接着,在终端窗口执行vllm命令启动一个模型服务。

vllm serve "./model/qwen2_5-1_5b-instruct" --load-format "safetensors" --port 8000

vllm serve:表示启动模型服务。
“./model/qwen2_5-1_5b-instruct”:表示加载的模型路径,通常包含模型文件、版本信息等。
–load-format “safetensors”:指定加载模型时使用的格式。
–port 8000:指定端口号,如果端口被占用,请切换为其他端口,如8100等。

服务启动成功后


http://www.kler.cn/a/536052.html

相关文章:

  • [ESP32:Vscode+PlatformIO]添加第三方库 开源库 与Arduino导入第三方库的区别
  • 高端入门:Ollama 本地高效部署DeepSeek模型深度搜索解决方案
  • python:内置函数与高阶函数
  • 2.6-组合博弈入门
  • 【漫画机器学习】082.岭回归(或脊回归)中的α值(alpha in ridge regression)
  • 【NR-NTN】3GPP Release 18中NR-NTN过程描述
  • 2502全球无线产品认证新闻资讯|英利检测
  • 计算机组成原理——指令系统(五)
  • 十一、CentOS Stream 9 安装 Docker
  • 【图像处理】-不同的图像存储格式
  • 蓝桥杯生命之树(DP)
  • 学习笔记:机器学习中的数学原理(一)
  • 【数据安全】现代智能手机的数据加密机制
  • Linux ftrace 内核跟踪入门
  • 可计算性与计算复杂性:理论计算机科学的核心领域
  • osclass增加支持webp格式
  • 【CPP】C++后端开发面试:深入理解编程中的锁机制
  • Linux进阶——web服务器
  • 【Spring Boot】自动配置源码解析
  • TcpClientTest
  • Python中 logging.basicConfig
  • 最新阿里高级Java面试题(首发,70道,带详细答案)
  • 支持向量机(一)
  • VERA: 基于视觉-语言模型的解释性视频异常检测框架
  • 大模型的微调方式
  • 【软件测试入门】Linux操作系统初级命令大全