当前位置: 首页 > article >正文

5分钟在本地PC上使用VLLM快速启动DeepSeek-R1-Distill-Qwen-32B

5分钟在本地PC上使用VLLM快速启动DeepSeek-R1-Distill-Qwen-32B

    • 前言
    • 环境准备
      • 所需工具
      • 创建虚拟环境
      • 安装VLLM及依赖库
    • 模型下载
      • 安装Hugging Face CLI
      • 下载DeepSeek-R1-Distill-Qwen-32B
    • 模型启动
      • 启动命令
      • 启动确认
    • 模型验证
      • 发送API请求
      • 示例输出
    • 注意事项
    • 参考链接

前言

VLLM 是一个高效且轻量的大规模语言模型(LLM)服务器。本文将介绍如何在本地PC上使用VLLM快速启动 DeepSeek-R1-Distill-Qwen-32B 这一高性能语言模型。按照本文的步骤操作,您可以在5分钟内完成模型的启动。

环境准备

所需工具

请确保已安装以下工具:

  • conda:用于管理Python虚拟环境。
  • pip:用于安装Python包。
  • VLLM:用于高效运行LLM的服务器。
  • flash-attn:用于加速模型推理的库。

创建虚拟环境

首先,创建一个Python 3.11的虚拟环境并激活它。

conda create -n vllm_v0.7.1 python=3.11 -y
conda activate vllm_v0.7.1

安装VLLM及依赖库

运行以下命令安装VLLM和flash-attn

pip install vllm
pip install flash-attn --no-build-isolation

模型下载

安装Hugging Face CLI

为了下载模型,首先安装Hugging Face CLI。

pip install "huggingface_hub[hf_transfer]"

下载DeepSeek-R1-Distill-Qwen-32B

使用以下命令下载 DeepSeek-R1-Distill-Qwen-32B 模型。

HF_HUB_ENABLE_HF_TRANSFER=1 \
huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

模型启动

启动命令

使用以下命令启动模型。
(通过CUDA_VISIBLE_DEVICES指定使用的GPU,并通过--tensor-parallel-size指定GPU数量。)

CUDA_VISIBLE_DEVICES=3,1,0,2 \
VLLM_USE_V1=1 \
VLLM_WORKER_MULTIPROC_METHOD=spawn \
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
--trust-remote-code --served-model-name gpt-4 \
--gpu-memory-utilization 0.98 --tensor-parallel-size 4 \
--port 8000 --max-model-len 65536

启动确认

成功启动后,您将看到以下消息:

INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

模型验证

发送API请求

使用以下命令向启动的模型发送API请求,验证其是否正常运行。

invoke_url='http://localhost:8000/v1/chat/completions'

authorization_header='Authorization: Bearer sk-dummy'
accept_header='Accept: application/json'
content_type_header='Content-Type: application/json'

data=$'{
  "messages": [
    {
      "role": "user",
      "content": "Which number is larger, 9.11 or 9.8?"
    }
  ],
  "stream": false,
  "model": "gpt-4",
  "max_tokens": 4096,
  "presence_penalty": 0,
  "frequency_penalty": 0,
  "top_p": 0.7,
  "temperature": 0.6
}'

response=$(curl --silent -i -w "\n%{http_code}" --request POST \
  --url "$invoke_url" \
  --header "$authorization_header" \
  --header "$accept_header" \
  --header "$content_type_header" \
  --data "$data"
)

echo "$response"

示例输出

您将收到类似以下的响应:
image.png


注意事项

  • GPU内存设置--gpu-memory-utilization 0.98用于设置GPU内存利用率,请根据您的环境调整。
  • 张量并行处理--tensor-parallel-size 4应根据使用的GPU数量进行调整。
  • 端口号--port 8000是API的端口号,如果与其他应用程序冲突,请更改。

参考链接

  • VLLM官方文档
  • DeepSeek-R1-Distill-Qwen-32B(Hugging Face)

按照以上步骤,您可以在本地PC上快速启动 DeepSeek-R1-Distill-Qwen-32B 模型。赶快试试吧!


http://www.kler.cn/a/529532.html

相关文章:

  • 【SSM】Spring + SpringMVC + Mybatis
  • 【自学笔记】Web前端的重点知识点-持续更新
  • Java小白入门教程:封装、继承、多态、重载、重写、抽象、接口
  • JVM运行时数据区域-附面试题
  • HarmonyOS简介:HarmonyOS核心技术理念
  • 理解神经网络:Brain.js 背后的核心思想
  • Github 2025-02-02 php开源项目日报 Top10
  • Windows程序设计11:文件的查找与遍历
  • PyTorch数据建模
  • 【Leetcode 热题 100】5. 最长回文子串
  • 91,【7】 攻防世界 web fileclude
  • 【深度解析】DeepSeek-R1的五大隐藏提示词
  • LeetCode 15.三数之和
  • 保姆级教程:利用Ollama与Open-WebUI本地部署 DeedSeek-R1大模型
  • C++11—右值引用
  • AI技术在SEO关键词优化中的应用策略与前景展望
  • 深度解析:网站快速收录与网站安全性的关系
  • 物业管理收费系统如何提升收费效率与业主满意度的全新实践
  • Vue 入门到实战 七
  • upload labs靶场
  • 【VUE案例练习】前端vue2+element-ui,后端nodo+express实现‘‘文件上传/删除‘‘功能
  • 电介质超表面中指定涡旋的非线性生成
  • 前端js高级25.1.30
  • 基于springboot私房菜定制上门服务系统设计与实现(源码+数据库+文档)
  • 万字长文深入浅出负载均衡器
  • JavaScript 中的 CSS 与页面响应式设计