当前位置: 首页 > article >正文

ubuntu下,模仿安装vllm,仅记录

指导地址

https://docs.vllm.ai/en/stable/getting_started/installation.html

Install released versions

You can install vLLM using pip:

# (Recommended) Create a new conda environment.
conda create -n myenv python=3.12 -y
conda activate myenv

# Install vLLM with CUDA 12.1.
pip install vllm

Install the latest code

LLM inference is a fast-evolving field, and the latest code may contain bug fixes, performance improvements, and new features that are not released yet. To allow users to try the latest code without waiting for the next release, vLLM provides wheels for Linux running on a x86 platform with CUDA 12 for every commit since v0.5.3. You can download and install it with the following command:

pip install https://vllm-wheels.s3.us-west-2.amazonaws.com/nightly/vllm-1.0.0.dev-cp38-abi3-manylinux1_x86_64.whl

Build from source

Python-only build (without compilation)

If you only need to change Python code, you can build and install vLLM without compilation. Using pip’s --editable flag, changes you make to the code will be reflected when you run vLLM:

git clone https://github.com/vllm-project/vllm.git
cd vllm
VLLM_USE_PRECOMPILED=1 pip install --editable .

 专门新建一个文件夹

用pycharm 进行

 等了十多分钟

测试一下。本机仅10G显卡。查询了一下,这个好像还行。

vllm serve Qwen/Qwen2.5-7B-Instruct-AWQ --quantization awq

根据你提供的错误信息,看起来是在尝试从 Hugging Face 下载模型时遇到了网络连接问题。这通常是因为默认的 Hugging Face 服务器在国外,国内网络访问可能会比较慢或不稳定。为了解决这个问题,可以采取以下几种方法:


方法一:使用镜像源
你可以配置一个国内的镜像源,比如 ModelScope 或其他可靠的 Hugging Face 镜像源,来加速模型的下载。


1.设置环境变量
在下载模型之前,设置环境变量`HF_ENDPOINT`为国内镜像源地址。例如,使用 ModelScope 的镜像源:


```bash
export HF_ENDPOINT=https://modelscope.cn
```

2.下载模型
使用`git lfs`和`git clone`命令下载模型:


```bash
apt install git-lfs -y
git lfs install
cd /path/to/your/models
git clone https://modelscope.cn/Qwen/Qwen2.5-7B-Instruct-AWQ
```

方法二:手动下载模型
如果设置镜像源仍然无法解决问题,可以手动下载模型文件并保存到本地。


1.手动下载模型
访问 Hugging Face 模型页面,手动下载模型文件:


• [Qwen2.5-7B-Instruct-AWQ 模型页面]()

下载模型文件后,解压到本地目录,例如`/path/to/your/models/Qwen2.5-7B-Instruct-AWQ`。


2.修改启动命令
启动 VLLM 服务时,指定本地模型路径:


```bash
vllm serve --model /path/to/your/models/Qwen2.5-7B-Instruct-AWQ --quantization awq
```

方法三:使用 Docker 部署
如果你使用 Docker 部署 VLLM,可以在`docker-compose.yaml`文件中指定本地模型路径,避免从 Hugging Face 下载。


1.准备模型文件
将下载好的模型文件放在与`docker-compose.yaml`同一父目录的`models`文件夹中,例如:


```
/path/to/your/project/
├── docker-compose.yaml
└── models/
    └── Qwen2.5-7B-Instruct-AWQ/
```

2.修改`docker-compose.yaml`文件
确保`docker-compose.yaml`文件中的`volumes`部分正确指向本地模型路径:


```yaml
services:
  vllm:
    container_name: vllm
    restart: no
    image: vllm/vllm-openai:v0.6.1
    ipc: host
    volumes:
      - ./models:/models
    command: ["--model", "/models/Qwen2.5-7B-Instruct-AWQ", "--served-model-name", "qwen2.5-7b-instruct-awq", "--gpu-memory-utilization", "0.90"]
    ports:
      - 8000:8000
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
```

3.启动服务
运行以下命令启动 VLLM 服务:


```bash
sudo docker compose up -d
```

总结
通过以上方法,你可以避免从 Hugging Face 直接下载模型,而是使用国内镜像源或手动下载模型文件,从而解决网络连接问题。希望这些方法能帮助你顺利启动 VLLM 服务。

大意了。最后,说算力太低,不支持。

重新来一下,小一点的。

vllm serve Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4 --quantization gptq

 

根据你提供的错误信息,问题在于你的 GPU 不支持 AWQ 量化方法。错误信息显示当前 GPU 的能力为 61,而 AWQ 量化方法需要的最小 GPU 能力为 75。这意味着你的 GPU 可能是较旧的型号,不支持某些高级特性。


解决方案


1.检查 GPU 能力
首先,确认你的 GPU 型号和能力。你可以使用以下命令来查看 GPU 信息:


```bash
nvidia-smi
```


这将显示你的 GPU 型号和 CUDA 版本。你可以根据 GPU 型号在 NVIDIA 官方网站上查找其计算能力。


2.选择合适的量化方法
如果你的 GPU 不支持 AWQ 量化,可以尝试其他量化方法,如 GPTQ 或 Int8 量化。这些方法可能对较旧的 GPU 更友好。


使用 GPTQ 量化
如果你选择使用 GPTQ 量化,可以尝试以下命令:


```bash
vllm serve Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4 --quantization gptq
```

使用 Int8 量化
如果你选择使用 Int8 量化,可以尝试以下命令:


```bash
vllm serve Qwen/Qwen2.5-7B-Instruct-Int8 --quantization int8
```

3.手动下载模型
如果上述方法仍然不可行,可以手动下载模型文件并指定本地路径。这样可以避免自动下载过程中可能出现的问题。


手动下载模型

• 访问[Hugging Face 模型页面]()或[ModelScope 镜像源]()下载模型文件。

• 将下载的模型文件解压到本地目录,例如`/path/to/your/models/Qwen2.5-7B-Instruct-AWQ`。


指定本地模型路径
使用以下命令启动 VLLM 服务,指定本地模型路径:


```bash
vllm serve --model /path/to/your/models/Qwen2.5-7B-Instruct-AWQ
```

4.使用 CPU 运行
如果 GPU 无法满足要求,可以尝试在 CPU 上运行模型。虽然速度会慢一些,但可以避免 GPU 兼容性问题。


设置环境变量
设置环境变量`VLLM_TARGET_DEVICE`为`cpu`:


```bash
export VLLM_TARGET_DEVICE=cpu
```

启动服务
使用以下命令启动 VLLM 服务:


```bash
vllm serve Qwen/Qwen2.5-7B-Instruct-AWQ
```

总结
通过以上步骤,你可以解决 GPU 不支持 AWQ 量化方法的问题。如果 GPU 能力不足,可以尝试其他量化方法或在 CPU 上运行模型。如果这些方法仍然不可行,可以手动下载模型文件并指定本地路径。希望这些解决方案能帮助你顺利启动 VLLM 服务。

 未完等。


http://www.kler.cn/a/512827.html

相关文章:

  • 基于tldextract提取URL里的子域名、主域名、顶级域
  • MIAOYUN信创云原生项目亮相西部“中试”生态对接活动
  • OpenCV相机标定与3D重建(63)校正图像的畸变函数undistort()的使用
  • Scala语言的循环实现
  • owasp SQL 注入-03 (原理)
  • 国产编辑器EverEdit -重复行
  • android如何将字符串\u83b7\u53d6\u6210\u529f转换成中文
  • Mac安装配置使用nginx的一系列问题
  • 一文大白话讲清楚webpack基本使用——3——图像相关loader的配置和使用
  • 摘录人工智能面试笔试题汇总
  • 文档解析:PDF里的复杂表格、少线表格如何还原?
  • 对人型机器人的研究和展望
  • 提升前端性能的JavaScript技巧:让你的网站飞一般的流畅
  • 【C++指南】类和对象(九):内部类
  • 【JAVA】最新jdk23下载安装
  • Java Web开发高级——消息队列与异步处理
  • 整体隔离版全链路压测
  • TaskBuilder触发前端组件请求后台服务的常见事件
  • 人工智能核心知识:AI Agent的四种关键设计模式
  • 【深度学习】Java DL4J基于多层感知机(MLP)构建公共交通优化模型
  • 如何使用MaskerLogger防止敏感数据发生泄露
  • cherry-pick使用
  • 【wiki知识库】07.用户管理后端SpringBoot部分
  • 日本工作面试基本礼仪-一篇梗概
  • 商城系统中的常见 BUG
  • # [0114] Task01 《数学建模导论》P1 解析几何与方程模型