当前位置：首页 > article >正文

【vLLM 学习】使用 XPU 安装

article 2025/3/23 12:10:10

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

vLLM 最初在 Intel GPU 平台上支持基本模型推理和服务。

依赖环境
使用 Dockerfile 快速开始
从源代码构建

依赖环境

操作系统：Linux
支持的硬件：英特尔数据中心 GPU（英特尔 ARC GPU WIP）
OneAPI 要求：oneAPI 2024.1

使用 Dockerfile 快速开始

docker build -f Dockerfile.xpu -t vllm-xpu-env --shm-size=4g .
docker run -it \
             --rm \
             --network=host \
             --device /dev/dri \
             -v /dev/dri/by-path:/dev/dri/by-path \
             vllm-xpu-env

从源代码构建

首先，安装所需的驱动程序和 intel OneAPI 2024.1 (或更高版本)。
其次，安装用于 vLLM XPU 后端构建的 Python 包:

source /opt/intel/oneapi/setvars.sh
pip install --upgrade pip
pip install -v -r requirements-xpu.txt

最后，构建并安装 vLLM XPU 后端:

VLLM_TARGET_DEVICE=xpu python setup.py install

注意

FP16 是当前 XPU 后端的默认数据类型，未来将支持 BF16 数据类型。

查看全文

http://www.kler.cn/a/595118.html

（C语言）sizeof与strlen的区别，以及有关习题练习

YOLO可视化界面，目标检测前端QT页面。

深度解析超线程技术：一核多用的奥秘

深入理解MySQL中的MVCC机制

使用Qdrant等其他向量数据库时需要将将numpy 数组转换为列表确保数据能被正确处理和序列化，避免类型不兼容的问题。

正则表达式：文本处理的瑞士军刀

动态生成 CSS 工具类：CSS函数实现 `pad20-top`、`pad40-bottom` 等灵活样式

tailwindcss如何修改elementplus的内部样式

深度学习与传统算法在人脸识别领域的演进：从Eigenfaces到ArcFace

JsonAutoDetect.Visibility

Camera2 API拍照失败问题实录：从错误码到格式转换的排坑之旅

Langchain 提示词(Prompt)

解锁C++编程能力：基础语法解析

DeepSeek面试——模型架构和主要创新点

如何在Linux环境下编译文件

【群晖NAS】git常见问题解决方法

NIO入门

VSCode中搜索插件显示“提取扩展时出错。Failed to fetch”问题解决！

平安信托张中朝：养老信托将助力破解“中国式养老”难题

数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革

依赖环境​

使用 Dockerfile 快速开始​

从源代码构建​

相关文章：

依赖环境

使用 Dockerfile 快速开始

从源代码构建