当前位置：首页 > article >正文

vLLM专题（三）-快速开始

article 2025/2/25 4:36:37

本指南将帮助您快速开始使用 vLLM 执行：

离线批量推理
使用 OpenAI 兼容服务器进行在线服务

先决条件

操作系统：Linux

Python：3.9 – 3.12

安装

如果您使用的是 NVIDIA GPU，您可以直接使用 pip 安装 vLLM。

建议使用 uv，一个非常快速的 Python 环境管理器，来创建和管理 Python 环境。请按照文档安装 uv。安装 uv 后，您可以创建一个新的 Python 环境，并使用以下命令安装 vLLM：

uv venv myenv --python 3.12 --seed
source myenv/bin/activate
uv pip install vllm

您也可以使用 conda 来创建和管理 Python 环境。

http://www.kler.cn/a/548936.html

相关文章：

【Leetcode 952】按公因数计算最大组件大小

3.buuctf [BSidesCF 2019]Kookie

最新智能优化算法：贪婪个体优化算法（Greedy Man Optimization Algorithm，GMOA）求解23个经典函数测试集，MATLAB代码

Vue3+NestJS实现后台权限管理系统上线啦!(附源码及教程)

【RocketMQ 存储】CommitLogDispatcherBuildConsumeQueue 构建 ConsumeQueue 索引

蓝桥杯 Java B 组之栈的应用（括号匹配、表达式求值）

【第13章：自监督学习与少样本学习—13.3 自监督学习与少样本学习在图像识别、语言理解等领域的应用探索】

Unity实现UI拖拽

腿足机器人之八- 腿足机器人动力学

代码随想录算法训练营第三十八天| 动态规划02

BY组态：工业自动化的未来，触手可及

Uniapp 实现顶部标签页切换功能？

【一起学Rust 框架篇 Tauri2.0框架】Tauri2.0环境搭建与项目创建

【第11章：生成式AI与创意应用—11.3 AI艺术创作的实现与案例分析：DeepArt、GANBreeder等】

联合概率：定义、公式和示例

【第3章：卷积神经网络（CNN）——3.2卷积层、池化层、全连接层的详细介绍】

Tomcat的升级

启程C++

Pycharm 2024在解释器提供的python控制台中运行py文件

04性能监控与调优篇（D4_JVM参数）