当前位置：首页 > article >正文

【vLLM 学习】欢迎来到 vLLM!

article 2025/3/1 22:26:13

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

vLLM 是一个快速且易于使用的库，专为大型语言模型 (LLM) 的推理和部署而设计。

vLLM 的核心特性包括：

最先进的服务吞吐量
使用 PagedAttention 高效管理注意力键和值的内存
连续批处理传入请求
使用 CUDA/HIP 图实现快速执行模型
量化： GPTQ, AWQ, INT4, INT8, 和 FP8
优化的 CUDA 内核，包括与 FlashAttention 和 FlashInfer 的集成
推测性解码
分块预填充

vLLM 的灵活性和易用性体现在以下方面：

无缝集成流行的 HuggingFace 模型
具有高吞吐量服务以及各种解码算法，包括并行采样、束搜索等
支持张量并行和流水线并行的分布式推理
流式输出
提供与 OpenAI 兼容的 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron
前缀缓存支持
支持多 LoRA

欲了解更多信息，请参阅以下内容：

vLLM announcing blog post (PagedAttention 教程)
vLLM paper (SOSP 2023)
How continuous batching enables 23x throughput in LLM inference while reducing p50 latency by Cade Daniel et al.
vLLM 聚会

文档

入门

安装

使用 ROCm 进行安装

使用 OpenVINO 进行安装

使用 CPU 进行安装

使用 Neuron 进行安装

使用 TPU 进行安装

使用 XPU 进行安装

快速入门

调试提示

示例

部署

OpenAI 兼容服务器

使用 Docker 部署

分布式推理和服务

生产指标

环境变量

使用统计数据收集

整合

使用 CoreWeave 的 Tensorizer 加载模型

兼容性矩阵

常见问题解答

模型

支持的模型

添加新模型

启用多模态输入

引擎参数

使用 LoRA 适配器

使用 VLMs

在 vLLM 中使用推测性解码

性能和调优

量化

量化内核支持的硬件

AutoAWQ

BitsAndBytes

GGUF

INT8 W8A8

FP8 W8A8

FP8 E5M2 KV 缓存

FP8 E4M3 KV 缓存

自动前缀缓存

简介

实现

广义缓存策略

性能基准测试

vLLM 的基准套件

开发者文档

采样参数

离线推理

LLM 类
LLM 输入

vLLM 引擎

LLM 引擎

LLMEngine
AsyncLLMEngine

vLLM 分页注意力

输入处理
概念
查询
键
QK
Softmax
值
LV
输出

输入处理

指南
模块内容

多模态

指南
模块内容

Docker 文件

vLLM 性能分析

示例命令和用法
离线推理
OpenAI 服务器

社区

vLLM 聚会

赞助商

索引和表格

索引
模块索引

查看全文

http://www.kler.cn/a/465617.html

使用C#构建一个论文总结AI Agent

ImageNet 2.0？自动驾驶数据集迎来自动标注新时代

知识库召回列表模式揭秘：实现智能信息检索新突破

牛客网刷题 ——C语言初阶——JZ15 二进制中1的个数

服务器数据恢复—服务器硬盘亮黄灯的数据恢复案例

在CE自动汇编里调用lua函数

关于大一上的总结

Java实现UDP与TCP应用程序

python+PyMuPDF库：(三)pdf文件的选择性合并、其他格式文件转pdf

React Class 组件与函数组件全方位对比

网关的主要类型和它们的特点

[网络安全] DVWA之 Open HTTP Redirect 攻击姿势及解题详析合集

AI机器人与政务服务机器人的服务局限问题分析

vue2、element的el-select 选项框的宽度设置、文本过长问题

企业微信——智能表格学习

实战项目模块之1------单个按键短按切换不同工作模式

《HarmonyOS第一课》焕新升级，赋能开发者快速掌握鸿蒙应用开发

【前端系列】Pinia状态管理库

测试岗位面试常见的数据库问题及解答

gitlab高级功能之 CICD Steps

文档

入门

部署

模型

量化

自动前缀缓存

性能基准测试

开发者文档

社区

索引和表格

相关文章：