当前位置: 首页 > article >正文

VLLM专题(三十九)—自动前缀缓存(二)

前缀缓存(Prefix Caching)是一种在LLM推理中广泛使用的优化技术,旨在避免冗余的提示词(prompt)计算。其核心思想很简单——我们缓存已处理请求的键值缓存(kv-cache)块,并在新请求的前缀与之前请求相同时重用这些块。由于前缀缓存几乎是一种“免费的午餐”,并且不会改变模型输出,因此它已被许多公共端点(例如OpenAI、Anthropic等)和大多数开源LLM推理框架(例如SGLang)广泛采用。

尽管实现前缀缓存的方法有很多,但vLLM选择了一种基于哈希的方法。具体来说,我们通过对每个kv-cache块中的token以及该块之前的prefix中的token进行哈希来标识缓存块。

                    Block 1                  Block 2                  Block 3
         [A gentle breeze stirred] [

http://www.kler.cn/a/593742.html

相关文章:

  • linux性能监控的分布式集群 prometheus + grafana 监控体系搭建
  • 让vscode远程开发也可以图形显示
  • nuxt项目 详情页有阅读次数需要更新,有热门推荐列表需要更新适合做SSG吗
  • 【C++指南】string(三):basic_string底层原理与模拟实现详解
  • 【MyDB】6-TabelManager 字段与表管理 之1-TBM实现思路概览
  • 江小南的题目讲解
  • Vala编程语言教程-语言元素
  • 轮足式机器人运动控制系统设计(大纲)
  • 过程监控——lsof
  • DeepSeek(8):结合Kimi-PPT助手一键生成演示报告
  • 【智能体】| 知识库、RAG概念区分以及智能体是什么
  • Steam游戏实时数据获取API集成文档
  • 从两指到三指:Robotiq机器人自适应夹持器技术解析
  • 将COCO格式的物体检测数据集划分训练集、验证集和测试集
  • Word 小黑第34套
  • 在C语言基础上学Java【Java】【一】
  • 自然语言处理(Natural Language Processing,NLP)入门教程
  • leetcode106 从中序与后序遍历序列构造二叉树
  • 模型部署实战:PyTorch生产化指南
  • mac丝滑安装Windows操作系统【丝滑简单免费】