当前位置: 首页 > article >正文

Automatic Prefix Caching

APC技术,遇到新prompt和老prompt前缀完全相等的,则复用老prompt的KV cache,避免重新计算。

VLLM代码实例:

# set enable_prefix_caching=True to enable APC
llm = LLM(
    model='lmsys/longchat-13b-16k',
    enable_prefix_caching=True
)

 应用场景:

1. 长文档问答。给1个长文档,变换不同的query。则把长文档放到前面,可以复用KV cache。

2. 多轮聊天。多轮对话聊天历史,放到前面,可以复用KV cache。

我的实验:

1. fetch_count>1时,不管是否打开enable_prefix_caching,prompt的KV cache都会被复用。

2. prefill公共前缀较长,且decode output较短时,KV cache复用的威力才能发挥出来。

3. 只要前面有1个字符不同,后面完全相同的部分,也不能被视为公共前缀。因为2个prompt这部分的KV值不相等了。


http://www.kler.cn/a/529113.html

相关文章:

  • 携程Android开发面试题及参考答案
  • OpenAI o3-mini全面解析:最新免费推理模型重磅发布
  • 【教程】在CMT上注册账号并声明Conflicts
  • 代码随想录——回溯
  • 基于微信小程序的酒店管理系统设计与实现(源码+数据库+文档)
  • Nginx知识
  • 【数据结构】(3)包装类和泛型
  • 关于DNN检测中替换caff用Tensorflow的注意事项
  • 7.攻防世界fileclude
  • Qt Creator 中使用 vcpkg
  • Doki Doki Mods Maker小指南
  • 网络原理(3)—— 传输层详解
  • RK3568连接wifi(connmanctl工具)
  • 使用 Docker 部署 pSQL 服务器 的教程
  • 如何为用户设置密码
  • 爬取豆瓣书籍数据
  • 本地部署DeepSeek教程(Mac版本)
  • 一个数如果恰好等于他的因子之和,这是就成为“完数“,例如6=1+2+3.编程找出1000以内的所有完数
  • 2025.2.1(迭代器,auto,for遍历)
  • PID算法的数学实现和参数确定方法
  • 新集成,Sui 的 Phantom 时代正式开启!
  • Java小白入门教程:数组(一维数组)
  • kamailio-ACC_RADIUS模块详解,附加AAA协议
  • 一文读懂Python之random模块(31)
  • C++:虚函数与多态性习题2
  • 洛谷 P1734 最大约数和 C语言