当前位置：首页 > article >正文

Automatic Prefix Caching

article 2025/2/3 0:36:38

APC技术，遇到新prompt和老prompt前缀完全相等的，则复用老prompt的KV cache，避免重新计算。

VLLM代码实例：

# set enable_prefix_caching=True to enable APC
llm = LLM(
    model='lmsys/longchat-13b-16k',
    enable_prefix_caching=True
)

应用场景：

1. 长文档问答。给1个长文档，变换不同的query。则把长文档放到前面，可以复用KV cache。

2. 多轮聊天。多轮对话聊天历史，放到前面，可以复用KV cache。

我的实验：

1. fetch_count>1时，不管是否打开enable_prefix_caching，prompt的KV cache都会被复用。

2. prefill公共前缀较长，且decode output较短时，KV cache复用的威力才能发挥出来。

3. 只要前面有1个字符不同，后面完全相同的部分，也不能被视为公共前缀。因为2个prompt这部分的KV值不相等了。

【数据结构】(3)包装类和泛型

7.攻防世界fileclude

Qt Creator 中使用 vcpkg

Doki Doki Mods Maker小指南

网络原理（3）—— 传输层详解

RK3568连接wifi（connmanctl工具）

使用 Docker 部署 pSQL 服务器的教程

如何为用户设置密码

爬取豆瓣书籍数据

本地部署DeepSeek教程（Mac版本）

2025.2.1（迭代器，auto，for遍历）

PID算法的数学实现和参数确定方法

一文读懂Python之random模块（31）

C++：虚函数与多态性习题2

洛谷 P1734 最大约数和 C语言