VLLM专题(三十六)—自动前缀缓存
PagedAttention 的核心思想是将每个请求的 KV 缓存划分为 KV 块。每个块包含固定数量的标记(tokens)对应的注意力键(keys)和值(values)。PagedAttention 算法允许将这些块存储在非连续的物理内存中,从而通过按需分配内存来消除内存碎片。
为了自动缓存 KV 缓存,我们利用以下关键观察:每个 KV 块可以通过块中的标记以及块之前的前缀标记来唯一标识。
块 1 块 2 块 3
[一阵轻风吹动] [孩子们的笑声飘过树叶] [远处传来笑声]
块