大模型笔记:KV cache
1 为什么要使用KV cache
假设模型最终生成了四个token
- 对于第一个token,他的attention的计算方法为:
- 有了第一个token之后,生成第二个token的时候:
- sottmaxed表示已经逐行softmax后的结果
- 同理,对于第三个token:
可以发现重复地计算,但其实只计算一次就行了
——>把每一步(计算记为一步)计算的KV缓存起来
2 代码实现
参考内容:大模型推理加速:看图学KV Cache - 知乎