当前位置：首页 > article >正文

大模型笔记：KV cache

article 2025/2/28 23:42:44

1 为什么要使用KV cache

假设模型最终生成了四个token

对于第一个token，他的attention的计算方法为：
有了第一个token之后，生成第二个token的时候：
- sottmaxed表示已经逐行softmax后的结果
同理，对于第三个token：

可以发现 $Attn_k(Q,K,V)$ 重复地计算 $K_i^TV_i$ ，但其实只计算一次 $K_i^TV_i$ 就行了

——>把每一步（计算 $Attn_k(Q,K,V)$ 记为一步）计算的KV缓存起来

2 代码实现

参考内容：大模型推理加速：看图学KV Cache - 知乎

http://www.kler.cn/a/501133.html

相关文章：

WPF ——开源MVVM模式框架简介

【算法日记】从零开始认识动态规划（一）

Java高频面试之SE-11

【Rust】结构体定义域实例化

Golang环境配置on Macbook Air M2

安装 Jenkins 后无法访问用户名或密码且忘记这些凭证怎么办？

蓝桥杯历届真题 #分布式队列 (Java,C++)

未来量子计算技术会如何影响音频DSP的发展？

分布式光纤传感器行业：市场潜力巨大，技术革新引领未来

【芯片封测学习专栏 -- D2D 和 C2C 之间的区别】

义乌购的反爬虫机制怎么应对？

音频数据增强：提升音频信号质量的多种技术

STM32Flash读写BUG，坑—————4字对齐

《拉依达的嵌入式\驱动面试宝典》—操作系统篇(六)

Golang——rune和byte

单片机实物成品-011 火灾监测

Python基础知识回顾-数据结构

Linux电源管理——Suspend-to-Idle(s2idle) 流程

mysql中创建计算字段

网络原理（二）—— https