当前位置: 首页 > article >正文

大模型笔记:KV cache

1  为什么要使用KV cache

假设模型最终生成了四个token

  • 对于第一个token,他的attention的计算方法为:
  • 有了第一个token之后,生成第二个token的时候:
    • sottmaxed表示已经逐行softmax后的结果
  • 同理,对于第三个token:

 可以发现Attn_k(Q,K,V)重复地计算K_i^TV_i,但其实只计算一次K_i^TV_i就行了

——>把每一步(计算Attn_k(Q,K,V)记为一步)计算的KV缓存起来

2 代码实现

参考内容:大模型推理加速:看图学KV Cache - 知乎 


http://www.kler.cn/a/501133.html

相关文章:

  • 【Uniapp-Vue3】Prop校验与prop默认值用法及循环遍历数组对象
  • HTML5实现好看的端午节网页源码
  • CES Asia 2025:VR/AR/XR引领科技新潮流
  • 鸿蒙UI(ArkUI-方舟UI框架)
  • 微信小程序用的SSL证书有什么要求吗?
  • 网工_网络体系结构
  • WPF ——开源MVVM模式框架简介
  • 【算法日记】从零开始认识动态规划(一)
  • Java高频面试之SE-11
  • 【Rust】结构体定义域实例化
  • Golang环境配置on Macbook Air M2
  • 安装 Jenkins 后无法访问用户名或密码且忘记这些凭证怎么办?
  • 蓝桥杯历届真题 #分布式队列 (Java,C++)
  • 未来量子计算技术会如何影响音频DSP的发展?
  • 分布式光纤传感器行业:市场潜力巨大,技术革新引领未来
  • 【芯片封测学习专栏 -- D2D 和 C2C 之间的区别】
  • 义乌购的反爬虫机制怎么应对?
  • 音频数据增强:提升音频信号质量的多种技术
  • STM32Flash读写BUG,坑—————4字对齐
  • 《拉依达的嵌入式\驱动面试宝典》—操作系统篇(六)
  • Golang——rune和byte
  • 单片机实物成品-011 火灾监测
  • Python基础知识回顾-数据结构
  • Linux电源管理——Suspend-to-Idle(s2idle) 流程
  • mysql中创建计算字段
  • 网络原理(二)—— https