当前位置: 首页 > article >正文

LLM推理和优化(2):节省KV Cache

在这里插入图片描述

背景

生成阶段,通过缓存KV Cache可以减少重复计算,但是内存有限,当缓存token长度过长,会导致内存爆掉,因而通过减少KV Cache的方式,减少内存占用。

KV cache

以下引自:transformer之KV Cache

  • 原理是什么
    最本质的原理是避免重复计算,将需要重复计算的结果进行缓存,需要缓存的值为历史token对应的KV值,所以叫KV Cache。
  • 为什么只需要KV
    生成阶段,输入新的token需要先计算其Q值,然后计算其与历史token K的注意力值,最后与历史token V值进行加权即得到结果,所以只需要缓存历史token的KV值。
  • 为什么会存在重复计算
    首先,生成式模型每生成一个新token都需要调用整个模型进行一次推理,历史token计算得到的中间激活值在Decoder架构的模型中每次推理时都是一样的,所以可以进行缓存。

http://www.kler.cn/a/585879.html

相关文章:

  • 大白话阐述react和vue高阶组件的概念、优势及应用场景,以及区别,给出简单高阶组件的实现代码
  • 软件/硬件I2C读写MPU6050
  • SSL 原理及实验
  • MyBatis 如何解析 XML 配置文件和 SQL 映射文件
  • 1141. 【贪心算法】排队打水
  • LinuX---Shell---流程控制
  • VSTO(C#)Excel开发8:打包发布安装卸载
  • 开源后台管理系统推荐
  • oracle中OS BLOCK的含义
  • naive ui 控制 n-input 只可以输入26个英文字母+数字
  • 方差缩减梯度算法
  • 【嵌入式】嵌入式系统中的 SemVer 版本控制方案
  • 网络安全信息收集[web子目录]:dirsearch子目录爆破全攻略以及爆破字典结合
  • Flutter三棵树是什么,为什么这么设计
  • SpringBoot解决跨域
  • 鸿蒙app 开发 高效的 存储 数据 推荐使用 @tencent/mmkv(V2.1.0):
  • 计算矩阵边缘元素之和(信息学奥赛一本通-1121)
  • 基于Android的记事本APP设计与实现:从需求分析到功能实现(超级简单记事本,附源码+文档报告)
  • 在IDEA中连接达梦数据库:详细配置指南
  • 【论文阅读方法】沐神课程:如何读论文