当前位置: 首页 > article >正文

Mooncake:kimi后端推理服务的架构设计

前言

        本文依托论文《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》来讲解kimi的后端服务架构Mooncake,并按照自己的思路来梳理论文中的一些关键信息。

背景

服务端面临的问题

        随着大模型技术越来越强,很多应用都是以Maas(Model as a Service)的方式对外提供服务,服务端的能力受模型的能力约束。对于C端应用来说,期望的服务端优化目标一般时最大化有效吞吐量,以保证大量用户的正常体验。这种优化进行的同时一般也要满足SLO(服务等级目标)。在大模型应用的背景下,这里的目标通常是首次生成令牌的时间(TTFT)和令牌之间的时间(TBT)。一般优化的目标期望在这些点之间进行trade off。

常见的解决方案

        对于最大化吞吐量的目标而言,目前的优化方式一般是:

  1. 尽可能多地重复使用 KVCache,以减少所需的计算资源(比如之前文章中提到的PageAttention,RAGCache等)。

  2. 最大化每个批次中的令牌数量,以提高模型浮点运算利用率(MFU)。

        虽然这两种方式一般可以提高吞吐量,但在SLO上可


http://www.kler.cn/a/457336.html

相关文章:

  • 电子应用设计方案85:智能 AI门前柜系统设计
  • 高效管理 Nginx 的利器:nginxWebUI 指南和 Docker 部署安装过程
  • SpringCloud源码分析-nacos与eureka
  • 如何使用axios实现并发请求
  • sniff2sipp: 把 pcap 处理成 sipp.xml
  • 探索 Vue.js 的动态样式与交互:一个有趣的样式调整应用
  • DOM解析:深入理解文档对象模型
  • Elasticsearch 数据存储底层机制详解
  • C++进阶-【高级语法】
  • 使用GitHub Pages部署静态网站:简易指南
  • 《Vue进阶教程》第二十四课:优化
  • c++ 里 常量转换 const_cast < T > ,要给模板参数 T 传递什么类型呢?
  • iClient3D for Cesium 加载shp数据并拉伸为白模
  • Node.js 工具:在 Windows 11 中配置 Node.js 的详细步骤
  • 影刀进阶应用 | 知乎发布想法
  • EMQX5.X版本性能配置调优参数
  • NSSCTF-web刷题
  • 爬虫入门二 beautifulsoup
  • 一个通用的居于 OAuth2的API集成方案
  • 解密MQTT协议:从QOS到消息传递的全方位解析
  • Element分阶段逐步升级
  • (计算机毕设)基于SpringBoot+Vue的在线音乐平台
  • K8s Flannel vs Calico:基于 L2 与 L3 的 CNI 之战(一)
  • DINO: 基于双向知识蒸馏的视觉智能自学习方法
  • 设计模式之状态模式:自动售货机的喜怒哀乐
  • 通过 python 获取金融数据-akshare