当前位置: 首页 > article >正文

Kimi悄悄开源了自家推理框架Mooncake~

Mooncake是为Kimi服务的平台,Kimi是由Moonshot AI提供的领先的大型语言模型(LLM)服务。

图片

Mooncake以KVCache为中心的解耦架构,将预填充和解码集群分开。它还利用GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的解耦缓存。

图片

Mooncake的核心是其以KVCache为中心的调度器,它在最大化整体有效吞吐量的同时,满足与延迟相关的服务水平目标(SLOs)要求。与假设所有请求都将被处理的传统研究不同,Mooncake面临着由于高度过载场景带来的挑战。为了缓解这些问题,开发了一种基于预测的早期拒绝策略。实验表明,Mooncake在长上下文场景中表现出色。与基线方法相比,在某些模拟场景中,Mooncake可以实现高达525%的吞吐量增加,同时遵守SLOs。在实际工作负载下,Mooncake的创新架构使Kimi能够处理比之前多75%的请求。

图片

  • Mooncake的底层部分是传输引擎(Transfer Engine),它支持通过TCP、RDMA、基于NVIDIA GPUDirect的RDMA以及NVMe over Fabric(NVMe-of)协议进行快速、可靠和灵活的数据传输。与gloo(分布式PyTorch使用的)和TCP相比,Mooncake传输引擎具有最低的I/O延迟。

  • 基于传输引擎,实现了点对点存储库(P2P Store library),支持在集群中的节点之间共享临时对象(例如,检查点文件)。它避免了单台机器上的带宽饱和。

  • 此外,修改了vLLM,以便集成传输引擎。它通过利用RDMA设备,使预填充-解码解耦更加高效。

  • 未来,计划在传输引擎的基础上构建Mooncake Store,它支持池化的KVCache,以实现更灵活的预填充/解码(P/D)解耦。

https://arxiv.org/pdf/2407.00079https://github.com/kvcache-ai/Mooncake


http://www.kler.cn/a/420516.html

相关文章:

  • 【Nacos01】消息队列与微服务之Nacos 介绍和架构
  • koa中间件
  • Burp Suite 实战指南:Proxy 捕获与修改流量、HTTP History 筛选与分析
  • 开源ISP介绍(1)——开源ISP的Vivado框架搭建
  • c++中成员变量初始化列表的使用
  • 【力扣】3274. 检查棋盘方格颜色是否相同
  • 【Python TensorFlow】进阶指南(续篇五)
  • 《Vue零基础入门教程》第十六课:计算属性
  • 不开流也可以知道文件大小(File类)file.length():long
  • Android 中绘制带箭头的线
  • python代码实现问卷星问卷内容获取并写入word文档保存
  • 基于灰色神经网络的订单需求预测
  • el-table 纵向 横向 多级表头
  • Mysql实现定时自动清理日志(Windows环境)
  • 3. STM32_串口
  • 【无标题】在ensp中配置isis协议
  • 信创改造 - Redis -》TongRDS 安装方式之单节点模式安装
  • Scratch游戏推荐 | 星际前线:帝国逆袭——揭开帝国野心,挑战星际极限!
  • spider--某站搜索--自动化dp
  • ASP.NET Core MVC 入门
  • html+css+js网页设计 旅游 厦门旅游网14个页面
  • Java函数式编程【二】【Stream的装饰】【中间操作】【map映射器】【摊平映射器flatMap】
  • IPv6 如何实现网络安全?
  • 统信服务器操作系统V20系列配置JDK方案
  • 【java-Neo4j 5进阶篇】- 1.批量新增数据
  • 1128作业