当前位置: 首页 > article >正文

Continuous Batching 连续批处理

原始论文题目:
Continuous Batching — ORCA: a distributed serving system for Transformer-based generative models

关键词:
Continuous Batching, iteration-level scheduling, selective batching

1.迭代级调度(iteration-level scheduling)

Orca系统又由几个关键组件组成:
Endpoint,Scheduler,Execution Engine,Request Pool

  • Endpoint一般是(HTTPS或者gRPC)用来处理推理请求(inference requests);
  • 所有的requests被放入到Request pool当中,并被scheduler监控;
    scheduler 从request pool中选择requests,并放到execution engine上去运行一个模型迭代(run a model iteration),并从execution engine中收取输出tokens,再更新到request pool中;
  • execution engine执行张量运算,以及多个GPU并行运算;
  • scheduler动态的决定在每一次迭代中,哪些requests要被处理,一旦一个请求完全被处理完毕,那么这个请求就会被从request pool中移除,并发送给endpoint;

不同于那些通过多次迭代直到所有迭代全部完成的传统批处理方法,ORCA的scheduler可以调整在每次迭代过程中哪些请求要被处理。
在这里插入图片描述
上面图片是原始论文中ORCA系统overview

图中虚线的部分表示每次execution engine的迭代都涉及到的相关组件。

x i j x_{ij} xij


http://www.kler.cn/a/521999.html

相关文章:

  • 【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】1.21 索引宗师:布尔索引的七重境界
  • YOLOv11-ultralytics-8.3.67部分代码阅读笔记-head.py
  • Python GUI 开发 | Qt Designer — 工具介绍
  • css中的animation
  • 机器学习-线性回归(对于f(x;w)=w^Tx+b理解)
  • TypeScript 学习 -类型 - 9
  • 基于ESP8266的多功能环境监测与反馈系统开发指南
  • 嵌入式C语言:结构体
  • KF-GINS 和 OB-GINS 的 Earth类 和 Rotation 类
  • 安卓日常问题杂谈(一)
  • Java-数据结构-二叉树习题(3)
  • 落地 基于特征的对象检测
  • leetcode 面试经典 150 题:简化路径
  • 鲁滨逊漂流记读后感
  • 【PySide6快速入门】QGridLayout 网格布局
  • 如何使用 DeepSeek API 结合 VSCode 提升开发效率
  • 深度学习笔记13-CIFAR彩色图片识别(Pytorch)
  • 供应链管理中的BOM 和 MRP 是什么,如何计算
  • 探索前端可观察性:如何使用Telemetry提高用户体验
  • 基于Java+Springboot+MySQL校园在线考试网站系统设计与实现
  • zyNo.19
  • 解析“in the wild”——编程和生活中的俚语妙用
  • 八股——Java基础(四)
  • 【PySide6拓展】QLCDNumber类lcd 显示数字
  • 多级缓存(亿级并发解决方案)
  • C#常用257单词