当前位置: 首页 > article >正文

TensorRT-LLM中的MoE并行推理

2种并行方式:

moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。

moe_ep_size:  按照Expert切分,每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。


http://www.kler.cn/a/473420.html

相关文章:

  • Yolo11改进:注意力改进|Block改进|ESSAformer,用于高光谱图像超分辨率的高效Transformer|即插即用
  • 00000008_C并发编程与多线程
  • 如何在 Hive SQL 中处理复杂的数据类型?
  • JWT与Token
  • Kubernetes集群架构
  • 概率论与数理统计--期末
  • 【linux系统之redis6】redisTemplate的使用方法
  • 如何轻松反转C# List<T>中的元素顺序
  • “多维像素”多模态雷视融合技术构建自动驾驶超级感知能力|上海昱感微电子创始人蒋宏GADS演讲预告
  • Kafka优势剖析-消费者组、并行消费
  • JavaFX基础之环境配置,架构,FXML
  • GoChina备案管家
  • 深入Android架构(从线程到AIDL)_17 SurfaceView的UI多线程01
  • 数据库中的并发控制
  • 如何将某两个提交去掉父提交的合并
  • YOLOv10改进,YOLOv10改进主干网络为StarNet,CVPR2024,助力模型涨点
  • undolog,redolog,binlog分别是做什么的?
  • VSCODE使用Echarts组件库(不是vue)
  • LeetCode100之组合总和(39)--Java
  • 【已解决】如何让容器内的应用程序使用代理?
  • 怎么分析网页游戏中的数据 官方API 数据挖掘 第三方工具Overwolf、LoLalytics
  • Echarts的认识和基本用法
  • 【Rust自学】11.3. 自定义错误信息
  • 网络安全图谱以及溯源算法
  • Go中的context 包使用详解
  • 图像处理|膨胀操作