当前位置：首页 > article >正文

TensorRT-LLM中的MoE并行推理

article 2025/3/1 16:58:05

2种并行方式：

moe_tp_size：按照维度切分，每个GPU拥有所有Expert的一部分权重。

moe_ep_size: 按照Expert切分，每个GPU有用一部分Expert的所有权重。

二者可以搭配一起使用。

限制：二者的乘积，必须等于模型并行（不是指moe_tp_size，而是整个模型的tp_size)的卡数。

http://www.kler.cn/a/473420.html

相关文章：

【linux系统之redis6】redisTemplate的使用方法

如何轻松反转C# List＜T＞中的元素顺序

“多维像素”多模态雷视融合技术构建自动驾驶超级感知能力｜上海昱感微电子创始人蒋宏GADS演讲预告

Kafka优势剖析-消费者组、并行消费

JavaFX基础之环境配置，架构，FXML

GoChina备案管家

深入Android架构(从线程到AIDL)_17 SurfaceView的UI多线程01

数据库中的并发控制

如何将某两个提交去掉父提交的合并

YOLOv10改进，YOLOv10改进主干网络为StarNet，CVPR2024，助力模型涨点

undolog,redolog,binlog分别是做什么的?

VSCODE使用Echarts组件库(不是vue)

LeetCode100之组合总和(39)--Java

【已解决】如何让容器内的应用程序使用代理？

怎么分析网页游戏中的数据官方API 数据挖掘第三方工具Overwolf、LoLalytics

Echarts的认识和基本用法

【Rust自学】11.3. 自定义错误信息

网络安全图谱以及溯源算法

Go中的context 包使用详解

图像处理|膨胀操作