当前位置：首页 > article >正文

vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4

article 2025/1/21 0:48:52

双卡v100 32G部署结果如下，推理时长16s

3卡，tensor_parallel_size=3，tensor并行的数量一定要能被attention heads整除

4卡，tensor_parallel_size=4，推理速度4s

http://www.kler.cn/a/511402.html

相关文章：

Wi-Fi 7、Wi-Fi 6 与 5G、4G 的全方位对比

高等数学：映射与函数

java权限修饰符

leetcode-买卖股票问题

ipmitool设置带外账号权限

LabVIEW 蔬菜精密播种监测系统

创建Spring boot项目的五种方式

游戏引擎学习第83天

Ubuntu cuda-cudnn中断安装如何卸载

Python 与金融分析：股票数据分析实战

搭建一个基于Spring Boot的驾校管理系统

学习ASP.NET Core的身份认证（基于JwtBearer的身份认证7）

Python request库简介与操作

【蓝桥杯】Python算法——求逆元的两种算法

4 AXI USER IP

分布式IO模块在电动工具转子生产线的智能化转型

[创业之路-255]：《华为数字化转型之道》-1-主要章节、核心内容、核心思想

Flink (七): DataStream API (四) Watermarks

GoLang 微服务学习笔记

在 Vue 3 中实现插件化架构：设计可扩展的前端插件系统

学习MyBatis的调优方案

第14章：Python TDD应对货币类开发变化（一）

PyTorch 卷积神经网络全解析：从原理到实践

Ubuntu22.4挂载大于2.2T磁盘（27T大磁盘）

递归练习三（决策树）

53，【3】BUUCTF WEB october 2019 Twice SQLinjection