当前位置: 首页 > article >正文

vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4

双卡v100 32G部署结果如下,推理时长16s

3卡,tensor_parallel_size=3,tensor并行的数量一定要能被attention heads整除

 4卡,tensor_parallel_size=4,推理速度4s


http://www.kler.cn/a/511402.html

相关文章:

  • Wi-Fi 7、Wi-Fi 6 与 5G、4G 的全方位对比
  • 高等数学:映射与函数
  • java权限修饰符
  • leetcode-买卖股票问题
  • ipmitool设置带外账号权限
  • LabVIEW 蔬菜精密播种监测系统
  • 创建Spring boot项目的五种方式
  • 游戏引擎学习第83天
  • Ubuntu cuda-cudnn中断安装如何卸载
  • Python 与金融分析:股票数据分析实战
  • 搭建一个基于Spring Boot的驾校管理系统
  • 学习ASP.NET Core的身份认证(基于JwtBearer的身份认证7)
  • Python request库简介与操作
  • 【蓝桥杯】Python算法——求逆元的两种算法
  • 4 AXI USER IP
  • 分布式IO模块在电动工具转子生产线的智能化转型
  • [创业之路-255]:《华为数字化转型之道》-1-主要章节、核心内容、核心思想
  • Flink (七): DataStream API (四) Watermarks
  • GoLang 微服务学习笔记
  • 在 Vue 3 中实现插件化架构:设计可扩展的前端插件系统
  • 学习MyBatis的调优方案
  • 第14章:Python TDD应对货币类开发变化(一)
  • PyTorch 卷积神经网络全解析:从原理到实践
  • Ubuntu22.4挂载大于2.2T磁盘(27T大磁盘)
  • 递归练习三(决策树)
  • 53,【3】BUUCTF WEB october 2019 Twice SQLinjection