当前位置: 首页 > article >正文

国产GPU中,VLLM0.5.0发布Qwen2.5-14B-Instruct-GPTQ-Int8模型,请求返回结果乱码

概述

国产GPU: 

         DCU Z100

推理框架:

          vllm0.5.0

docker容器化部署

运行如下代码:

  python -m vllm.entrypoints.openai.api_server --model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 --served-model-name qwen-gptq --trust-remote-code --enforce-eager --max-model-len 256 --tensor-parallel-size 2 --dtype float16 --quantization gptq --port 8001 --host *.*.*.*

报:

解决方案

1.重新拉取docker容器

  docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.5.0-dtk24.04.1-ubuntu20.04-py310-zk-v1 

2.运行容器

docker run -it --name=dtk24041_qwen2_vllm -v /app/GLM-4-main:/work --privileged -v /app/models:/app/models -v /opt/hyhal:/opt/hyhal --device=/dev/kfd --device=/dev/dri --device=/dev/mkfd --security-opt seccomp=unconfined --ipc=host --network host --group-add video --ulimit memlock=-1:-1 --cap-add=SYS_PTRACE  023c9d2c0174  /bin/bash

3.进入容器 

docker exec -it dtk24041_qwen2_vllm  /bin/bash

4.运行

  python -m vllm.entrypoints.openai.api_server --model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 --served-model-name qwen-gptq --trust-remote-code --enforce-eager --max-model-len 256 --tensor-parallel-size 2 --dtype float16 --quantization gptq --port 8001 --host *.*.*.*

5.调用

curl http://*.*.*.*:8001/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "qwen-gptq","messages": [{"role": "system", "content": "你是一个乐于助人的助手。"},{"role": "user", "content": "讲个笑话"}],"stop": ["<|im_end|>", "<|endoftext|>"]}' 


http://www.kler.cn/a/427958.html

相关文章:

  • 宝塔控制面板phpMyadmin打开卡主加载中状态
  • Spring Boot教程之二十一:文件处理
  • 样品前处理工作站自动化操作
  • JavaWeb学习(4)(四大域、HttpSession原理(面试)、SessionAPI、Session实现验证码功能)
  • lua 一个简单的table变量序列化和日志写入函数
  • gitee常见命令
  • 日本IT|AWS技术方向都需要做哪些工作呢?
  • 认证插件介绍
  • 【Pytorch】学习第一弹——张量数据类型、创建张量、索引与切片、维度变换、Broadcasting、合并与分割、数学运算
  • Django drf基于APIView 快速使用
  • 网络渗透实验四(渗透课)
  • 《Opencv》Canny边缘检测操作
  • 代码随想录-算法训练营day45(动态规划07:爬楼梯进阶本,零钱兑换,完全平方数)
  • 健康养生:身心和谐的生活艺术
  • 算法日记 43-44 day 图论(深搜,广搜)
  • 【ESP32】ESP-IDF开发 | DAC数模转换器+余弦波输出例程
  • Flink:入门介绍
  • deepsort复现报错TypeError: tuple indices must be integers or slices, not tuple 解决
  • CSES-1141 Playlist
  • RoformerBERT介绍