当前位置: 首页 > article >正文

vllm 部署 qwen2.5 报错2.5 报错404 已解决

vllm启动千问推理服务报错404 研究发现应该调用的url和qwen2不同
以下列举三种qwen2.5推理服务调用命令 实测有效

1.sh文件 curl调用
curl http://127.0.0.1:9904/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "/model/Qwen2.5-72B-Instruct",
  "messages": [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": "Tell me something about large language models."}
  ],
  "temperature": 0.7,
  "top_p": 0.8,
  "repetition_penalty": 1.05,
  "max_tokens": 512
}'
2. py文件 openAI调用
from openai import OpenAI
import json
# Set OpenAI's API key and API base to use vLLM's API server.
openai_api_key = "EMPTY"
openai_api_base = "http://127.0.0.1:9902/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model="/model/QwQ-32B-Preview",
    messages=[
        {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
        {"role": "user", "content": "Tell me something about large language models."},
    ],
    temperature=0.7,
    top_p=0.8,
    max_tokens=512,
    extra_body={
        "repetition_penalty": 1.05,
    },
)
print("Chat response:", chat_response.json())

3. py文件 request调用
import requests
# 设置服务端地址和端口
host = "localhost"
port = 9902
api_url = f"http://{host}:{port}/v1/completions"  # 使用 OpenAI 兼容的 API 路径

# 设置请求参数
payload = {
    "model": "/model/QwQ-32B-Preview",  # 模型名称
    "prompt": "描述一下北京的秋天",  # 输入提示
    "max_tokens": 512,  # 最大生成长度
    "temperature": 0.7,  # 温度参数,控制生成文本的多样性
    "top_p": 0.95  # 核心采样概率
}

# 发送 POST 请求
response = requests.post(api_url, json=payload)

# 检查响应
if response.status_code == 200:
    result = response.json()
    print("##################### Result: ", result)
    print("##################### Generated text:", result["choices"][0]["text"])
else:
    print("Error:", response.status_code, response.text)


http://www.kler.cn/a/539441.html

相关文章:

  • 【redis】数据类型之list
  • 【韩顺平linux】部分上课笔记整理
  • 【Matlab优化算法-第14期】基于智能优化算法的VMD信号去噪项目实践
  • C# 封送和远程编程介绍
  • 对“云原生”的初印象
  • android selinux 问题
  • java基础语法中阶
  • Docker Compose 容器卷映射:是否需要提前将文件拷贝到宿主机?
  • 【论文阅读笔记】HiDDeN:Hiding Data With Deep Networks
  • vue3中使用print-js组件实现打印操作
  • 蓝桥杯51单片机练习(国信长天比赛用)
  • c/c++蓝桥杯经典编程题100道(18)括号匹配
  • Win10+Ollama+AnythingLLM+DeepSeek构建本地多人访问知识库
  • 大数据示例:改变业务的 6 种方式
  • 【虚幻引擎UE】AOI算法介绍与实现案例
  • 【C++八股】std::atomic —— 原子操作
  • ASP.NET Core 如何使用 C# 向端点发出 POST 请求
  • openAI官方prompt技巧(二)
  • 基于springboot+vue的文物管理系统的设计与实现
  • android手机安装deepseek-r1:1.5b
  • DeepSeek开源多模态大模型Janus-Pro部署
  • 在 Linux 系统下,解压 `.tar.gz`
  • 14vue3实战-----获取用户信息和用户的菜单树信息
  • 解决Redisson在Kubernetes中连接旧Redis主节点的问题
  • Vue3 进阶-自定义事件用法全解析 ✨
  • 大语言模型需要的可观测性数据的关联方式