当前位置: 首页 > article >正文

【使用Hey对vllm接口压测】模型并发能力

使用Hey对vllm进行模型并发压测

在这里插入图片描述

docker run --rm --network=knowledge_network \
    registry.cn-shanghai.aliyuncs.com/zhph-server/hey:latest \
    -n 200 -c 200 -m POST -H "Content-Type: application/json" \
    -H "Authorization: xxx" \
    -d '{
        "model": "codechat",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "Hello!"}
        ],
        "stream": false,
        "max_tokens": 100,
        "temperature": 0.0
    }' http://vllm-openai:80/v1/chat/completions
docker run --rm --network=knowledge_network \
    registry.cn-shanghai.aliyuncs.com/zhph-server/hey:latest \
    -n 200 -c 200 -m POST -H "Content-Type: application/json" \
    -H "Authorization: xxx" \
    -d '{
        "model": "codebase",
        "prompt": "# write a python code to print hello world",
        "stream": false,
        "max_tokens": 100,
        "temperature": 0.5
    }' http://vllm-openai:80/v1/completions

结果

Summary:                                                                                                                                                                 
  Total:        2.2220 secs                                                                                                                                              
  Slowest:      1.3603 secs                                                                                                                                              
  Fastest:      0.7641 secs                                                                                                                                              
  Average:      1.0815 secs                                                                                                                                              
  Requests/sec: 43.2034                                                                                                                                                  
                                                                                                                                                                         
  Total data:   28992 bytes                                                                                                                                              
  Size/request: 302 bytes                                                                                                                                                
                                                                                                                                                                         
Response time histogram:                                                                                                                                                 
  0.764 [1]     |0.824 [5]     |■■■■■■■                                                                                                                                                 
  0.883 [4]     |■■■■■■                                                                                                                                                  
  0.943 [7]     |■■■■■■■■■■                                                                                                                                              
  1.003 [11]    |■■■■■■■■■■■■■■■■                                                                                                                                        
  1.062 [7]     |■■■■■■■■■■                                                                                                                                              
  1.122 [28]    |■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■                                                                                                                
  1.181 [7]     |■■■■■■■■■■                                                                                                                                              
  1.241 [9]     |■■■■■■■■■■■■■                                                                                                                                           
  1.301 [9]     |■■■■■■■■■■■■■                                                                                                                                           
  1.360 [8]     |■■■■■■■■■■■                                                                                                                                             
                                                                                                                                                                         
                                                                                                                                                                         
Latency distribution:                                                                                                                                                    
  10% in 0.9175 secs                                                                                                                                                     
  25% in 0.9570 secs                                                                                                                                                     
  50% in 1.0721 secs                                                                                                                                                     
  75% in 1.2131 secs                                                                                                                                                     
  90% in 1.2790 secs                                                                                                                                                     
  95% in 1.3599 secs                                                                                                                                                     
  0% in 0.0000 secs                                                                                                                                                      
                                                                                                                                                                         
Details (average, fastest, slowest):                                                                                                                                     
  DNS+dialup:   0.0036 secs, 0.7641 secs, 1.3603 secs                                                                                                                    
  DNS-lookup:   0.0013 secs, 0.0000 secs, 0.0075 secs                                                                                                                    
  req write:    0.0003 secs, 0.0000 secs, 0.0051 secs                                                                                                                    
  resp wait:    1.0774 secs, 0.7640 secs, 1.3533 secs                                                                                                                    
  resp read:    0.0001 secs, 0.0000 secs, 0.0002 secs                                                                                                                    
                                                                                                                                                                         
Status code distribution:                                                                                                                                                
  [200] 96 responses 

http://www.kler.cn/a/312789.html

相关文章:

  • ODOO学习笔记(1):ODOO的SWOT分析和技术优势是什么?
  • 回归分析学习
  • 计算机的错误计算(一百五十二)
  • Linux下MySQL的简单使用
  • VCSVerdi:KDB文件的生成和导入
  • 数据安全、信息安全、网络安全区别与联系
  • ATE自动化测试系统集成:软件与硬件的技术结合
  • 迭代器和生成器的学习笔记
  • JVM 运行时数据区详解(下)
  • Windows通过网线传文件
  • Spring Boot整合MyBatis Plus详解
  • 二级C语言2023-9易错题
  • 反游戏学(Reludology):概念、历史、现状与展望?(豆包AI版)
  • mac 怎么查看CPU核数
  • 通过UV快速计算品牌独立站网络流量
  • 【算法】BFS 系列之 多源 BFS
  • Unity之FPS
  • 谷粒商城のElasticsearch
  • 优先级队列(堆)
  • 行业分析---自动驾驶行业的发展
  • MySQL定长窗口SQL
  • Spring为什么要用三级缓存解决循环依赖?
  • 微服务之服务注册与发现:Etcd、Zookeeper、Consul 与 Nacos 比较
  • libmodbus:写一个modbusTCP服务
  • 求Huffman树及其matlab程序详解
  • RabbitMQ 常见使用模式详解