华为昇腾服务器+Atlas300IPro*2 部署Dify+MindIE+Embedding+Rerank实现Qwen2.5-7B全国产化的大模型推理平台
文章目录
- 一、概要
- 二、平台介绍和相关链接
- 三、MindIE、Embedding、Rerank接口测试
- 四、Dify安装和部署
- 五、测试
一、概要
记录基于华为昇腾推理服务器+Atlas300IPro两卡基于MindIE大模型推理引擎和Embedding、Rerank部署dify大模型应用平台。(LangChain-ChatChat和NextChat同样也ok)
二、平台介绍和相关链接
环境 | 型号 | CANN版本 | 加速卡 |
---|---|---|---|
推理环境 | Atlas800-3010 推理服务器 | CANN8.0.RC2及以上 | Atlas300IPro * 2 |
mindie安装和部署参考
embedding和rerank部署参考
以上两个环境的安装和部署就不过多赘述,请参考相关链接。
三、MindIE、Embedding、Rerank接口测试
提示:在部署dify之前,首先要确保llm、embedding、rerank三个模型的接口是通的
- llm模型openai接口测试:
time curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{
"model": "qwen",
"messages": [{
"role": "user",
"content": "有五天假期,去海南玩,帮我安排一个行程"
}],
"max_tokens": 512,
"presence_penalty": 1.03,
"frequency_penalty": 1.0,
"seed": null,
"temperature": 0.5,
"top_p": 0.95,
"stream": false
}' http://127.0.0.1:1025/v1/chat/completions
- embedding接口测试:
curl http://127.0.0.1:1027/embed \
-X POST \
-d '{"inputs":"What is Deep Learning?"}' \
-H 'Content-Type: application/json'
- rerank接口测试:
curl http://127.0.0.1:1028/rerank \
-X POST \
-d '{"query":"What is Deep Learning?", "texts": ["Deep Learning is not...", "Deep learning is..."]}' \
-H 'Content-Type: application/json'
接口调用结果:
-
LLM:
tips:因为我跑的是14B的模型,所以显存占用较高,如果是7B模型,显存使用会减半。
-
embedding测试:
-
rerank测试:
四、Dify安装和部署
提示:本次样例使用的是v0.8.2版本的dify进行测试验证
- 下载dify代码
# clone代码,并checkout到v0.8.2版本
git clone https://gitee.com/dify_ai/dify
git chekcout 0.8.2
- 部署dify
进入dify/docker文件夹下执行以下命令进行部署,
cp .env.example .env
docker compose up -d
在部署的过程中会遇到下拉镜像失败的情况,打开以下连接:
https://docker.aityp.com/image/docker.io
搜索对应的镜像进行下载,我已langgenius/dify-api:0.8.2为例如下:
将这两句复制到命令行下拉镜像,其他依赖情况一样操作。
所有的镜像部署完后执行docker compose ps显示如下,部署完成。
注:dify首次进入需要设置邮箱和用户及密码,根据情况设计即可。
-
首次打开dify页面,空空如也:
-
配置llm
进入右上角,点击用户名,选择设置。
选择模型供应商,然后找到OpenAI-API-Compatible选项。
输入测试好的mindie的api信息和配置:
-
配置embedding、配置rerank
embdding配置:
rerank配置:
配置完成后如下图:
五、测试
提示:7B模型大概占用两张卡的60%左右的显存占用,embedding和rerank两个模型大概分别占用1~2 GB显存,所有两张300IPro 加速卡完全能够跑起来Qwen2.5 7B 加bge-large-zh-v1.5和bge-reranker-large模型
-
llm测试:
-
生成的速度:
-
知识库创建和测试: