当前位置：首页 > article >正文

华为昇腾服务器+Atlas300IPro*2 部署Dify+MindIE+Embedding+Rerank实现Qwen2.5-7B全国产化的大模型推理平台

article 2025/3/9 22:49:13

文章目录

- 一、概要
- 二、平台介绍和相关链接
- 三、MindIE、Embedding、Rerank接口测试
- 四、Dify安装和部署
- 五、测试

一、概要

记录基于华为昇腾推理服务器+Atlas300IPro两卡基于MindIE大模型推理引擎和Embedding、Rerank部署dify大模型应用平台。（LangChain-ChatChat和NextChat同样也ok）

二、平台介绍和相关链接

环境	型号	CANN版本	加速卡
推理环境	Atlas800-3010 推理服务器	CANN8.0.RC2及以上	Atlas300IPro * 2

mindie安装和部署参考
embedding和rerank部署参考
以上两个环境的安装和部署就不过多赘述，请参考相关链接。

三、MindIE、Embedding、Rerank接口测试

提示：在部署dify之前，首先要确保llm、embedding、rerank三个模型的接口是通的

llm模型openai接口测试：

time curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{
"model": "qwen",
"messages": [{
 "role": "user",
 "content": "有五天假期，去海南玩，帮我安排一个行程"
}],
"max_tokens": 512,
"presence_penalty": 1.03,
"frequency_penalty": 1.0,
"seed": null,
"temperature": 0.5,
"top_p": 0.95,
"stream": false
}' http://127.0.0.1:1025/v1/chat/completions

embedding接口测试：

curl http://127.0.0.1:1027/embed \
    -X POST \
    -d '{"inputs":"What is Deep Learning?"}' \
    -H 'Content-Type: application/json'

rerank接口测试：

curl http://127.0.0.1:1028/rerank \
    -X POST \
    -d '{"query":"What is Deep Learning?", "texts": ["Deep Learning is not...", "Deep learning is..."]}' \
    -H 'Content-Type: application/json'

接口调用结果：

LLM：

tips：因为我跑的是14B的模型，所以显存占用较高，如果是7B模型，显存使用会减半。
embedding测试：
rerank测试：

四、Dify安装和部署

提示：本次样例使用的是v0.8.2版本的dify进行测试验证

下载dify代码

# clone代码，并checkout到v0.8.2版本
git clone https://gitee.com/dify_ai/dify
git chekcout 0.8.2

部署dify
进入dify/docker文件夹下执行以下命令进行部署，

cp .env.example .env
docker compose up -d

在部署的过程中会遇到下拉镜像失败的情况，打开以下连接：

https://docker.aityp.com/image/docker.io

搜索对应的镜像进行下载，我已langgenius/dify-api:0.8.2为例如下：
在这里插入图片描述

将这两句复制到命令行下拉镜像，其他依赖情况一样操作。
所有的镜像部署完后执行docker compose ps显示如下，部署完成。

注：dify首次进入需要设置邮箱和用户及密码，根据情况设计即可。