当前位置: 首页 > article >正文

华为昇腾服务器+Atlas300IPro*2 部署Dify+MindIE+Embedding+Rerank实现Qwen2.5-7B全国产化的大模型推理平台

文章目录

    • 一、概要
    • 二、平台介绍和相关链接
    • 三、MindIE、Embedding、Rerank接口测试
    • 四、Dify安装和部署
    • 五、测试

一、概要

记录基于华为昇腾推理服务器+Atlas300IPro两卡基于MindIE大模型推理引擎和Embedding、Rerank部署dify大模型应用平台。(LangChain-ChatChat和NextChat同样也ok)

二、平台介绍和相关链接

环境型号CANN版本加速卡
推理环境Atlas800-3010 推理服务器CANN8.0.RC2及以上Atlas300IPro * 2

mindie安装和部署参考
embedding和rerank部署参考
以上两个环境的安装和部署就不过多赘述,请参考相关链接。

三、MindIE、Embedding、Rerank接口测试

提示:在部署dify之前,首先要确保llm、embedding、rerank三个模型的接口是通的

  • llm模型openai接口测试:
time curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{
"model": "qwen",
"messages": [{
 "role": "user",
 "content": "有五天假期,去海南玩,帮我安排一个行程"
}],
"max_tokens": 512,
"presence_penalty": 1.03,
"frequency_penalty": 1.0,
"seed": null,
"temperature": 0.5,
"top_p": 0.95,
"stream": false
}' http://127.0.0.1:1025/v1/chat/completions
  • embedding接口测试:
curl http://127.0.0.1:1027/embed \
    -X POST \
    -d '{"inputs":"What is Deep Learning?"}' \
    -H 'Content-Type: application/json'
  • rerank接口测试:
curl http://127.0.0.1:1028/rerank \
    -X POST \
    -d '{"query":"What is Deep Learning?", "texts": ["Deep Learning is not...", "Deep learning is..."]}' \
    -H 'Content-Type: application/json'

接口调用结果:

  • LLM:
    llm测试
    lllm资源调用率
    tips:因为我跑的是14B的模型,所以显存占用较高,如果是7B模型,显存使用会减半。

  • embedding测试:
    embedding

  • rerank测试:
    rerank

四、Dify安装和部署

提示:本次样例使用的是v0.8.2版本的dify进行测试验证

  • 下载dify代码
# clone代码,并checkout到v0.8.2版本
git clone https://gitee.com/dify_ai/dify
git chekcout 0.8.2
  • 部署dify
    进入dify/docker文件夹下执行以下命令进行部署,
cp .env.example .env
docker compose up -d

在部署的过程中会遇到下拉镜像失败的情况,打开以下连接:

https://docker.aityp.com/image/docker.io

搜索对应的镜像进行下载,我已langgenius/dify-api:0.8.2为例如下:
在这里插入图片描述
在这里插入图片描述
将这两句复制到命令行下拉镜像,其他依赖情况一样操作。
所有的镜像部署完后执行docker compose ps显示如下,部署完成。
在这里插入图片描述
注:dify首次进入需要设置邮箱和用户及密码,根据情况设计即可。

  • 首次打开dify页面,空空如也:
    在这里插入图片描述

  • 配置llm
    进入右上角,点击用户名,选择设置。
    在这里插入图片描述
    选择模型供应商,然后找到OpenAI-API-Compatible选项。
    在这里插入图片描述
    输入测试好的mindie的api信息和配置:
    在这里插入图片描述
    保存llm的api信息

  • 配置embedding、配置rerank
    选择TEI
    embdding配置:
    在这里插入图片描述
    rerank配置:
    在这里插入图片描述
    在这里插入图片描述

配置完成后如下图:
配置完成

五、测试

提示:7B模型大概占用两张卡的60%左右的显存占用,embedding和rerank两个模型大概分别占用1~2 GB显存,所有两张300IPro 加速卡完全能够跑起来Qwen2.5 7B 加bge-large-zh-v1.5和bge-reranker-large模型

  • llm测试:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 生成的速度:
    llm

  • 知识库创建和测试:
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

处理完成
召回测试


http://www.kler.cn/news/312629.html

相关文章:

  • stm32f411ceu6芯片学习
  • CSP-J 算法基础 归并排序
  • VideoPlayer插件的用法
  • 初体验《SpringCloud 核心组件Eureka》
  • 栈的各种接口的实现(C)
  • 软设9.20
  • 828华为云征文|基于华为云Flexus X实例快速搭建Halo博客平台
  • 后台数据管理系统 - 项目架构设计-Vue3+axios+Element-plus(0916)
  • 基于SSM+Vue+MySQL的家教服务管理系统
  • Spring Boot中使用注解拦截器实现通用校验器和基于角色的权限注解
  • CSS 笔记 1
  • 小琳AI课堂:MASS模型——革新自然语言处理的预训练技术
  • celery
  • 鸿蒙生态应用
  • 网关登录校验(2)----网关如何将用户信息传递给微服务
  • 金钥匙系列:Kubernetes (K8s) 服务集群技术栈学习路线
  • 表单里面input的type属性值有哪些?
  • CCF201909_1
  • docker发布redis容器
  • 数据库-约束与多表查询
  • uniapp快速入门教程,内容来源于官方文档,仅仅记录快速入门需要了解到的知识点
  • Java之封装
  • QT --- 初识QT
  • 简单了解 JVM
  • Mac使用技巧-来自苹果专人在线辅导服务2
  • windows环境下载ubuntu22.04源码,提示invalid path aux.c
  • [Visual Stuidio 2022使用技巧]2.配置及常用快捷键
  • LeetCode746:使用花费最小爬楼梯
  • Vue: watch5种监听情况
  • Kubernetes故障排除全面指南