基于昇腾300I-Duo推理卡部署Embedding与Rerank模型
一、准备工作
- 物理机已安装Docker,且Docker网络可用
- 物理机已安装Ascend Docker Runtime
- 物理机上有配套Ascend NPU芯片
- 物理机上已经安装好NPU驱动,为了容器中的运行用户HwHiAiUser用户能够访问驱动,驱动的安装要添加--install-for-all选项
环境说明:
docker 27+
Ascend Docker Runtime:Ascend-docker-runtime_6.0.0_linux-aarch64.run
操作系统 ubuntu22+
NPU驱动 Ascend-hdk-310p-npu-driver_24.1.rc3_linux-aarch64.run
二、系统环境配置
检查docker是否安装
docker -v
Docker version 27.4.1, build b9d17ea
驱动验证
npu-smi info
切记HwHiAiUser的uid gid最好为1000
#如果未创建HwHiAiUser
groupadd -g 1000 HwHiAiUser
useradd -g HwHiAiUser -u 1000 -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash
#如果已创建HwHiAiUser
cat /etc/passwd | grep HwHiAiUser
usermod -u 1000 HwHiAiUser
groupmod -g 1000 HwHiAiUser
Ascend Docker Runtime安装
Ascend Docker Runtime-手动安装-安装部署-组件安装-安装-MindCluster6.0.0开发文档-昇腾社区
Ascend Docker Runtime验证
Ascend Docker Runtime-组件状态确认-组件安装-安装-MindCluster6.0.0开发文档-昇腾社区
昇腾镜像仓库搜索msi-tei 并下载镜像
昇腾镜像仓库详情
三、下载模型权重文件
进入modelscope
搜索bge-m3与bge-reranker-large(前者是embedding模型后者是rerank模型)
git clone https://www.modelscope.cn/BAAI/bge-m3.git
git clone https://www.modelscope.cn/BAAI/bge-reranker-large.git
四、运行容器
如果正确配置,运行以下命令即可拉起容器
docker run -e ASCEND_VISIBLE_DEVICES=0 -itd --name=tei --net=host \
-v /home/data:/home/HwHiAiUser/model \
--entrypoint /home/HwHiAiUser/start.sh \
mis-tei:6.0.RC3-300I-Duo-aarch64 BAAI/bge-reranker-large 127.0.0.1 8080
如果遇到 Available device not found 先检查容器内是否可以执行npu-smi指令,其次,可以在任务启动命令加一个 -u root 以root用户启动 再检查一下device是否被占用,如果被占用就更换或kill掉占用容器或进程
五、测试
rerank模型测试:
curl 127.0.0.1:8080/rerank \
-X POST \
-d '{"query":"What is Deep Learning?", "texts": ["Deep Learning is not...", "Deep learning is..."]}' \
-H 'Content-Type: application/json'
embedding模型测试:
curl 127.0.0.1:8080/embed \
-X POST \
-d '{"inputs":"What is Deep Learning?"}' \
-H 'Content-Type: application/json'
Sequence Classification模型测试
curl 127.0.0.1:8080/predict \
-X POST \
-d '{"inputs":"I like you."}' \
-H 'Content-Type: application/json'