【LLM运用】在Ubuntu上Cosyvoice的部署
CosyVoice是阿里通义实验室一个开源的中文语音合成系统,基于深度学习技术,能够生成自然、流畅的中文语音。
本文将详细介绍如何在Ubuntu系统上部署和使用CosyVoice。
模型开源地址:
https://github.com/FunAudioLLM/CosyVoice
模型详情:
https://modelscope.cn/models/iic/CosyVoice2-0.5B/summary
一、CosyVoice简介
CosyVoice是一个完整的端到端中文语音合成框架,具有以下特点:
基于深度学习的声学模型
支持多说话人合成
提供预训练模型
部署便捷,可用于实际应用场景
开源免费,支持二次开发
魔塔社区上有论文和demo等一些模型详细的东西
模型详情:
https://modelscope.cn/models/iic/CosyVoice2-0.5B/summary
二.在服务器上部署CosyVoice
1.Anconda创建环境
conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
2.克隆代码仓库
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
如果网络慢或者直接用不了可以用国内的镜像安装
git clone https://mirror.ghproxy.com/https://github.com/FunAudioLLM/CosyVoice.git
下一步:
cd CosyVoice
git submodule update --init --recursive
安装相关依赖:
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-
sudo apt-get install sox libsox-dev
模型下载:
方法一:
1.SDK模型下载
新建一个python文件然后复制以下代码运行等待安装。
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
2.git模型下载,请确保已安装git lfs
安装git lfs
git lfs install
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained_models/CosyVoice-300M-25Hz
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd
3.启动
等模型和环境依赖都下载好之后
进入目录输入:
python3 webui.py --port XXXX --model_dir pretrained_models/CosyVoice-300M
–port XXXX 自定义端口
–model_dir pretrained_models/CosyVoice-300M 根据需要加载模型
启动成功后,浏览器访问http://公网ip:指定的端口
(这里可能涉及端口映射)
4.浏览器访问不到麦克风问题解决
访问不到麦克风是因为是用http协议去访问的服务器,会被浏览器识别为不安全的链接。
谷歌浏览器参考:https://blog.csdn.net/guolovejie/article/details/139525880?fromshare=blogdetail&sharetype=blogdetail&sharerId=139525880&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link
其他浏览器搜索:XXX浏览器在http协议下无法调用摄像头和麦克风的问题
运行结果
以上步骤都调试好之后访问相应的地址回显示如下页面:
使用方法
1.输入合成文本出输出想要合成的语音
2.选择模式按照操作步骤提示进行操作
ps:输入prompt文本是要输入音频对应的文字
最后点击生成音频即可
本博客参考:
https://blog.csdn.net/weixin_63782093/article/details/141320485?fromshare=blogdetail&sharetype=blogdetail&sharerId=141320485&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link
https://blog.csdn.net/guolovejie/article/details/139525880?fromshare=blogdetail&sharetype=blogdetail&sharerId=139525880&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link
如有不足之处可以访问参考链接,欢迎讨论交流。