当前位置：首页 > article >正文

【LLM运用】在Ubuntu上Cosyvoice的部署

article 2025/2/7 11:06:24

CosyVoice是阿里通义实验室一个开源的中文语音合成系统，基于深度学习技术，能够生成自然、流畅的中文语音。
本文将详细介绍如何在Ubuntu系统上部署和使用CosyVoice。

模型开源地址：
https://github.com/FunAudioLLM/CosyVoice
模型详情：
https://modelscope.cn/models/iic/CosyVoice2-0.5B/summary

一、CosyVoice简介

CosyVoice是一个完整的端到端中文语音合成框架，具有以下特点：
基于深度学习的声学模型
支持多说话人合成
提供预训练模型
部署便捷，可用于实际应用场景
开源免费，支持二次开发
魔塔社区上有论文和demo等一些模型详细的东西
模型详情：

https://modelscope.cn/models/iic/CosyVoice2-0.5B/summary

在这里插入图片描述

二.在服务器上部署CosyVoice

1.Anconda创建环境

conda create -n cosyvoice -y python=3.10
conda activate cosyvoice

2.克隆代码仓库

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git

如果网络慢或者直接用不了可以用国内的镜像安装

git clone https://mirror.ghproxy.com/https://github.com/FunAudioLLM/CosyVoice.git

下一步：

cd CosyVoice
git submodule update --init --recursive

安装相关依赖：

conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-
sudo apt-get install sox libsox-dev

模型下载：
方法一：
1.SDK模型下载
新建一个python文件然后复制以下代码运行等待安装。

from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

2.git模型下载，请确保已安装git lfs
安装git lfs

git lfs install

mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained_models/CosyVoice-300M-25Hz
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

3.启动

等模型和环境依赖都下载好之后
进入目录输入：

python3 webui.py --port XXXX --model_dir pretrained_models/CosyVoice-300M

–port XXXX 自定义端口
–model_dir pretrained_models/CosyVoice-300M 根据需要加载模型

启动成功后，浏览器访问http://公网ip:指定的端口
（这里可能涉及端口映射）

4.浏览器访问不到麦克风问题解决

访问不到麦克风是因为是用http协议去访问的服务器，会被浏览器识别为不安全的链接。

谷歌浏览器参考：https://blog.csdn.net/guolovejie/article/details/139525880?fromshare=blogdetail&sharetype=blogdetail&sharerId=139525880&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link
其他浏览器搜索：XXX浏览器在http协议下无法调用摄像头和麦克风的问题

运行结果

以上步骤都调试好之后访问相应的地址回显示如下页面：
在这里插入图片描述

使用方法

1.输入合成文本出输出想要合成的语音
2.选择模式按照操作步骤提示进行操作
ps：输入prompt文本是要输入音频对应的文字
最后点击生成音频即可

本博客参考：
https://blog.csdn.net/weixin_63782093/article/details/141320485?fromshare=blogdetail&sharetype=blogdetail&sharerId=141320485&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link

https://blog.csdn.net/guolovejie/article/details/139525880?fromshare=blogdetail&sharetype=blogdetail&sharerId=139525880&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link
如有不足之处可以访问参考链接，欢迎讨论交流。

查看全文

http://www.kler.cn/a/534954.html