当前位置: 首页 > article >正文

【LLM运用】在Ubuntu上Cosyvoice的部署

CosyVoice是阿里通义实验室一个开源的中文语音合成系统,基于深度学习技术,能够生成自然、流畅的中文语音。
本文将详细介绍如何在Ubuntu系统上部署和使用CosyVoice。

模型开源地址:
https://github.com/FunAudioLLM/CosyVoice
模型详情:
https://modelscope.cn/models/iic/CosyVoice2-0.5B/summary

一、CosyVoice简介

CosyVoice是一个完整的端到端中文语音合成框架,具有以下特点:
基于深度学习的声学模型
支持多说话人合成
提供预训练模型
部署便捷,可用于实际应用场景
开源免费,支持二次开发
魔塔社区上有论文和demo等一些模型详细的东西
模型详情:

https://modelscope.cn/models/iic/CosyVoice2-0.5B/summary

在这里插入图片描述

二.在服务器上部署CosyVoice

1.Anconda创建环境

conda create -n cosyvoice -y python=3.10
conda activate cosyvoice

2.克隆代码仓库

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git

如果网络慢或者直接用不了可以用国内的镜像安装

git clone https://mirror.ghproxy.com/https://github.com/FunAudioLLM/CosyVoice.git

下一步:

cd CosyVoice
git submodule update --init --recursive

安装相关依赖:

conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-
sudo apt-get install sox libsox-dev

模型下载:
方法一:
1.SDK模型下载
新建一个python文件然后复制以下代码运行等待安装。

from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

2.git模型下载,请确保已安装git lfs
安装git lfs

git lfs install
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained_models/CosyVoice-300M-25Hz
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

3.启动

等模型和环境依赖都下载好之后
进入目录输入:

python3 webui.py --port XXXX --model_dir pretrained_models/CosyVoice-300M

–port XXXX 自定义端口
–model_dir pretrained_models/CosyVoice-300M 根据需要加载模型

启动成功后,浏览器访问http://公网ip:指定的端口
(这里可能涉及端口映射)

4.浏览器访问不到麦克风问题解决

访问不到麦克风是因为是用http协议去访问的服务器,会被浏览器识别为不安全的链接。

谷歌浏览器参考:https://blog.csdn.net/guolovejie/article/details/139525880?fromshare=blogdetail&sharetype=blogdetail&sharerId=139525880&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link
其他浏览器搜索:XXX浏览器在http协议下无法调用摄像头和麦克风的问题

运行结果

以上步骤都调试好之后访问相应的地址回显示如下页面:
在这里插入图片描述

使用方法

1.输入合成文本出输出想要合成的语音
2.选择模式按照操作步骤提示进行操作
ps:输入prompt文本是要输入音频对应的文字
最后点击生成音频即可

本博客参考:
https://blog.csdn.net/weixin_63782093/article/details/141320485?fromshare=blogdetail&sharetype=blogdetail&sharerId=141320485&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link

https://blog.csdn.net/guolovejie/article/details/139525880?fromshare=blogdetail&sharetype=blogdetail&sharerId=139525880&sharerefer=PC&sharesource=weixin_47665864&sharefrom=from_link
如有不足之处可以访问参考链接,欢迎讨论交流。


http://www.kler.cn/a/534954.html

相关文章:

  • 大模型实战篇之Deepseek二、一键部署DeepSeek-V3和DeepSeek-R1模型
  • 【教程】docker升级镜像
  • MongoDB 查询文档
  • React组件中的列表渲染与分隔符处理技巧
  • 如何利用maven更优雅的打包
  • Linux之安装MySQL
  • java异常分类,异常处理,面试中常见异常问题!
  • Java并发面试题(题目来源JavaGuide)
  • 算法设计与分析三级项目--管道铺设系统
  • css-根据不同后端返回值返回渲染不同的div样式以及公共组件设定
  • Spring JDBC模块解析 -深入SqlParameterSource
  • 论文解读 | NeurIPS'24 Spotlight ChronoMagic-Bench 评估文本到视频生成的质变幅度评估基准...
  • B站自研的第二代视频连麦系统(上)
  • 拧紧“安全阀”,AORO-P300 Ultra防爆平板畅通新型工业化通信“大动脉”
  • .net的一些知识点3
  • Windows本地部署DeepSeek-R1大模型并使用web界面远程交互
  • 网络面试题(第一部分)
  • 7.攻防世界 wzsc_文件上传
  • 深度学习与搜索引擎优化的结合:DeepSeek的创新与探索
  • Excel中对单列数据进行去重筛选
  • npx tailwindcss init报错npm error could not determine executable to run
  • Langchain教程-1.初试langchain
  • Spring 核心技术解析【纯干货版】- X:Spring 数据访问模块 Spring-Orm 模块精讲
  • Golang: 对float64 类型的变量进行原子加法操作
  • ESP32开发学习记录---》GPIO
  • 第四十六天|动态规划|子序列|647. 回文子串,5.最长回文子串, 516.最长回文子序列,动态规划总结篇