当前位置: 首页 > article >正文

本地部署 EmotiVoice易魔声 多音色提示控制TTS

本地部署 EmotiVoice易魔声 多音色提示控制TTS

  • EmotiVoice易魔声 介绍
  • ChatGLM3 Github 地址
  • 部署 EmotiVoice
  • 准备模型文件
  • 准备预训练模型
  • 推理

EmotiVoice易魔声 介绍

EmotiVoice是一个强大的开源TTS引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

EmotiVoice提供一个易于使用的web界面,还有用于批量生成结果的脚本接口。

ChatGLM3 Github 地址

https://github.com/netease-youdao/EmotiVoice

部署 EmotiVoice

克隆代码库,

git clone https://github.com/netease-youdao/EmotiVoice
cd EmotiVoice

创建虚拟环境,

conda create -n EmotiVoice python=3.10 -y
conda activate EmotiVoice

使用 pip 安装 pytorch,

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# conda install -y -c "nvidia/label/cuda-12.1.0" cuda-runtime

验证 cuda 可用,

python -c "import torch;print(torch.cuda.is_available());"

使用 pip 安装依赖,

pip install numpy numba scipy transformers==4.26.1 soundfile yacs g2p_en jieba pypinyin

准备模型文件

git lfs install
git clone https://huggingface.co/WangZeJun/simbert-base-chinese WangZeJun/simbert-base-chinese

准备预训练模型

下载预训练模型, 然后运行:

mkdir -p outputs/style_encoder/ckpt
mkdir -p outputs/prompt_tts_open_source_joint/ckpt

g_*, do_*文件放到outputs/prompt_tts_open_source_joint/ckpt,将checkpoint_*放到outputs/style_encoder/ckpt中.

在这里插入图片描述

推理

推理输入文本格式是:<speaker>|<style_prompt/emotion_prompt/content>|<phoneme>|<content>.

例如: 8051|非常开心|<sos/eos> uo3 sp1 l ai2 sp0 d ao4 sp1 b ei3 sp0 j ing1 sp3 q ing1 sp0 h ua2 sp0 d a4 sp0 x ve2 <sos/eos>|我来到北京,清华大学.

其中的 speaker 说明,可以参考这个页面。

其中的音素(phonemes)可以这样得到:python frontend.py data/my_text.txt > data/my_text_for_tts.txt.

然后运行:

TEXT=data/inference/text
python inference_am_vocoder_joint.py \
--logdir prompt_tts_open_source_joint \
--config_folder config/joint \
--checkpoint g_00140000 \
--test_file $TEXT

合成的语音结果在:outputs/prompt_tts_open_source_joint/test_audio.

或者你可以直接使用交互的网页界面:

pip install streamlit
streamlit run demo_page.py

完结!


http://www.kler.cn/news/137239.html

相关文章:

  • 爬虫之数据存储====Excel
  • Web前端高级工程师培训:使用 Node.js 构建一个 Web 服务端程序(3)
  • ceph pg stale 恢复
  • 【Linux】为什么环境变量具有全局性?共享?写时拷贝优化?
  • 华为OD机试2024年真题(基站维修工程师)
  • Java避坑案例 - 消除代码重复_模板方法与工厂模式的最佳实践
  • zookeeper应用之分布式队列
  • 百度地图,地市区域描边
  • HTML+CSS+ElementUI搭建个人博客页面(纯前端)
  • 基于STM32CubeMX和keil采用RTC时钟周期唤醒和闹钟实现LED与BEEP周期开关
  • LeetCode977.有序数组的平方(双指针法、暴力法、列表推导式)
  • Linux CentOS 8(DNS的配置与管理)
  • 【发明专利】天洑软件再度收获六项国家发明专利授权
  • Hotspot启动原理(一)
  • 图解算法数据结构-LeetBook-栈和队列04_望远镜中最高的海拔_滑动窗口
  • uview-plus中二级菜单左右联动更改为uni-app+vue3+vite写法
  • docker-compose安装harbor
  • yum仓库
  • 短视频账号矩阵系统saas管理私信回复管理系统
  • hdfsClient_java对hdfs进行上传、下载、删除、移动、打印文件信息尚硅谷大海哥
  • 活动回顾 | 数字外贸私享会【上海站】成功举办
  • redis---非关系型数据库
  • Vue 中简易封装网络请求(Axios),包含请求拦截器和响应拦截器
  • 如何优雅的避免空指针异常
  • SQL优化——如何写出高效率SQL
  • 如何在 ASP.NET Core 中使用 Quartz.NET