当前位置: 首页 > article >正文

大模型之三十二-语音合成TTS(coqui) 之二 fine-tune

在 大模型之三十-语音合成TTS(coqui)[shichaog @CSDN]中提到了xttsv2的fine-tune。

数据情况:

我是从bilibili up主小Lin说提取了一些视频,然后进行了重新的fine-tune。

训练结果

如下图所示,上面波形幅度较大的是xttsv2原始模型的结果,第二个是fine-tune了290000 step之后的结果,因为CSDN没法直接放wav文件,上传到CSDN上了,但是不知道怎么变成了VIP资源,如果想要的,可以留言,超过10+人我做个网盘链接供大家下载。
在这里插入图片描述

后续计划

  • 后续会训练vits模型以和xttsv2的效果做对比
  • 改进中文编码,只支持中英文以提高效率&性能
  • 增加文本上下文,以合成合适情感、情境的语音

http://www.kler.cn/a/349089.html

相关文章:

  • 名词解释 UTC 时间
  • [CSP-J 2023] 小苹果
  • Maplibre-gl\Mapbox-gl改造支持对矢量瓦片加密
  • MySQL数据库——SQL语句(完整详解DDL、DML、DQL、DCL语句,涵盖增删改查。附有案例+代码)
  • 【AI知识点】知识图谱评分函数(Scoring Function for Knowledge Graphs)
  • windows上传文件到服务器
  • 【Linux】Linux下的Makefile基本操作
  • 聚铭网络脆弱性扫描系统荣获CNNVD兼容性资质证书
  • 苍穹外卖学习笔记(十九)
  • 【力扣 | SQL题 | 每日3题】力扣1097,1149,1070
  • 【SpringBoot】application配置文件中的数组配置及绑定
  • c++的web框架Restbed介绍及在嵌入式Linux下的移植详解
  • 代码随想录(七) —— 二叉树部分
  • 前端性能优化全面指南
  • 一次Fegin CPU占用过高导致的事故
  • QT QML 练习5-平铺btn按键
  • 5G NR UE初始接入信令流程
  • Vulnhub:Me-and-My-Girlfriend-1
  • 深度学习-22-基于keras的十大经典算法之深度神经网络DNN
  • 慢慢来才是最快的方式