当前位置: 首页 > article >正文

【AI技术】GPT-SoVits训练日志

介绍

比较火的GPT-SoVits,他可以很快的用很短的参考音频来模仿生成很接近的声音,也有一定的预期情感的表达。

训练步骤

数据集准备

UVR5

这个工具是让我们快速的获得音质很好的音频数据,因为原始的训练音频的好坏会直接影响生成的结果

下载安装

官方网站

分离人声和伴奏
  1. 选择要处理的音频文件
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择MDX-Net
  4. CHOOSE MDX-NET MODEL中选择MDX23C-InstVoc HQ
  5. 有GPU的同学选中GPU Conversion
  6. 选中Vocals Only只保留人声
  7. SEGMENT SIZE 根据电脑性能选择,性能差的就选小一点。
  8. 开始转换
除混响
  1. 选择上一步得到的人声音频作为输入音频
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择VR Architecutre
  4. CHOOSE VR MODEL中选择UVR-De-Echo-Aggressive
  5. 选中No Echo Only只保留处理后的
  6. 开始转换
降噪
  1. 选择上一步去混响得到的人声音频作为输入音频
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择VR Architecutre
  4. CHOOSE VR MODEL中选择UVR-DeNoise
  5. 选中No Noise Only只保留降噪后的音频
  6. 开始转换

数据集

这份数据集是我从cctv的康辉和李梓萌截取的,提供给大家使用。

百度网盘:https://pan.baidu.com/s/1lPmj6GUCPtLWREMIw0UvlA
提取码:tgv3
阿里云盘:https://www.alipan.com/s/qmBZ3FWA6ax
提取码: 05uy
夸克网盘:https://pan.quark.cn/s/f801946d1394
提取码:hid7

开启服务

运行命令启动web版训练界面

python webui.py

浏览器访问http://127.0.0.1:9874/

训练

后面的都是访问地址以后的操作步骤

切分语音

  1. 讲我们之前处理好的音频文件放到当前服务可访问的路径
    在这里插入图片描述
  2. 要切割的音频路径下就可以填写./input/kanghui_final.wav
  3. 点击切分

ASR

点击按钮Start Batch ASR来进行批量的语音识别。这里需要注意的如果只有中文,建议就使用默认的达摩ASR效果最好

ASR 标注修改

上面识别以后有可能会有一些误差,这个时候我们可以点击按钮Open Labeling WebUI来进行修改。在这里插入图片描述
正常情况浏览器会自动打开一个新的窗口,如果没有启动可以手动访问地址http://127.0.0.1:9871/

训练

  1. 选中选项卡,并起名
    在这里插入图片描述
  2. 点击Start on-click formatting 这样就不用分布,直接执行上面三部的全部功能。
    在这里插入图片描述

微调训练

按照下图依次选择
在这里插入图片描述

特别感谢

bilibili的白菜工厂1145号员工提供的很多技术思路

引用

参考视频:2小时轻松入门GPT-SoVITS,包含整合包,autodl,colab教程,搭配文档观看
参考文档:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e


http://www.kler.cn/a/394079.html

相关文章:

  • 高等数学学习笔记 ☞ 无穷小比较与等价无穷小替换
  • Luma AI 简单几步生成视频
  • pandas-栗子
  • Ethernet 系列(12)-- 基础学习::SOME/IP
  • Leetcode731. 我的日程安排表 II
  • 在 pandas.Grouper() 中,freq 参数用于指定时间频率,它定义了如何对时间序列数据进行分组。freq 的值可以是多种时间单位
  • 蓝桥杯——杨辉三角
  • 【PGCCC】Postgresql 物理流复制
  • 设计模式之工厂模式,但是宝可梦
  • 【Node.js]
  • TCON 相关知识
  • Git - 命令杂谈 - merge、rebase和cherry-pick
  • git修改当前分支名称并推送到远程仓库
  • 【新手友好】用Pyspark和GraphX解析复杂网络数据
  • 【数据分享】中国食品工业年鉴(1984-2023) PDF
  • 确保HTML邮件兼容所有PC和移动设备的样式
  • Vue Canvas实现区域拉框选择
  • Jmeter中的配置原件(五)
  • 微服务电商平台课程四: 搭建本地前端服务
  • WPF学习之路,控件的只读、是否可以、是否可见属性控制
  • 〔 MySQL 〕数据类型
  • 基于HTTP编写ping操作
  • Day44 | 动态规划 :状态机DP 买卖股票的最佳时机IV买卖股票的最佳时机III
  • 【大数据学习 | HBASE高级】rowkey的设计,hbase的预分区和压缩
  • redis 原理篇 31 redis内存回收 内存淘汰策略
  • 【混沌系统】洛伦兹吸引子-Python动画