【GPT-SOVITS-02】GPT模块解析

说明:该系列文章从本人知乎账号迁入,主要原因是知乎图片附件过于模糊。

知乎专栏地址:
语音生成专栏

系列文章地址:
【GPT-SOVITS-01】源码梳理
【GPT-SOVITS-02】GPT模块解析
【GPT-SOVITS-03】SOVITS 模块-生成模型解析
【GPT-SOVITS-04】SOVITS 模块-鉴别模型解析
【GPT-SOVITS-05】SOVITS 模块-残差量化解析
【GPT-SOVITS-06】特征工程-HuBert原理

1.概述

GPT-SOVITS 的 GPT模块式实现从文本到语音编码的过程。

GPT-SOVITS 在原有的SOVITS入口加了一个残差量化层,参考Vall-E,这个量化层的输入是包含音频的文本特征和音色特征的。

AR模块的核心就是训练得到一个可以将文本转换成这个量化器输入的模型。核心代码主要在 AR包下 t2s_model.py 的 Text2SemanticDecoder类中。

训练特征包括:
在这里插入图片描述

2.训练流程

在这里插入图片描述

  • 这里 semantic 是利用音频的 hubert 自编码信息SSL,进入 sovits
    的残差量化层输出的结果,这个特征是包含文本以及音色特征
  • phoneme 特征和berf特征是针对文本的音素特征,类似拼音

3.推理流程

在这里插入图片描述

  • 推理时,phoneme和berf用的是待生成的文本特征
  • semantic 是参考音频生成的编码特征
  • 推理时,以参考音频为起点,基于文本特征,逐次向后预测 semantic编码,直到结束
  • 因此返回的结果相当于两段的拼接,因此直接截取即可

4.调试代码参考

import os,sys
import yaml,torch
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))


from  vof.ar.model.t2s_model import Text2SemanticDecoder
from vof.ar.data.data_module import Text2SemanticDataModule



now_dir   = os.getcwd()
root_dir  = os.path.dirname(now_dir)
prj_name  = 'project01'               # 项目名称
prj_dir   = root_dir + '/res/' + prj_name + '/'

with open(root_dir + '/res/configs/s1longer.yaml') as f:
    data = f.read()
    data = yaml.load(data, Loader=yaml.FullLoader)

s1_dir = prj_dir + 'logs'
os.makedirs("%s/logs_s1" % (s1_dir), exist_ok=True)

data["train"]["batch_size"]                 = 3
data["train"]["epochs"]                     = 15
data["pretrained_s1"]                       = root_dir + '/res/pretrained_models/s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt'
data["train"]["save_every_n_epoch"]         = 5
data["train"]["if_save_every_weights"]      = True
data["train"]["if_save_latest"]             = True
data["train"]["exp_name"]                   = prj_name
data["train"]["half_weights_save_dir"]      = root_dir + '/res/weight/gpt'
data["train_semantic_path"]                 = "%s/6-name2semantic.tsv" % s1_dir
data["train_phoneme_path"]                  = "%s/2-name2text-0.txt" % s1_dir
data["train_bert_path"]                     = "%s/3-bert" % s1_dir
data["output_dir"]                          = "%s/logs_s1" % s1_dir

Text2SemanticDataModule = Text2SemanticDataModule(
        data,
        train_semantic_path = data["train_semantic_path"],
        train_phoneme_path  = data["train_phoneme_path"],
        train_bert_path  = data["train_bert_path"])


Text2SemanticDataModule.setup()
print(Text2SemanticDataModule._train_dataset.__getitem__(0))

"""
phoneme_ids: 文本转换为音素后,继续转换为 音素的编码 对应 name2text
phoneme_ids_len:音素数据长度
semantic_ids:语音编码,对应 name2semantic
semantic_ids_len:语音编码数据长度
bert_feature:bert 文本特征
"""

t2smodel = Text2SemanticDecoder(data)

res = Text2SemanticDataModule._train_dataset.__getitem__(0)
phoneme_ids             = res.get('phoneme_ids')
phoneme_ids_len         = res.get('phoneme_ids_len')
semantic_ids            = res.get('semantic_ids')
semantic_ids_len        = res.get('semantic_ids_len')
bert_feature            = res.get('bert_feature')

# 增加一个batch 维度
x            = torch.LongTensor(phoneme_ids).unsqueeze(0)
x_len        = torch.LongTensor([phoneme_ids_len])
y            = torch.LongTensor(semantic_ids).unsqueeze(0)
y_len        = torch.LongTensor([semantic_ids_len])
bert_feature = bert_feature.unsqueeze(0).float()


t2smodel.forward(x,x_len, y, y_len, bert_feature)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/273042.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

18个惊艳的可视化大屏(第26辑):航空与运输业

hello,我是贝格前端工场老司机,这是第26期了,本次带来可视化大屏在航空与运输业的应用案例,喜欢文章的别忘点赞关注,文章底部也有其他行业的案例。 可视化大屏在航空与运输业中具有以下九大价值: 实时监控…

基于单片机的老人防丢系统设计

目 录 摘 要 I Abstract II 引 言 3 1 系统总体架构 6 1.1方案设计与选择 6 1.2 系统架构设计 6 1.3 系统器件选择 7 2 系统硬件设计 9 2.1 单片机外围电路设计 9 2.2 LCD1602液晶显示电路设计 12 2.3 短信模块电路设计 14 2.4 GPS模块电路设计 14 2.5 电源与按键控制电路设计…

python 基础知识点(蓝桥杯python科目个人复习计划65)

今日复习内容:做题 例题1:遥远的雪国列车 问题描述: 小蓝和小红今天在房间里一起看完了“雪国列车”这部电影,看完之后他们感触颇深,同时他们想到了这样一道题目: 现在有一个数轴,长度为N&a…

yocto系列之针对从git仓库获取源代码编写recipe

回顾 针对借助yocto构建linux 镜像我们已经讲述了7部分, 简单回顾如下: Yocto: 第1部分 - yocto系列之yocto是个什么东东 https://mp.csdn.net/mp_blog/creation/editor/136742286 Yocto: 第2部分 - yocto系列之配置ubuntu主机 https://mp.csdn.net…

2024蓝桥杯每日一题(DFS)

备战2024年蓝桥杯 -- 每日一题 Python大学A组 试题一:奶牛选美 试题二:树的重心 试题三:大臣的差旅费 试题四:扫雷 试题一:奶牛选美 【题目描述】 听说最近两斑点的奶牛最受欢迎,…

2024/3/14打卡棋子(14届蓝桥杯)——差分

标准差分模板 差分——前缀和的逆运算(一维二维)-CSDN博客 题目 小蓝拥有 nn 大小的棋盘,一开始棋盘上全都是白子。 小蓝进行了 m 次操作,每次操作会将棋盘上某个范围内的所有棋子的颜色取反(也就是白色棋子变为黑色&#xff0…

【Godot4.2】任意多边形或折线围绕任意点旋转

概述 在很多绘图软件中,都会有对于任意图形围绕给定的旋转中心旋转的基本操作。本节就基于Godot实现任意多边形(Polygon)或折线(Polyline)绕任意旋转中心(在图形内或外都可以)进行旋转。 基本…

Git 仓库瘦身与 LFS 大文件存储

熟悉 Git 的小伙伴应该都知道随着 Git 仓库维护的时间越来越久,追踪的文件越来越多,git 存储的 objects 数量会极其庞大,每次从远程仓库 git clone 的时候都会墨迹很久。如果我们不小心 git add 了一个体积很大的文件,且 git push…

IT系统可观测性

什么是可观测性 可观测性(Observability)是指能够从系统的外部输出推断出系统内部状态的能力。在IT和云计算领域,它涉及使用软件工具和实践来收集、关联和分析分布式应用程序以及运行这些应用程序的硬件和网络产生的性能数据流。这样做可以更…

2024年发布jar到国外maven中央仓库最新教程

2024年发布jar到国外maven中央仓库最新教程 文章目录 1.国外sonatype仓库的版本1.1老OSSHR账号注册说明1.2新账号注册说明 2.新账号注册(必选)3.新账号登录创建Namespace3.1创建Namespace的名字的格式要求(必选)3.2发布一个静态网站(可选&…

后端工程师快速使用axios

文章目录 01.AJAX 概念和 axios 使用模板目标讲解代码解析案例前端后端结果截图 02.URL 查询参数模板目标讲解案例前端后端结果截图 03.常用请求方法和数据提交模板目标讲解案例前端后端结果截图 04.axios 错误处理模板目标讲解案例前端后端结果截图 01.AJAX 概念和 axios 使用…

旅游管理系统|基于SpringBoot+ Mysql+Java+Tomcat技术的旅游管理系统设计与实现(可运行源码+数据库+设计文档+部署说明+视频演示)

推荐阅读100套最新项目 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 目录 前台功能效果图 用户功能 管理员功能登录前台功能效果图 系统功能设计 数据库E-R图设计 lunwen参考 …

数据的响应式:实现动态数据驱动的技巧

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

弗洛伊德-华沙算法求任意两点之间的最短路径算法

对于弗洛伊德-华沙算法首先是要假设研究的图中是不包含有负边的,对于所给的图中的任意亮点v1,vm,假设两点之间存在一条连通路径,对于该路径中去掉头和尾节点,也就是v1,vm,剩下的节点也就称之为这…

【嵌入式学习收徒,高薪offer等你来!!!】

有粉丝问了一个问题,说他今年要毕业了,投了好多简历都石沉大海,感觉好多公司都不招人了,想问一下现在究竟是不是如此,不清楚我当年毕业的时候是怎么样的。 我先不直接回答这个问题,先来看一组数据&#xf…

Windows11安装Msql8.0版本详细安装步骤!

文章目录 前言一、下载Mysql二、安装Mysql三、登录验证三、环境变量配置总结 前言 每次搭建新环境的时候,都需要网上搜寻安装的步骤教程!为了以后方便查阅!那么本次就记录一下Windows11安装Msql8.0的详细步骤!也希望能帮助到有需…

在浏览器中使用websocket协议

在浏览器中使用websocket协议 浏览器中提供了 WebSocket 类,我们可以直接使用: new WebSocket((url: string | URL, protocols?: string | string[] | undefined))url:指定连接的 URL,只支持 ws、wss 协议,否则会提…

类与对象题目

第一题 该题说明了静态方法不依靠对象访问,所以即使是null也能正常运行,当然正确访问应该是通过类型访问,不应该用null去访问(用null也不会报错,也能使用静态方法)。 第二题 局部变量不允许被static修饰&am…

swagger使用手册

1.导入依赖 <!--引入swagger--><dependency><groupId>io.springfox</groupId><artifactId>springfox-swagger2</artifactId><version>2.7.0</version></dependency><dependency><groupId>io.springfox</…

【DFS深度优先搜索专题】【蓝桥杯备考训练】:迷宫、奶牛选美、树的重心、大臣的旅费、扫雷【已更新完成】

目录 1、迷宫&#xff08;《信息学奥赛一本通》&#xff09; 2、奶牛选美&#xff08;USACO 2011 November Contest Bronze Division&#xff09; 3、树的重心&#xff08;模板&#xff09; 4、大臣的旅费&#xff08;第四届蓝桥杯省赛Java & C A组&#xff09; 5、扫…
最新文章