Pytorch使用手册—使用TACOTRON2进行文本到语音转换(专题二十四)
一、概述
本教程展示了如何使用torchaudio中的预训练Tacotron2构建文本到语音的管道。
文本到语音的管道流程如下:
-
文本预处理
首先,输入的文本被编码为一系列符号。在本教程中,我们将使用英语字符和音标作为符号。 -
谱图生成
从编码后的文本中生成谱图。我们使用Tacotron2模型来完成这一步。
3.时域转换
最后一步是将谱图转换为波形。从谱图生成语音的过程也称为Vocder(声码器)。在本教程中,我们使用了三种不同的声码器:WaveRNN、GriffinLim和Nvidia的WaveGlow。
下图展示了整个过程。
所有相关组件都被打包在 torchaudio.pipelines.Tacotron2TTSBundle
中,但本教程还将涵盖其内部的处理过程。
二、准备工作
首先,我们安装必要的依赖项。除了 torchaudio
,还需要安装 DeepPhonemizer
以执行基于音标的编码。