高效语言模型 Parler-TTS 上线,一键完成文本转语音
Parler-TTS 是一种轻量级的文本转语音 (TTS) 模型,可以生成具有给定说话者风格的高质量、自然语音,自由度及创新性非常高,并且可以通过 Prompt 控制说话者的性别、音色、语调以及所处的场景(室内、室外、马路上、音乐厅等)。
使用云平台:OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
登录到 OpenBayes 平台后,打开「公共教程」,找到「一键部署 Parler-TTS」的教程。
进入到教程界面后,点击右上角「克隆」。
平台在克隆过程中已自动为我们配置好了模型文件,点击「下一步:选择算力」。
平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 RTX 4090 的算力和 PyTorch 的镜像,根据需求选择「按量付费」或者「包日/周/月」,点击「审核并执行」。可以使用文章开头的邀请链接,获得 RTX 4090 使用时长!
确认模型信息无误后,点击「继续执行」。
稍等片刻,待系统分配好资源,状态栏显示为「运行中」后,将鼠标悬停在 API 地址处,点击链接进入模型。进入 API 地址需要先进行实名认证~
进入模型后,我们可以在「Input Text」中输入我们要生成的文本,比如我们输入(All of the data, pre-processing, training code, and weights are released publicly under a permissive license, enabling the community to build on our work and develop their own powerful models.);「Description」中描述语音的风格,我们输入(Laura's voice is monotone yet slightly fast in delivery, with a very close recording that almost has no background noise.);Demo 默认使用的是 Mini 模型,可以勾选「Use Large checkpoint」选择更大的模型。最后点击「Generate Audio」生成。