当前位置：首页 > article >正文

高效语言模型 Parler-TTS 上线，一键完成文本转语音

article 2025/2/22 2:07:53

Parler-TTS 是一种轻量级的文本转语音 (TTS) 模型，可以生成具有给定说话者风格的高质量、自然语音，自由度及创新性非常高，并且可以通过 Prompt 控制说话者的性别、音色、语调以及所处的场景（室内、室外、马路上、音乐厅等）。
使用云平台：OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
登录到 OpenBayes 平台后，打开「公共教程」，找到「一键部署 Parler-TTS」的教程。

进入到教程界面后，点击右上角「克隆」。

平台在克隆过程中已自动为我们配置好了模型文件，点击「下一步：选择算力」。

平台会自动选择合适的算力资源和镜像版本，这里使用的是英伟达 RTX 4090 的算力和 PyTorch 的镜像，根据需求选择「按量付费」或者「包日/周/月」，点击「审核并执行」。可以使用文章开头的邀请链接，获得 RTX 4090 使用时长！

确认模型信息无误后，点击「继续执行」。

稍等片刻，待系统分配好资源，状态栏显示为「运行中」后，将鼠标悬停在 API 地址处，点击链接进入模型。进入 API 地址需要先进行实名认证~

进入模型后，我们可以在「Input Text」中输入我们要生成的文本，比如我们输入(All of the data, pre-processing, training code, and weights are released publicly under a permissive license, enabling the community to build on our work and develop their own powerful models.)；「Description」中描述语音的风格，我们输入(Laura's voice is monotone yet slightly fast in delivery, with a very close recording that almost has no background noise.)；Demo 默认使用的是 Mini 模型，可以勾选「Use Large checkpoint」选择更大的模型。最后点击「Generate Audio」生成。