当前位置：首页 > article >正文

GPT-SoVITS更新V3 win整合包

article 2025/2/21 23:55:20

GPT-SoVITS 是由社区开发者联合打造的开源语音生成框架，其创新性地融合了GPT语言模型与SoVITS（Singing Voice Inference and Timbre Synthesis）语音合成技术，实现了仅需5秒语音样本即可生成高保真目标音色的突破。该项目凭借其开箱即用的特性，已成为AIGC语音领域的热门工具。

功能：

零样本文本到语音（TTS）： 输入 5 秒的声音样本，即刻体验文本到语音转换。
少样本 TTS： 仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。
跨语言支持： 支持与训练数据集不同语言的推理，目前支持英语、日语、韩语、粤语和中文。
WebUI 工具： 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。

GPT-SoVITS-V3 win整合包下载:

https://pan.quark.cn/s/f3d782bea7ee

GPT-SoVITS-V3新增特点：

训练集增加至7k小时 (MOS分音质过滤、标点停顿校验)
s2结构变更为：shortcut Conditional Flow Matching Diffusion Transformers (shortcut-CFM-DiT)。由于s2占整体延时比例太低，s2变复杂对于整体耗时影响不大。【说人话就是s2变复杂了但训练轮数变少了，整体训练时长不变】s2原理的变更（基于参考音频扩散补全）导致音色相似度大幅提升。由于没用端到端合成，使用了开源的24k的BigVGANv2参数从mel谱得到波形。
s1结构不变，更新了一版参数

	语种主持（可跨语种合成）	GPT训练集时长	SoVITS训练集时长	推理速度	参数量	文本前端	功能
V1（2024年1月发布）	中日英	2k小时	2k小时	baseline	90M+77M	baseline	baseline
V2（2024年8月更新）	中日英韩粤	2.5k小时	vq encoder2k小时，剩余5k小时	翻倍	90M+77M	中日英逻辑均有增强	新增语速调节，无参考文本模式，更好的混合语种切分，音色混合
V3（2025年2月更新）	中日英韩粤	7k小时	vq encoder2k小时，剩余7k小时	约等于v2	330M+77M	不变	大幅增加zero shot相似度；情绪表达、微调性能提升