flow-matching based TTS : VoiceBox, E2-TTS, maskGCT
文章目录
- VoiceBox
- abstract
- method
- E2 TTS
- method
- extension of method
- results
VoiceBox
- Meta
- 2023.10
- demo page
abstract
- 用于音频编辑,降噪,ero-shot TTS,风格迁移等多种生成任务;
- 和vall-E对比,WER更低 (5.9% vs 1.9%),spk simi 相当(0.580 vs 0.681),速度快20x,
method
- 使用MFA以及G2P,得到frame-level phone,和mel 对齐;
E2 TTS
- microsoft
- 2024.9
method
stage | condition_1 | condition_2 | target |
---|---|---|---|
train | [text, filled token],长度和mel等长 | masked mel | 预测被mask的mel |
infer | [prompt_text, target_text, filled token] | prompt_mel | 预测target text对应的mel |
extension of method
- motivation:不需要对prompt audio的音频进行转录文本
stage | condition_1 | condition_2 | target |
---|---|---|---|
train | [text of masked region, filled token],长度和mel等长 | prompt mel | 预测给定文本的mel |
infer | [target_text, filled token] | prompt_mel | 预测target text对应的mel |
- motivation:因为用的是character,需要对一些文本的发音进行特殊控制;
- 部分字随机替换为g2p 的结果