abstract
- 两级结构:两个masked generate transformer的模型,将一张图量化成固定的离散点,每次mask一部分,剩下的是ground truth,然后去预测mask的部分。
- text2semantic的时长是提前给到的;semantic token来自w2v-bert-2.0;
- acoustic token 的encoder 来自DAC, decoder来自vocos;
- 是MaskGIT 在语音上的实现:把AR 预测token,变成NAR的结构
model arch