当前位置：首页 > article >正文

MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer

article 2025/2/22 16:58:33

arxiv
代码实现

abstract

两级结构：两个masked generate transformer的模型，将一张图量化成固定的离散点，每次mask一部分，剩下的是ground truth，然后去预测mask的部分。
text2semantic的时长是提前给到的；semantic token来自w2v-bert-2.0；
acoustic token 的encoder 来自DAC， decoder来自vocos；
是MaskGIT 在语音上的实现：把AR 预测token，变成NAR的结构

model arch

在这里插入图片描述

http://www.kler.cn/a/374777.html

相关文章：

【北京迅为】《STM32MP157开发板嵌入式开发指南》-第六十九章 linux内核移植

JVM整体结构和JMM内存模型

EMR Serverless Spark：一站式全托管湖仓分析利器

JAVA：常见 JSON 库的技术详解

Linux安装部署数据库：PostgreSQL14

【5.5】指针算法-三指针解决颜色分类

插件/贴片沉板 RJ45 网口连接器在网通领域的具体应用

linux下一个应用是如何被执行的

便携剃须刀性能王者，小但专业，未野MAX SE剃须刀测评

Arduino 74HC595芯片引脚拓展使用详解

使用 python中 pandas 将 Excel 转换为 CSV 文件

无人机3D模拟训练飞行技术详解

springboot导出pdf,解决中文问题

在 Android 设备上部署一个 LLM（大语言模型）并通过 Binder 通信提供服务

Java 字符流详解

Zoho Desk系统解锁工单自动化分配效率翻倍

ffmpeg拉流分段存储到文件-笔记

SC5120家庭总线收发器可pin to pin兼容MAX22088

WAF+AI结合，雷池社区版的强大防守能力

scp免密传输教程