当前位置: 首页 > article >正文

MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer

  • arxiv
  • 代码实现

abstract

  • 两级结构:两个masked generate transformer的模型,将一张图量化成固定的离散点,每次mask一部分,剩下的是ground truth,然后去预测mask的部分。
  • text2semantic的时长是提前给到的;semantic token来自w2v-bert-2.0;
  • acoustic token 的encoder 来自DAC, decoder来自vocos;
  • 是MaskGIT 在语音上的实现:把AR 预测token,变成NAR的结构

model arch

在这里插入图片描述
在这里插入图片描述


http://www.kler.cn/a/374777.html

相关文章:

  • c++/qt连接阿里云视觉智能开发平台
  • 医疗器械设备语音ic芯片方案-选型大全
  • 每日新闻掌握【2024年10月24日 星期四】
  • Golang | Leetcode Golang题解之第515题在每个树行中找最大值
  • 芯片校正LDO电压
  • NVR批量管理软件/平台EasyNVR多个NVR同时管理支持视频投放在电视墙上
  • 【北京迅为】《STM32MP157开发板嵌入式开发指南》-第六十九章 linux内核移植
  • JVM整体结构和JMM内存模型
  • EMR Serverless Spark:一站式全托管湖仓分析利器
  • JAVA:常见 JSON 库的技术详解
  • Linux安装部署数据库:PostgreSQL14
  • 【5.5】指针算法-三指针解决颜色分类
  • 插件/贴片沉板 RJ45 网口连接器在网通领域的具体应用
  • linux下一个应用是如何被执行的
  • 便携剃须刀性能王者,小但专业,未野MAX SE剃须刀测评
  • Arduino 74HC595芯片引脚拓展使用详解
  • 使用 python中 pandas 将 Excel 转换为 CSV 文件
  • 无人机3D模拟训练飞行技术详解
  • springboot导出pdf,解决中文问题
  • 在 Android 设备上部署一个 LLM(大语言模型)并通过 Binder 通信提供服务
  • Java 字符流详解
  • Zoho Desk系统解锁工单自动化 分配效率翻倍
  • ffmpeg拉流分段存储到文件-笔记
  • SC5120家庭总线收发器可pin to pin兼容MAX22088
  • WAF+AI结合,雷池社区版的强大防守能力
  • scp免密传输教程