当前位置: 首页 > article >正文

语音识别的预训练模型

语音识别的预训练模型

语音识别模型

大致分为两类:

  1. 连接时序分类(Connectionist Temporal Classification, CTC):仅编码器(encoder-only)的模型,顶部带有线性分类(CTC)头
  2. 序列到序列(Sequence-to-sequence, Seq2Seq):编码器-解码器(encoder-decoder)模型,编码器和解码器之间带有交叉注意力机制

在 2022 年之前,CTC 是这两种架构中更受欢迎的一种,以 encoder-only 模型为主,例如 Wav2Vec2HuBERTXLSR 在语音的预训练/微调范式中取得了突破。 大公司如 Meta 和 Microsoft 在大量无标签音频数据上对编码器进行了多天甚至数周的预训练。 用户采用一个预训练的检查点,并在少至 10 分钟的有标注的语音数据上进行微调,就可以在下游语音识别任务中取得强大的性能。

然而,CTC 模型也有其缺点。在编码器上附加一个简单的线性层可以得到一个小巧、快速


http://www.kler.cn/a/506039.html

相关文章:

  • 2Spark Core
  • Life Long Learning(李宏毅)机器学习 2023 Spring HW14 (Boss Baseline)
  • 【Sql递归查询】Mysql、Oracle、SQL Server、PostgreSQL 实现递归查询的区别与案例(详解)
  • Oracle 使用dbms_stats.gather_table_stats来进行表analyse,收集表统计信息
  • 【Vim Masterclass 笔记13】第 7 章:Vim 核心操作之——文本对象与宏操作 + S07L28:Vim 文本对象
  • STM32 FreeRTOS 的任务挂起与恢复以及查看任务状态
  • 初始Java5
  • 49.字母异位词
  • 单芯片控制多个高性能伺服电机
  • 【Linux】多路转接select
  • PyTorch使用教程(1)—PyTorch简介
  • MongoDB 学习建模与设计思路--统计数据更新案例
  • Ubuntu本地部署网站
  • 实现小球不断往下滚动
  • LabVIEW实现油浸式变压器自主监测与实时报告
  • tplink rt406路由器如何配置端口映射
  • 人脸识别SDK(Android)之Github示例及集成详解
  • C语言初阶习题【29】杨氏矩阵
  • 代码随想录算法训练营day30
  • python爬虫根据需要查找某个链接并保存
  • 阿里云 EMR 发布托管弹性伸缩功能,支持自动调整集群大小,最高降本60%
  • 如何解决 XGBoost 控制台警告:版本不一致导致的模型加载问题
  • day10_Structured Steaming
  • 【MATLAB代码】CV和CA模型组成的IMM(滤波方式为UKF),可复制粘贴源代码
  • 神经网络常见操作(卷积)输入输出
  • 【微服务】SpringBoot 通用异常处理方案使用详解