当前位置: 首页 > article >正文

语音识别学习笔记

目录

开源的语音识别项目

端到端的多说话人语音识别序列化训练方法简介

新一代 Kaldi: Two-pass 实时语音识别


开源的语音识别项目

有哪些语音识别的开源项目? - 知乎

端到端的多说话人语音识别序列化训练方法简介

端到端的多说话人语音识别序列化训练方法简介 - 知乎

2.2 基于排列不变性训练Permutation Invariant Training (PIT)的多说话人语音识别
所谓排列不变性训练是在AED的基础之上,添加多个output分支(通常支持几个人就有几个分支),文本序列和输出序列经过排列组合,两两计算损失,如图1(b)所示。

2.3 基于SOT的多说话人语音识别
SOT方法网络结构与AED完全相同,只有一个output分支,不同的是标签序列化方式。SOT引入了一个新标签speaker change<sc>,用于标记上下文中说话人的改变,如图1(c,d)所示,标签的生成可以简单的以说话人出现的顺序作为依据,依次序列化,碰到说话人切换就添加一个<sc>特殊标签,损失依然采用交叉熵。这样一个output就能输出多个说话人识别结果,实现简单,效果提升明显。

新一代 Kaldi: Two-pass 实时语音识别

2nd-pass: 使用一个非流式模型。当 1st-pass 检测到一个 endpoint 之后,把上一个 segment 的音频送给非流式模型解码,然后把结果做为这个 segment 最终的结果.

Two-pass 既可以结合流式模型延迟小的优点,又可以利用非流式模型识别率高的优点。

新一代 Kaldi: Two-pass 实时语音识别 - 知乎


http://www.kler.cn/a/146853.html

相关文章:

  • 什么是 C++ 中的友元函数和友元类?友元的作用是什么?有什么注意事项?
  • 【计算机网络安全】湖北大学-mysql事务隔离性实验
  • 【微服务】Spring AI 使用详解
  • ubuntu24.04网卡配置
  • HTML and CSS Support HTML 和 CSS 支持
  • 自动化运维-检测Linux服务器CPU、内存、负载、IO读写、机房带宽和服务器类型等信息脚本
  • 【云备份】数据管理模块
  • 【MyBatisPlus】通俗易懂 快速入门 详细教程
  • 代码随想录算法训练营第五十七天|739. 每日温度、496.下一个更大元素 I
  • java学习part13Object类和常用方法
  • C#中的事件(委托的发布和订阅、事件的发布和订阅、EventHandler类、Windows事件)
  • scoop bucket qq脚本分析(qq绿色安装包制作)
  • UDP客户端使用connect与UDP服务器使用send函数和recv函数收发数据
  • 蚂蚁庄园小课堂答题今日答案最新
  • 【腾讯云云上实验室】用向量数据库—实践相亲社交应用
  • 数据结构 | TOP-K问题
  • Linux安装Tesseract-OCR(操作系统CentOS)
  • H3C网络管理系统任意文件读取漏洞复现 [附POC]
  • 线性分类器--图像表示
  • 网易云音频数据如何爬取?
  • 通俗易懂的spring Cloud;业务场景介绍 二、Spring Cloud核心组件:Eureka 、Feign、Ribbon、Hystrix、zuul
  • MATLAB中FFT频谱分析使用详解
  • Mysql之局域网内不同ip互登陆mysql
  • SpringBoot yml配置文件打印值
  • 【iOS-UIImagePickerController访问相机和相册】
  • 微服务Dubbo