当前位置: 首页 > article >正文

【文献阅读】基于原型的自适应方法增强未见到的构音障碍者的语音识别

基于原型的自适应方法增强未见到的构音障碍者的语音识别

文献原文链接

https://www.isca-archive.org/interspeech_2024/wang24x_interspeech.pdf

引言

构音障碍是一种由神经系统疾病或肌肉异常引起的言语障碍,影响了个体清晰发音的能力。这种情况常伴随脑瘫、帕金森病和头部创伤等疾病。对于受影响的人来说,由于其有限的运动能力,语音是与设备互动的最方便手段。然而,传统的语音识别系统难以处理构音障碍者的语音,因为其显著偏离了典型的语音模式。

传统的说话人自适应方法涉及对每个说话人进行微调,但由于高成本和用户的不便,这些方法不可行。为了解决这个问题,作者提出了一种基于原型的方法,以在无需额外微调的情况下提升未见到的构音障碍者的语音识别性能。

HuBERT

HuBERT(Hidden-Unit BERT)是一个预训练的自监督语音模型,旨在从大量的无标签语音数据中学习有效的表达。它通过预测隐藏单元来学习语音特征,这些隐藏单元是通过对语音信


http://www.kler.cn/a/315597.html

相关文章:

  • 【linux】centos7 换阿里云源
  • 【AI构思渲染】网络直播——建筑绘图大模型生成渲染图
  • [JAVAEE] 面试题(四) - 多线程下使用ArrayList涉及到的线程安全问题及解决
  • CTF攻防世界小白刷题自学笔记13
  • 【QT常用技术讲解】优化网络链接不上导致qt、qml界面卡顿的问题
  • 【大数据学习 | flume】flume的概述与组件的介绍
  • 分布式消息中间件kafka
  • Google深度学习的图像生成大模型Imagen
  • Java接口和抽象类的区别
  • calibre-web报错:File type isn‘t allowed to be uploaded to this server
  • Ubuntu20.04配置NVIDIA+CUDA12.2+CUDNN【附所有下载资源】【亲测有效】【非常详细】
  • 设计模式-依赖注入
  • Mac剪贴板历史全记录!
  • 单片机的信号线都需要差分布放吗?
  • turtle实现贪吃蛇小游戏
  • 【鼠标滚轮专用芯片】KTH57913D 霍尔位置传感器
  • 面试题(二)
  • 大学生请码住!分享10款AI论文工具搞定论文开题到答辩全过程!
  • 动态路由---OSPF协议基础
  • 【时时三省】(C语言基础)指针笔试题3
  • 配置实验用的 Rocky Linux
  • World of Warcraft [CLASSIC] International translation bug
  • 常见单片机
  • Java中stream流及Collectors的常见用法详细汇总!!!
  • 掌握回流与重绘面试回答:优化网页加载与响应速度
  • 前后端分离的情况下,后端接口有必要加CSP策略吗?