当前位置: 首页 > article >正文

NCMMSC-CNVSRC 2024视觉语音识别竞赛圆满落幕

8月16日上午,NCMMSC-CNVSRC 2024 学术研讨会在乌鲁木齐召开的第十九届全国人机语音通讯学术会议(NCMMSC 2024)上举行。会上公布了本次视觉语音识别竞赛 CNVSRC 2024 的最终结果,并举行了颁奖仪式。

本次竞赛由 NCMMSC 2024 组委会发起,清华大学、北京邮电大学、海天瑞声和语音之家联合主办。竞赛旨在检验当前视觉语音识别(或称唇语识别)技术在中文大词表连续识别场景下的表现。

本次竞赛吸引了45支海内外队伍参赛,历经近三个月的角逐,西北工业大学、内蒙古大学、武汉大学等队伍表现突出,名列前茅。详细赛事结果及报告视频将发布在竞赛官网,敬请关注:CN-Celeb 

CNVSRC 2024 排行榜

T1 Single-speaker VSR - Fixed Track 赛道
1T237 西北工业大学 FlySpeech
2T244 内蒙古大学 Dream Boy
T1 Single-speaker VSR - Open Track 赛道
1匿名提交
2T237 西北工业大学 FlySpeech
T2 Multi-speaker VSR - Fixed Track 赛道
1T237 西北工业大学 FlySpeech
2匿名提交
3T244 内蒙古大学 Dream Boy
T2 Multi-speaker VSR - Open Track 赛道
1T237 西北工业大学 FlySpeech
2匿名提交
3T405 武汉大学 Sophin

本次研讨会由清华大学王东教授主持。海天瑞声CMO王潇蔓女士和语音之家创始人兼CEO卜辉先生为获奖团队颁奖。北京邮电大学刘泽华同学分享了基线系统与技术报告,三支优秀参赛队伍代表还受邀分享了他们的技术方案和赛事经验。

图片

清华大学王东教授主持技术交流会

图片

海天瑞声CMO王潇蔓致辞并主持颁奖

图片

语音之家创始人兼CEO卜辉致辞并主持颁奖

图片

北京邮电大学刘泽华同学分享基线系统与技术报告

图片

西北工业大学、内蒙古大学、武汉大学团队代表领奖

图片

西北工业大学团队代表技术分享

图片

内蒙古大学团队代表线上技术分享

图片

武汉大学团队代表线上技术分享

图片

图片

CNVSRC 2024 组委会成员

图片

视觉语音识别

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了 CN-CVS 数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能,并于同年举办了 CNVSRC 2023 竞赛[2],推动了唇语识别在中文领域的进展。

为了进一步推动这一研究方向,清华大学联合北京邮电大学、海天瑞声和语音之家在 NCMMSC 2024 继续举办了中文连续视觉语音识别挑战赛 (Chinese Continuous Visual Speech Recognition Challenge 2024, CNVSRC 2024)。本次竞赛中,许多参赛队伍在唇语识别任务上实现了系统性能的显著提升,其中最佳成绩相较于基线系统提升了超过30%。此外,与 CNVSRC 2023 相比,2024年各赛道的成绩均有明显进步。各支参赛队伍提出了诸多创新方案,为中文大词表连续视觉语音识别研究提供了新的思路和方法。

[1]  C. Chen, D. Wang, T.F. Zheng, CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech Synthesis, ICASSP, 2023.

[2] C. Chen, Z. Liu, X. Li, L. Li, D. Wang, CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge, INTERSPEECH, 2024.


http://www.kler.cn/a/286986.html

相关文章:

  • 在工作中,这些问题,你是不是已经忍了很久?
  • 制作 Docker 镜像
  • 基于LangChain手工测试用例转Web自动化测试生成工具
  • 百度 Android 开发面试题(2024版)
  • Https 加密原理
  • CSS系列之Float浮动(二)
  • 【HarmonyOS】模仿个人中心头像图片,调用系统相机拍照,从系统相册选择图片和圆形裁剪显示 (一)
  • 【3.5】贪心算法-解优势洗牌(类田忌赛马问题)
  • 【R语言速通】1.数据类型
  • python-读写Excel:xlwings库操作
  • arcgis js api加载4490服务,以basetilelayer方式
  • CAD如何批量输出PDF?介绍了三种方式
  • HTML 实现炫酷选项卡效果
  • 大道至简 以量取胜
  • 第十五章 rust中进行windows系统开发
  • 北京市公共资源交易中心到访隆道调研交流
  • 封装_私有类字段和方法
  • LabVIEW与Python联合图像处理
  • [知识分享]华为铁三角工作法
  • 交换机攻击了解