当前位置: 首页 > article >正文

使用 Lhotse 高效管理音频数据集

Lhotse 是一个旨在使语音和音频数据准备更具灵活性和可访问性的 Python 库,它与 k2 一起,构成了下一代 Kaldi 语音处理库的一部分。

主要目标:

1. 以 Python 为中心的设计吸引更广泛的社区参与语音处理任务。

2. 为有经验的 Kaldi 用户提供富有表现力的命令行接口。

3. 为常用的语料库提供标准的数据准备方案。

4. 为与语音和音频相关的任务提供 PyTorch 数据集类。

5. 通过音频剪辑的概念实现模型训练中的灵活数据准备。

6. 提高效率,特别是在 I/O 带宽和存储容量方面。

使用 Lhotse 对数据集结构化抽象、存储和转换成 PyTorch 数据管道,可以很方便实现语音识别和语音合成工程项目。

图片

无论是音频大文件和小文件,都可以使用 cut 来有效表达:

图片

图片

图片

图片

图片

Lhotse 支持了近百个数据集,开箱即用,新的数据集可参考这些例子来完成。

图片

图片

图片

操作数据集也很方便

图片

图片

很方便地与 PyTorch 集成

图片

图片

图片

Lhotse 的可扩展性

图片

图片

图片

图片

图片

除了文本与语音信息外,Lhotse 还可以 custom 许多信息:强制对齐、duration、pitch 等,可以方便地支持多种语音任务。

对于特征抽取的存储,Lhotse 的写入效率会随着文件大小逐渐变慢,必要的时候需要 CutSet.split 成多个 JOB 执行来提高效率。 

此外,尽管 Lhotse 提供了命令行工具,但缺乏 web 工具去分析数据集、样例数据。

依赖 Lhotse 的项目

  • https://github.com/k2-fsa/icefall

  • https://github.com/lifeiteng/vall-e

参考资料:

  • https://lhotse.readthedocs.io/en/latest/index.html

  • Slides for the Interspeech 2023 tutorial

    • https://github.com/k2-fsa/icefall/issues/1230


http://www.kler.cn/a/147823.html

相关文章:

  • FBX福币交易所恒指收跌1.96% 半导体股继续回调
  • Python中的HTML
  • 服务jar包增加高斯数据库驱动jar包
  • SQL面试题——蚂蚁SQL面试题 会话分组问题
  • 三周精通FastAPI:37 包含 WSGI - Flask,Django,Pyramid 以及其它
  • JavaSecLab靶场搭建
  • vue3+ts 依赖注入 provide inject
  • Vue3中调用外部iframe链接方法
  • 6.一维数组——用冒泡法,选择法将5个整数由大到小排序
  • DBeaver连接MySQL提示“Public Key Retrieval is not allowed“问题解决方式
  • UE使用C++通过定时器启用和停用Tick
  • Vue3水印(Watermark)
  • linux防火墙免费版添加UA屏蔽某些垃圾蜘蛛
  • linux 内核线程
  • dpkg、apt、rpm、yum、dnf使用
  • css优化滚动条样式
  • 【Kotlin】类与接口
  • vue3 终端实现 (vue3+xterm+websocket)
  • ubuntu 安装python3.13
  • React自定义 Hook
  • 人工智能-优化算法和深度学习
  • Android Studio导入项目一直显示正在下载Gradle项目
  • 将图像的rgb数据转成DICOM医学图像格式
  • Git介绍和基础命令解析
  • 玩转微服务-技术篇-JSDOC教程
  • nvm安装以及解决踩坑