当前位置：首页 > article >正文

使用 Lhotse 高效管理音频数据集

article 2024/11/16 2:45:08

Lhotse 是一个旨在使语音和音频数据准备更具灵活性和可访问性的 Python 库，它与 k2 一起，构成了下一代 Kaldi 语音处理库的一部分。

主要目标：

1. 以 Python 为中心的设计吸引更广泛的社区参与语音处理任务。

2. 为有经验的 Kaldi 用户提供富有表现力的命令行接口。

3. 为常用的语料库提供标准的数据准备方案。

4. 为与语音和音频相关的任务提供 PyTorch 数据集类。

5. 通过音频剪辑的概念实现模型训练中的灵活数据准备。

6. 提高效率，特别是在 I/O 带宽和存储容量方面。

使用 Lhotse 对数据集结构化抽象、存储和转换成 PyTorch 数据管道，可以很方便实现语音识别和语音合成工程项目。

无论是音频大文件和小文件，都可以使用 cut 来有效表达：

Lhotse 支持了近百个数据集，开箱即用，新的数据集可参考这些例子来完成。

操作数据集也很方便

很方便地与 PyTorch 集成

Lhotse 的可扩展性

除了文本与语音信息外，Lhotse 还可以 custom 许多信息：强制对齐、duration、pitch 等，可以方便地支持多种语音任务。

对于特征抽取的存储，Lhotse 的写入效率会随着文件大小逐渐变慢，必要的时候需要 CutSet.split 成多个 JOB 执行来提高效率。

此外，尽管 Lhotse 提供了命令行工具，但缺乏 web 工具去分析数据集、样例数据。

依赖 Lhotse 的项目

https://github.com/k2-fsa/icefall
https://github.com/lifeiteng/vall-e

参考资料：

https://lhotse.readthedocs.io/en/latest/index.html
Slides for the Interspeech 2023 tutorial
- https://github.com/k2-fsa/icefall/issues/1230

查看全文

http://www.kler.cn/a/147823.html

FBX福币交易所恒指收跌1.96% 半导体股继续回调

Python中的HTML

服务jar包增加高斯数据库驱动jar包

SQL面试题——蚂蚁SQL面试题会话分组问题

三周精通FastAPI：37 包含 WSGI - Flask，Django，Pyramid 以及其它

JavaSecLab靶场搭建

vue3+ts 依赖注入 provide inject

Vue3中调用外部iframe链接方法

6.一维数组——用冒泡法，选择法将5个整数由大到小排序

DBeaver连接MySQL提示“Public Key Retrieval is not allowed“问题解决方式

UE使用C++通过定时器启用和停用Tick

Vue3水印（Watermark）

linux防火墙免费版添加UA屏蔽某些垃圾蜘蛛

linux 内核线程

dpkg、apt、rpm、yum、dnf使用

css优化滚动条样式

【Kotlin】类与接口

vue3 终端实现（vue3+xterm+websocket）

ubuntu 安装python3.13

React自定义 Hook

人工智能-优化算法和深度学习

Android Studio导入项目一直显示正在下载Gradle项目

将图像的rgb数据转成DICOM医学图像格式

Git介绍和基础命令解析

玩转微服务-技术篇-JSDOC教程

nvm安装以及解决踩坑

相关文章：