我的AI工具箱Tauri版-通用音频转文本
本模块支持FunAsr和FasterWhisper两种模式,可批量处理音频与视频文件,自动生成txt文本与srt字幕,满足多种应用场景需求。 工具内置FunAsr,无需额外参数调整,特别适用于中文语音的高质量转录,确保识别准确率与自然流畅度。而FasterWhisper作为Whisper的升级版本,不仅提升了处理速度,还支持多语言转录,用户可灵活调整参数,以适应更复杂的应用需求。
该工具支持批量处理模式,可快速转换整个目录下的多个音视频文件,大幅提升工作效率。简洁直观的界面配合强大的语音识别技术,使用户能够轻松完成转录任务,广泛适用于字幕制作、内容存档、语音笔记等场景,为多媒体创作和信息处理提供便捷支持。
文章目录
- 操作使用
- 文件配置
- 参数配置
- 应用示例
- 开发与应用
操作使用
进入软件后可以直接搜索 通用音频转文本
进入该模块。
文件配置
功能按钮 | 功能类别 | 功能描述 |
---|---|---|
选择音频/视频目录 | 目录选择 | 选择需转换的文件目录,仅支持音频和视频类型文件,执行任务前自动校验路径有效性。 |
输出路径 | 目录选择 | 设置音频文件的保存位置,默认使用系统设定的统一输出路径,并自动校验路径有效性。 |
文本转语音方式 | 模式选择 | 选择转录模式(FunAsr或FasterWhisper)进行音频/视频转录。 |
参数配置
FunAsr音频转录参数设置
选项 | 参数选择模式 | 说明 |
---|---|---|
damo模型目录 | 默认配置 | 需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩 |
icc模型目录 | 默认配置 | 需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩 |
FasterWhisper音频转录参数设置
🚨此转换模式需要有显卡能够进行进行操作,否则会很慢。🚨
选项 | 参数选择模式 | 说明 |
---|---|---|
模型目录 | 默认配置 | 需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩 |
计算方式 | 下拉选择 | 选择计算精度(如 16 位整数) |
CPU 线程 | 下拉选择 | 设置用于计算的 CPU 线程数量(如 4 线程) |
工作线程 | 下拉选择 | 设置后台工作的线程数量(如 8 个) |
语言选择 | 下拉选择 | 选择识别语言(如中文 简体) |
语音活动检测 | 开关 | 启用或禁用语音活动检测功能 |
语音检测强度 | 滑动条 | 设置语音活动检测的敏感度(如 3%) |
前后填充时间 | 滑动条 | 设置语音处理的前后填充时间(如 56ms) |
最短持续时间 | 滑动条 | 设置语音片段的最短持续时间(如 33ms) |
最短静音时间 | 滑动条 | 设置识别过程中最短的静音间隔(如 78ms) |
应用示例
这里以选择目录下有各种音频和视频文件,在选择目录后选择转录方式,这里选择FunAsr模型,在保证已经从网盘中下载好模型之后直接执行即可。
执行完成之后会在输入目录下看到生成的音频文件。
开发与应用
软件使用以及综合参考资料内容可以查阅
文章链接 | 内容描述 |
---|---|
《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 | 图形桌面工具使用教程,详细介绍 Tauri+Django 环境的开发方法,支持局域网部署与使用。 |
《我的AI工具箱Tauri+Django常见错误与解决办法》 | 常见错误与解决办法,针对 Tauri+Django 环境下可能遇到的问题提供实用的解决方案。 |
《我的AI工具箱Tauri+Django内容生产介绍和使用》 | 包含当前主流新媒体领域常用的音频、视频剪辑,以及内容一键生产功能。 |
《ComfyUI使用教程、开发指导、资源下载》 | 工作流相关内容讲解,涵盖文件管理、文件汇总、软件使用教程及开发指导,附带模型下载资源。 |