当前位置: 首页 > article >正文

我的AI工具箱Tauri版-通用音频转文本

本模块支持FunAsrFasterWhisper两种模式,可批量处理音频视频文件,自动生成txt文本srt字幕,满足多种应用场景需求。 工具内置FunAsr,无需额外参数调整,特别适用于中文语音的高质量转录,确保识别准确率与自然流畅度。而FasterWhisper作为Whisper的升级版本,不仅提升了处理速度,还支持多语言转录,用户可灵活调整参数,以适应更复杂的应用需求。

该工具支持批量处理模式,可快速转换整个目录下的多个音视频文件,大幅提升工作效率。简洁直观的界面配合强大的语音识别技术,使用户能够轻松完成转录任务,广泛适用于字幕制作、内容存档、语音笔记等场景,为多媒体创作信息处理提供便捷支持。

文章目录

  • 操作使用
    • 文件配置
    • 参数配置
  • 应用示例
  • 开发与应用

操作使用

进入软件后可以直接搜索 通用音频转文本 进入该模块。

在这里插入图片描述

文件配置

功能按钮功能类别功能描述
选择音频/视频目录目录选择选择需转换的文件目录,仅支持音频和视频类型文件,执行任务前自动校验路径有效性。
输出路径目录选择设置音频文件的保存位置,默认使用系统设定的统一输出路径,并自动校验路径有效性。
文本转语音方式模式选择选择转录模式(FunAsr或FasterWhisper)进行音频/视频转录。

在这里插入图片描述

参数配置

FunAsr音频转录参数设置

选项参数选择模式说明
damo模型目录默认配置需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩
icc模型目录默认配置需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩

在这里插入图片描述

FasterWhisper音频转录参数设置

🚨此转换模式需要有显卡能够进行进行操作,否则会很慢。🚨

选项参数选择模式说明
模型目录默认配置需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩
计算方式下拉选择选择计算精度(如 16 位整数)
CPU 线程下拉选择设置用于计算的 CPU 线程数量(如 4 线程)
工作线程下拉选择设置后台工作的线程数量(如 8 个)
语言选择下拉选择选择识别语言(如中文 简体)
语音活动检测开关启用或禁用语音活动检测功能
语音检测强度滑动条设置语音活动检测的敏感度(如 3%)
前后填充时间滑动条设置语音处理的前后填充时间(如 56ms)
最短持续时间滑动条设置语音片段的最短持续时间(如 33ms)
最短静音时间滑动条设置识别过程中最短的静音间隔(如 78ms)

在这里插入图片描述

应用示例

这里以选择目录下有各种音频和视频文件,在选择目录后选择转录方式,这里选择FunAsr模型,在保证已经从网盘中下载好模型之后直接执行即可。

在这里插入图片描述

执行完成之后会在输入目录下看到生成的音频文件。

在这里插入图片描述

开发与应用

软件使用以及综合参考资料内容可以查阅

文章链接内容描述
《我的AI工具箱Tauri+Django环境开发,支持局域网使用》图形桌面工具使用教程,详细介绍 Tauri+Django 环境的开发方法,支持局域网部署与使用。
《我的AI工具箱Tauri+Django常见错误与解决办法》常见错误与解决办法,针对 Tauri+Django 环境下可能遇到的问题提供实用的解决方案。
《我的AI工具箱Tauri+Django内容生产介绍和使用》包含当前主流新媒体领域常用的音频、视频剪辑,以及内容一键生产功能。
《ComfyUI使用教程、开发指导、资源下载》工作流相关内容讲解,涵盖文件管理、文件汇总、软件使用教程及开发指导,附带模型下载资源。

http://www.kler.cn/a/571736.html

相关文章:

  • JavaWeb后端基础(4)
  • Rust~String、str、str、String、Box<str> 或 Box<str>
  • FastGPT 引申:常见 Rerank 实现方案
  • 知识篇 | 低代码开发(Low-Code Development)是个什么东东?
  • 第40天:安全开发-JavaEE应用SpringBoot框架JWT身份鉴权打包部署JARWAR
  • Stiring-PDF:开源免费的PDF文件处理软件
  • Vue路由器的工作模式
  • PPT 小黑第34套
  • Metal学习笔记目录
  • DFT之SSN架构
  • 备赛蓝桥杯之第十五届职业院校组省赛第五题:悠然画境
  • 医疗AR眼镜:FPC如何赋能科技医疗的未来之眼?【新立电子】
  • 神经网络:AI的网络神经
  • P8692 [蓝桥杯 2019 国 C] 数正方形--输出取模余数
  • DeepSeek DeepEP学习(一)low latency dispatch
  • Scaling Laws(缩放法则)详解
  • lamp平台介绍
  • 记录uniapp小程序对接腾讯IM即时通讯无ui集成(2)
  • 【损失函数(目标函数)在深度学习中的作用】
  • Opencv 直方图与模板匹配