开源离线语音识别输入工具CapsWriter v1.0——支持无限时长语音、音视频文件转录字幕。
分享一款开源离线语音识别输入工具,支持无限时长语音、音视频文件转录字幕。
软件简介:
CapsWriter是一款免费开源且可完全离线识别的语音输入工具,无需担心因在线版本识别带来的各种隐私泄露问题。支持win7及以上的系统,已经更新融合了语音输入以及音视频文件实现字幕转录的功能。
软件特性:
1.完全离线、无限时长、低延迟、高准确率、中英混输、自动阿拉伯数字、自动调整中英间隔。
2.热词功能:可以在 hot-en.txthot-zh.txt hot-rule.txt 中添加三种热词,客户端动态识别载入。
3.日记功能:默认每次录音识别后,识别结果记录在 年份/月份/日期.md ,录音文件保存在 年份/月份/assets。
4.关键词日记:识别结果若以关键词开头,会被记录在 年份/月份/关键词-日期.md,关键词在 keywords.txt 中定义。
5.转录功能:将音视频文件拖动到客户端打开,即可转录生成 srt 字幕、txt文本等等。
6.服务端、客户端分离,可以服务多台客户端。
软件使用:
根据系统环境解压后,将两个模型文件夹 paraformer-offline-zh 和 punc_ct-transformer_cn-en 放到软件根目录的 models 文件夹中。然后运行根目录的服务端start_server.exe,等待模型加载完成。最后双击运行start_client.exe客户端。
默认长按键盘上的大写锁定键Capslock,录音开始,当松开大写锁定键 时,就会识别录音,并将识别结果立刻输入到带有输入框的地方。相关识别到的录音和日志默认放在根目录下的文件夹里,不需要或重录时记得及时清理。如需要更改触发按键、单击录音单击停止或端口修改等设置,可自行用记事本等文本编辑工具打开config.py文件进行修改,每一栏都有详细的注释说明。
可将音视频文件拖动到客户端中打开,等待处理即可。但转录字幕功能必须在服务端加载完模型并保持后台运行的情况下才可使用,否则会出现闪退不工作等问题。默认转录之后生成的文件会跟着音视频文件的目录:json 文件:包含了字级时间戳,txt 文件:包含了分行结果,merge.txt 文件:包含了带标点的整段结果,srt 文件:字幕文件,如果生成的字幕有微小错误,可以在分行的 txt 文件中修改,并将 txt 文件拖动到客户端打开,最后自动修正其余字幕文件。
软件下载链接:https://pan.quark.cn/s/45a5857f48c8
模型下载地址:https://pan.quark.cn/s/8d27bce21ebc