当前位置: 首页 > article >正文

百度PaddleSpeech识别大音频文件报错

一、背景

公司前同事留下了一套语音识别项目,内部使用百度PaddleSpeech。在项目验收的时候发现无法识别大音频文件,但是可以识别小音频文件。

这套项目是通过python调用的百度PaddleSpeech,然后提供了restful接口,然后java项目可以通过接口来进行语音识别。

二、解决方案

我看了一下前同事留下的代码,发现报错信息来自百度PaddleSpeech内部,所以修改源代码这条路基本无解。

我通过互联网搜索到“根据百度AI开放平台的错误码汇总,如果音频时长超过60秒,将会导致错误。”

基于上述情况,我准备调用java代码操作ffmpeg工具将大音频文件进行分割,然后针对小音频逐个识别,最终拼接识别结果即可。

我切分的标准是50s一段,基本都是可以识别出来的。

拓展:

百度PaddleSpeech语音识别目前格式仅支持pcm、wav或amr,我们常见一点的是wav格式。由于不支持mp3格式,如果想识别mp3格式文件内容,也可以使用ffmpeg进行文件格式转换,转换完成之后就可以识别了


http://www.kler.cn/a/459414.html

相关文章:

  • 【NX入门篇】
  • 【RTD MCAL 篇3】 K312 MCU时钟系统配置
  • vue3 css实现文字输出带光标显示,文字输出完毕,光标消失的效果
  • 渗透测试-非寻常漏洞案例
  • Docker安装Prometheus和Grafana
  • 给vscode的新项目选择虚拟环境
  • vim/vi编辑器
  • 彩虹表的攻击与防御
  • 使用 IDE生成 Java Doc
  • C++基础:SGI STL二级空间配置器内存池
  • 【数据分析处理之缺失值】
  • Kafka消息不丢失与重复消费问题解决方案总结
  • 短视频矩阵系统搭建开发指导
  • 什么是模块?在Node.js中,每一个文件都被视为一个模块来处理
  • [Linux]从零开始的Nginx反向代理配置及运用教程
  • python3中条件判断语句:match...case语句
  • 后端Java开发如何向LLM方向转型
  • Python爬虫:亚马逊评论数据在市场分析中的应用
  • 【实验记录】动手实现一个简单的神经网络实验(一)
  • Nginx 配置前端后端服务
  • 【Python实现连续学习算法】Python实现连续学习Baseline 及经典算法EWC
  • Spring Cloud Alibaba2022之Sentinel总结
  • 【GraphRAG】LEGO-GraphRAG框架解读
  • 商米电子秤服务插件
  • 华为ensp-BGP联盟
  • vue 修改vant样式NoticeBar中的图标,不用插槽可以直接用图片