当前位置: 首页 > article >正文

语言识别模型whisper学习笔记

语言识别模型whisper学习笔记

Whisper 是由 OpenAI 于 2022年9月 推出的开源自动语音识别(ASR)系统,旨在实现高精度、多语言的语音转文本及翻译任务。其核心目标是解决传统语音识别模型在噪声环境、口音多样性及多语言场景下的局限性。

一、开源代码库下载

代码库链接:https://github.com/openai/whisper
注:需要科学网络
在这里插入图片描述
依次点击进行下载。

下载好将文件夹拖进pycharm打开项目,如下。

在这里插入图片描述
但是由于没有项目所需要的环境,需要给根据报错依次安装环境,如上图缺少torch,则打开终端使用conda或者pip进行下载安装。
下载指令可以上pytorch官网查询:https://pytorch.org/get-started/locally/
在这里插入图片描述
终端运行以上复制的代码,安装确实的gpu版本pytorch。

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

在这里插入图片描述

发现提示numpy版本不兼容,强制重新安装兼容版本。()

在这里插入图片描述

pip install numpy==1.26.4

在这里插入图片描述

再次运行,发现缺少tqdm
在这里插入图片描述
安装tqdm

pip install tqdm

在这里插入图片描述
再次运行,发现缺少tiktoken
在这里插入图片描述

安装tiktoken

pip install tiktoken

在这里插入图片描述

再次运行,发现缺少numba

在这里插入图片描述

安装numba

pip install numba

在这里插入图片描述

二、调用whisper实现语音识别

2.1 python调用

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("zyj.mp3")    # 只需要将此路径更换为你所需要识别的语音文件即可。
print(result["text"])

2.2 命令行调用

whisper zyj.mp3 --language Japanese --model turbo

2.3 结果展示

在这里插入图片描述

测试mp3文件,为我录制的一段语音,说的就是“你好你好你好恭喜发财”,成功将语音识别转录成中文。


http://www.kler.cn/a/585155.html

相关文章:

  • Odoo Http鉴权+调用后端接口
  • 爱普生车规级晶振SG2520CAA智能汽车电子系统的应用
  • JavaScript 函数基础
  • 【区块链】btc
  • HTTP 各版本协议简介
  • 交易所开发:数字市场的核心动力
  • HDU 学数数导致的
  • pjsip pjsua_media_config 结构体说明
  • 【MySQL】表的约束(上)
  • 如何筛选能实现共享自助健身房“灵活性”的物联网框架?
  • Java8的新特性
  • mov格式视频如何转换mp4?
  • C++ 左值(lvalue)和右值(rvalue)
  • DSTTN
  • Kafka×DeepSeek:智能决策破取经八十一难!
  • 批量压缩与优化 Excel 文档,减少 Excel 文档大小
  • 嵌入式八股ARM篇
  • MyBatis·下
  • AGI大模型(3):大模型生成内容
  • Vi/Vim命令详解:高效文本编辑的利器