使用Python和OpenAI Whisper为视频生成字幕
- 安装正确的 OpenAI Whisper 包:
pip install openai-whisper
- 这里是一个完整的可工作的代码示例:
import whisper
import os
from moviepy.editor import VideoFileClip
from datetime import timedelta
import torch
def extract_audio(video_path, audio_path):
"""从视频中提取音频"""
try:
video = VideoFileClip(video_path)
video.audio.write_audiofile(audio_path)
video.close()
except Exception as e:
print(f"音频提取错误: {str(e)}")
raise
def generate_srt(segments, output_srt):
"""生成SRT格式字幕文件"""
with open(output_srt, 'w', encoding='utf-8') as f:
for i, segment in enumerate(segments, start=1):
# 转换时间格式
start = str(timedelta(seconds=int(segment['start']))) + ',000'
end = str(timedelta(seconds=int(segment['end']))) + ',000'
# 写入SRT格式
f.write(f"{i}\n")
f.write(f"{start} --> {end}\n")
f.write(f"{segment['text'].strip()}\n\n")
def main(video_path, output_srt):
"""主函数"""
try:
# 检查CUDA是否可用
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"使用设备: {device}")
# 加载模型
print("加载Whisper模型...")
model = whisper.load_model("base", device=device)
# 直接使用视频文件进行转录
print("开始转录...")
result = model.transcribe(video_path, language="zh")
# 生成字幕文件
print("生成字幕文件...")
generate_srt(result["segments"], output_srt)
print(f"字幕已生成: {output_srt}")
except Exception as e:
print(f"处理过程中出错: {str(e)}")
raise
if __name__ == "__main__":
# 设置输入输出路径
video_path = "your_video.mp4" # 替换为你的视频文件路径
output_srt = "output.srt" # 输出的字幕文件路径
main(video_path, output_srt)
这段代码是用于加载 OpenAI 的 Whisper 模型的。在语音识别中,Whisper 是 OpenAI 提供的一个开源模型,专门用于语音转文字(ASR,Automatic Speech Recognition)。
解析代码:
print("加载Whisper模型...")
model = whisper.load_model("base", device=device)
1. whisper.load_model("base", device=device)
-
whisper.load_model
: 这是调用 Whisper 库中的load_model
函数,用来加载一个预训练的 Whisper 模型。 -
"base"
: 这是所选模型的名称。在 Whisper 中,有多个预训练模型,它们的大小和性能有所不同。"base"
是其中一个中等规模的模型(不是最小的,也不是最大的)。Whisper 提供了不同规模的模型,如:"tiny"
: 最小的模型,速度最快,但准确率相对较低。"base"
: 中等规模的模型,速度和准确率之间有一个平衡。"small"
: 更大一些,提供更好的准确性,但速度较慢。"medium"
和"large"
: 这些是最大规模的模型,准确率非常高,但需要更多计算资源,速度较慢。
选择 "base"
模型通常是因为它在 速度和准确率 之间有一个良好的平衡。适用于大多数日常应用。
2. device=device
-
device=device
: 这部分代码指定了模型运行的硬件设备。通常,device
可以是"cpu"
(中央处理器)或"cuda"
(如果有支持 CUDA 的 NVIDIA GPU)。根据你的设备配置,Whisper 会在 CPU 或 GPU 上运行模型。使用 GPU 进行计算可以大大加速模型推理的过程,特别是在较大的模型时。例如:
- 如果你的计算机有 GPU 并且已经安装了 CUDA,
device="cuda"
会让 Whisper 使用 GPU 来加载和执行模型。 - 如果没有 GPU 或者没有配置 CUDA,Whisper 会默认使用 CPU。
- 如果你的计算机有 GPU 并且已经安装了 CUDA,
为什么使用 "base"
模型?
选择 "base"
模型的原因通常是以下几个考虑:
- 平衡性:
"base"
模型相较于tiny
模型更为准确,但计算资源需求又不如large
或medium
模型那么高。它是很多用户的常见选择,因为它在准确性和处理速度之间达到了较好的折中。 - 性能:对大多数普通应用(例如实时语音识别)来说,
"base"
模型通常能提供足够的准确率,同时不会太耗费硬件资源。 - 硬件要求:比起更大的模型,
"base"
模型需要的显存和计算资源较少,因此适合于那些没有特别强大硬件的设备。
选择其他模型:
- 如果你的硬件支持,且对识别准确度要求较高,你可以选择
"small"
、"medium"
或者"large"
模型,这样可以获得更高的识别准确率,但可能会牺牲一定的速度。 - 如果硬件性能有限,或者你需要快速响应,可以选择
"tiny"
模型,尽管它的识别准确度相对较低。
总结:
- 这段代码的作用是加载 Whisper 模型,并指定使用的设备(CPU 或 GPU)。
"base"
模型是中等规模的模型,通常适用于多数需要平衡准确性和速度的场景。
- 使用说明:
- 将
video_path
替换为你的实际视频文件路径 - 确保有足够的磁盘空间
- 如果有 NVIDIA GPU,会自动使用 CUDA 加速
- 可能需要的额外依赖:
pip install torch torchvision torchaudio
pip install moviepy
- 如果想要更详细的进度显示,可以添加进度条:
from tqdm import tqdm
def generate_srt_with_progress(segments, output_srt):
"""带进度显示的字幕生成"""
with open(output_srt, 'w', encoding='utf-8') as f:
for i, segment in tqdm(enumerate(segments, start=1),
desc="生成字幕",
total=len(segments)):
start = str(timedelta(seconds=int(segment['start']))) + ',000'
end = str(timedelta(seconds=int(segment['end']))) + ',000'
f.write(f"{i}\n")
f.write(f"{start} --> {end}\n")
f.write(f"{segment['text'].strip()}\n\n")
- 添加错误处理和日志:
import logging
import sys
# 配置日志
logging.basicConfig(
level=logging.INFO,
format='%(asctime)s - %(levelname)s - %(message)s',
handlers=[
logging.FileHandler('subtitle_generation.log'),
logging.StreamHandler(sys.stdout)
]
)
def main(video_path, output_srt):
"""带有完整错误处理和日志的主函数"""
try:
if not os.path.exists(video_path):
raise FileNotFoundError(f"视频文件不存在: {video_path}")
logging.info(f"开始处理视频: {video_path}")
# 检查CUDA
device = "cuda" if torch.cuda.is_available() else "cpu"
logging.info(f"使用设备: {device}")
# 加载模型
logging.info("加载Whisper模型...")
model = whisper.load_model("base", device=device)
# 转录
logging.info("开始转录...")
result = model.transcribe(video_path, language="zh")
# 生成字幕
logging.info("生成字幕文件...")
generate_srt_with_progress(result["segments"], output_srt)
logging.info(f"字幕生成完成: {output_srt}")
except FileNotFoundError as e:
logging.error(f"文件错误: {str(e)}")
raise
except Exception as e:
logging.error(f"处理错误: {str(e)}")
raise
- 如果需要处理长视频,可以添加分段处理:
def process_long_video(video_path, output_srt, segment_duration=300):
"""分段处理长视频"""
from moviepy.editor import VideoFileClip
video = VideoFileClip(video_path)
duration = video.duration
segments = []
for start in range(0, int(duration), segment_duration):
end = min(start + segment_duration, duration)
# 提取片段
segment = video.subclip(start, end)
temp_audio = f"temp_{start}_{end}.wav"
segment.audio.write_audiofile(temp_audio)
# 处理片段
result = model.transcribe(temp_audio, language="zh")
segments.extend(result["segments"])
# 清理临时文件
os.remove(temp_audio)
# 生成完整字幕
generate_srt(segments, output_srt)
video.close()
Whisper 可以实现将英文语音翻译成中文。Whisper 是一个多语言语音识别模型,支持语音识别和翻译任务,包括将英语语音翻译成中文。
如何实现英文语音翻译成中文:
在使用 Whisper 时,你可以通过以下步骤来实现英文语音的翻译:
-
加载模型并进行转录
使用whisper.load_model
加载模型(例如,base
或small
等),然后使用transcribe
方法来识别英文语音。为了进行翻译,你需要设置task="translate"
参数。 -
指定翻译目标语言为中文
设置language="en"
来告知模型输入语言是英语,Whisper 会自动将识别到的英文语音翻译成你指定的目标语言(中文)。
示例代码:
import whisper
# 加载模型
model = whisper.load_model("base")
# 设置视频或音频文件路径
audio_path = "path_to_audio_or_video"
# 进行语音翻译,英文语音翻译成中文
result = model.transcribe(audio_path, language="en", task="translate")
# 打印翻译结果
print(result["text"])
解释:
language="en"
:告诉 Whisper 输入的语言是英文。task="translate"
:启用翻译模式,Whisper 会将识别到的英文语音翻译成中文。result["text"]
:这是翻译后的中文文本。
注意事项:
- 翻译质量:Whisper 的翻译能力比较强,但它的翻译质量受限于模型的规模与训练数据。因此,翻译结果可能不是完美的,特别是针对某些复杂的句子或语境。
- 语音识别和翻译:Whisper 结合了语音识别与翻译功能,适合直接从语音中获得翻译文本,而不需要分开执行语音识别和翻译步骤。
总结:
Whisper 能够处理英文语音,并将其翻译成中文,直接通过设置 task="translate"
来实现。