当前位置: 首页 > article >正文

20241021下载B站json格式的字幕并通过python3转换成为SRT格式

20241021下载B站json格式的字幕并通过python3转换成为SRT格式
2024/10/21 14:27


缘起:不像主攻全球市场的youtube,主流语种的字幕,直接给你机器翻译全球N多种字幕。
bilibili主要客户是大陆,没有这种动力/人类博爱精神。
但是只要你上传视频的时候选择了字幕,还是有简体中文的机器字幕的。
直接识别普通话,或者识别英语之后再机器翻译成为简体中文。
繁体中文/粤语发音的没有测试过。

以前有小程序/软件可以拿到字幕的。现在不好用了。
不过还是有绝招,直接通过F12大法源码获取json字幕之后转SRT。


测试资源:
https://www.bilibili.com/video/BV1kytheHEMr/?spm_id_from=333.788&vd_source=4a6b675fa22dfa306da59f67b1f22616
2024-09-17 19:00:00情色巨贪徐其耀:一人拥有146名情妇,以包养“母女花”为荣-钟爷历史1


https://www.bilibili.com/video/BV1aF411177N/?spm_id_from=333.337.search-card.all.click&vd_source=4a6b675fa22dfa306da59f67b1f22616
12代13代电脑主板安装固态硬盘不识别如何解决


1、下载json格式的字幕;
按F12,在“网络”里面找到相对应的xhr选项,然后下载之后就成为json格式的字幕。


2、通过python3将json格式的字幕转换成为srt格式的字幕。

Microsoft Windows [版本 10.0.22621.3296]
(c) Microsoft Corporation。保留所有权利。

C:\Users\QQ>cd d:\json2srt

C:\Users\QQ>d:

d:\json2srt>dir
 驱动器 D 中的卷是 新加卷
 卷的序列号是 F618-8199

 d:\json2srt 的目录

2024/10/21  15:10    <DIR>          .
2024/10/21  14:50            40,799 11315197045079925895764387f93f74c1ed43a5733e3375d8c877bef2.json
2024/10/21  15:02             8,131 2749889921239666121c416a9f327ffbd3d3c0031f0687ce158.json
2024/10/21  15:10             2,245 json2srt.py
               3 个文件         51,175 字节
               1 个目录  4,925,665,280 可用字节

d:\json2srt>python json2srt.py
Traceback (most recent call last):
  File "d:\json2srt\json2srt.py", line 46, in <module>
  File "d:\json2srt\json2srt.py", line 8, in convert_json_to_srt
FileNotFoundError: [WinError 3] 系统找不到指定的路径。: 'C:\\Users\\XXXXXXX'

d:\json2srt>python json2srt.py
Traceback (most recent call last):
  File "d:\json2srt\json2srt.py", line 47, in <module>
  File "d:\json2srt\json2srt.py", line 20, in convert_json_to_srt
  File "C:\Users\QQ\AppData\Local\Programs\Python\Python311\Lib\json\__init__.py", line 293, in load
    return loads(fp.read(),
                 ^^^^^^^^^
  File "<frozen codecs>", line 322, in decode
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb8 in position 216: invalid start byte

d:\json2srt>

参考资料:
BING:字幕 json srt

百度:NameError: name 'json' is not defined
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb8 in position 249: in

字幕 xhr srt

srt_files_path = os.path.join(json_files_path, 'srt') #更改后缀后字幕文件的路径    


https://www.cnblogs.com/wbloger/p/12578292.html
批量将B站视频json格式的字幕转换为srt格式的字幕
在B站下载的视频对应的字幕是json格式,在potplayer中不能导入json格式的字幕,在网上查找了一番,

发现已经有人用python写了json转换为srt的代码,见https://blog.csdn.net/mondaiji/article/details/104294430,

但那只是针对一个json文件的转换,我在此基础上改为批量把json转换为srt文件, 每次把需要转换的json文件放置在一个文件夹下,

在下面的代码中输入文件夹的路径,就可以批量把json文件转换为srt文件,存放在当前文件夹下的名为srt的子文件夹下。


# -- coding: utf-8 --

import json
import math
import os

def convert_json_to_srt(json_files_path):    
    json_files = os.listdir(json_files_path)
    srt_files_path = os.path.join(json_files_path, 'srt') #更改后缀后字幕文件的路径    
    isExists = os.path.exists(srt_files_path)
    if not isExists:
        os.mkdir(srt_files_path)
    
    for json_file in json_files:        
        file_name = json_file.replace(json_file[-5:], '.srt') #改变转换后字幕的后缀
        file = ''  # 这个变量用来保存数据
        i = 1
        # 将此处文件位置进行修改,加上utf-8是为了避免处理中文时报错
        with open(os.path.join(json_files_path, json_file), encoding='utf-8') as f:
            datas = json.load(f)# 加载文件数据
            f.close()
                    
        for data in datas['body']:
            start = data['from']  # 获取开始时间
            stop = data['to']  # 获取结束时间
            content = data['content']  # 获取字幕内容
            file += '{}\n'.format(i)  # 加入序号
            hour = math.floor(start) // 3600
            minute = (math.floor(start) - hour * 3600) // 60
            sec = math.floor(start) - hour * 3600 - minute * 60
            minisec = int(math.modf(start)[0] * 100)  # 处理开始时间
            file += str(hour).zfill(2) + ':' + str(minute).zfill(2) + ':' + str(sec).zfill(2) + ',' + str(minisec).zfill(2)  # 将数字填充0并按照格式写入
            file += ' --> '
            hour = math.floor(stop) // 3600
            minute = (math.floor(stop) - hour * 3600) // 60
            sec = math.floor(stop) - hour * 3600 - minute * 60
            minisec = abs(int(math.modf(stop)[0] * 100 - 1))  # 此处减1是为了防止两个字幕同时出现
            file += str(hour).zfill(2) + ':' + str(minute).zfill(2) + ':' + str(sec).zfill(2) + ',' + str(minisec).zfill(2)
            file += '\n' + content + '\n\n'  # 加入字幕文字
            i += 1
        with open(os.path.join(srt_files_path, file_name), 'w', encoding='utf-8') as f:
            f.write(file)  # 将数据写入文件
                        
if __name__ == '__main__':   
    json_folder_path = 'C:\\Users\\XXXXXXX' #json字幕文件的路径(注意路径的格式)
    convert_json_to_srt(json_folder_path)

https://tieba.baidu.com/p/6222744697
下载B站CC字幕的方法。
使用方法很简单,输入AV号点抓取,然后就会输出一个srt字幕文件。
结季-贝: 传到码云上了,就是Gitee,在上面搜BiliCC-Srt,描述里有云Pan,左侧栏里也可找到发行版。
2020-11-12 09:49回复


百度搜索:BiliCC-Srt

https://www.zhihu.com/question/316135524/answer/1710845175
b站外挂字幕(cc字幕)如何下载?


https://www.oschina.net/news/123044
BiliCC-Srt 4.31 已经发布


https://gitee.com/KGDKL/BiliCC-Srt/releases/tag/4.31
Bilibili CC字幕下载器


下载字幕
https://www.bilibili.com/video/BV1cJ411b741/?spm_id_from=333.337.search-card.all.click&vd_source=4a6b675fa22dfa306da59f67b1f22616
【A.I.】《The Age of A.I.》- 《A.I. 纪元》 第一季
UnboxTherapy-CN


b站的BV号怎么找
https://www.bilibili.com/read/cv17901293
bvid在哪?如何找到b站BV号(及bvid)[图文教程]
2022-08-03 11:02543阅读 · 0喜欢 · 0评论


https://www.bilibili.com/video/BV12G411h716?share_source=copy_web&vd_source=85a1b6baf97a3517b44638990eb0b2d6
[玩转路由器]京东云无线宝刷机OpenWrt通用线刷教程


参考资料:
https://zhuanlan.zhihu.com/p/412835055
https://xbeibeix.com/api/bilibili/#
https://lv.ulikecam.com/?_s=1&keyword=JianYingDianNaoBanph
如何免费获取B站视频字幕内容


剪映 英文字幕 付费
https://zhuanlan.zhihu.com/p/568733549
剪映如何制作中英文双语字幕?(教程+字幕翻译软件工具)

https://www.jianshu.com/p/66450e9554f8
b站视频下载和字幕下载的方法


http://www.kler.cn/news/359043.html

相关文章:

  • DNS代理是什么?浅析DNS代理的工作原理及应用
  • 大数据存储计算平台EasyMR:大数据集群动态扩缩容,快速提升集群服务能力
  • 浅谈c#编程中的异步编程
  • @JsonIgnoreProperties做接口对接时使用带来的好处
  • 数据中心母线槽测温监控装置的优势和如何选型
  • AJAX——AJAX 取消请求
  • Linux:线程
  • 详解Oracle审计(二)
  • 什么是SCRM?为什么企业要做SCRM?
  • 5种边界填充
  • 代码随想录第一天|704.二分查找 27.移除元素
  • 【论文精读】把一切转成mesh!MeshAnything和MeshAnythingV2论文解析
  • 使用centos8在docker环境下编译ceph reef并使用s3cmd与awscli测试
  • 【某农业大学计算机网络实验报告】实验五 TCP 运输连接管理
  • RFC2616 超文本传输协议 HTTP/1.1
  • 修改pq_default.ini禁用降噪,解决S905X3电视盒硬解视频画质模糊、严重涂抹得像油画、水彩画的问题
  • 冲击美团!已成功 OC
  • 重磅!望繁信科技与德勤中国签署战略合作协议
  • OneThink ThinkCMS think.cms
  • 如何基于 Python 快速搭建 QQ 开放平台 QQ 群官方机器人详细教程(更新中)