当前位置: 首页 > article >正文

python爬虫实战案例——爬取A站视频,m3u8格式视频抓取(内含完整代码!)

1、任务目标

目标网站:A站视频(https://www.acfun.cn/v/ac40795151)
要求:抓取该网址下的视频,将其存入本地,视频如下:

在这里插入图片描述

2、网页分析

  1. 进入目标网站,打开开发者模式,我们发现视频播放过程中有一个特点,也就是在Network-Fetch/XHR下不断有一些相似的接口文件产生
    在这里插入图片描述
  2. 我们点击其中一个接口文件,发现 preview 下的内容都是类似乱码的数据,其实在网页中发现这种数据的文件,基本上都是二进制码流文件,其中存放的就是视频、音频、图片等数据,这里我们可以确定他就是我们要找的视频文件,在观察其URL发现它是一个ts文件,且以序号结尾,如:100000.ts ;我们多观察几个这种ts文件,发现都是按顺序排列的。我们称这种格式的视频文件为m3u8格式
    在这里插入图片描述


m3u8格式视频简单介绍:

m3u8 格式其实就是将一个长的视频切割成一个个小的视频片段,然后网站通过不断加载这些片段,从而播放视频,这些片段自然就是上面说的 .ts格式的文件,并且这些片段还会进行编号,如:1000.ts,1001.ts,1002.ts;m3u8格式视频的好处就是,当我们滑动视频进度条,网站会直接加载该时间段的ts文件,一般一个片段就几秒钟,这样就可以快速定位并播放此刻的视频内容,从而给用户很好的观看体验

  1. 从上面我们知道了视频内容就存放在这些ts文件片段中,我们需要将其下载下来合并到一个mp4 文件中,从而播放完整的视频,一般一个ts片段几秒钟,这个视频只有1分多钟,那么至少有20来个ts文件需要找到,那么如何寻找这些文件呢?若等视频慢慢播放加载,不太现实。但是该网站有个特点,他会将所有ts文件的地址存放至一个 m3u8格式的文件中,该文件我们同样可以在 Network-Fetch/XHR 下找到,可以看到在下面这个m3u8格式的文件中,存放着这所有ts文件的url地址,这些地址都缺少主域名,后续我们需要将其拼接为完整地址
    在这里插入图片描述
  2. 现在找到了存放ts文件地址的m3u8 格式文件了,那么m3u8格式文件的地址又在哪里呢?我们发现在 Network-Doc 有一个文件,其中存放的内容就包含了m3u8文件的地址
    在这里插入图片描述
  3. 我们在内容中搜索m3u8,可以发现许多相关的链接地址,这些地址代表着不同编码、不同清晰度的m3u8文件的地址,我们只需选择其中一个就行,下面我将选择 720p清晰度的地址
    在这里插入图片描述


总结:
在上面我们经过分析网页,对该网站的爬取有了一定的思路,大致步骤如下:

  1. 向存放m3u8文件地址的接口文件发起请求,从中分析出想要的m3u8文件链接
  2. m3u8文件发起请求,从中解析出所有的ts文件地址
  3. 向每个ts文件发起请求,将他们依次存入到mp4文件中,最后合并为一个完整的视频文件

3、代码编写


完整代码:

'''
目标网站:https://www.acfun.cn/v/ac40795151
要求:爬取该网站下的视频,将其存放至本地
'''
import requests
import re
import json
from jsonpath import jsonpath
from bs4 import BeautifulSoup
from tqdm import tqdm # 用于显示进度条,需要下载:pip install tqdm

# 1、准备网站信息
# 目标网站
url = 'https://www.acfun.cn/v/ac40795151'
# 身份信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.43',
}

# 2、获取m3u8文件链接
def get_m3u8():
    re_html = requests.get(url,headers=headers).text # 获得视频页面的网页源码
    # 用正则解析出目标内容
    str_data = re.findall('<script>.*?window.pageInfo\s=\swindow.videoInfo\s=\s(.*?);.*?window.videoResource\s=\s{}',re_html,re.S)[0]
    # 将字符串数据转换为json格式数据
    json_data1 = json.loads(str_data)['currentVideoInfo']['ksPlayJson']
    json_data2 = json.loads(json_data1)
    # 得到m3u8文件的链接
    link_m3u8 = jsonpath(json_data2,'$..representation..url')[2]
    # 解析出视频标题
    soup = BeautifulSoup(re_html,'lxml')
    title = soup.select('.video-description.clearfix h1.title span')[0].string # 标题
    return link_m3u8,title

# 2、获取所有的ts文件链接
def get_ts(link_m3u8):
    re_data = requests.get(link_m3u8,headers=headers).text # 得到m3u8文件的内容
    # 解析出所有的ts文件链接
    ts_link = re.sub('#.*', '', re_data).split()
    return ts_link

# 3、合并所有ts文件
def combine(ts_link,title):
    print('下载进度:')
    # 遍历每个ts文件链接,并下载下来
    for l in tqdm(ts_link): # tadm 可以显示进度条
        ts_url = 'https://tx-safety-video.acfun.cn/mediacloud/acfun/acfun_video/' + l # 拼接为完整的链接
        ts_b = requests.get(ts_url,headers=headers).content # 得到下载的ts文件二进制流
        # 将ts文件全部保存至一个MP4文件中,完成合并!
        with open(f'{title}.mp4','ab') as f:
            f.write(ts_b)
    print('下载完成!')
    f.close()

# 4、调用函数
def start():
    # 依次调用每个函数
    link_m3u8,title = get_m3u8()
    ts_link = get_ts(link_m3u8)
    combine(ts_link,title)

if __name__ == '__main__':
    # 启动程序
    start()

执行效果:
在这里插入图片描述
在这里插入图片描述


http://www.kler.cn/a/393571.html

相关文章:

  • REVERSE-COMPETITION-CCSSSC-2025
  • 使用 OpenAI 进行结构化标签提取的 Python 实现
  • 【JAVA】用于控制流程的关键字 break、continue、return 使用场景,注意事项和实例
  • 3D Object Detection和6D Pose Estimation有什么异同?
  • 145页PPT智慧矿山整体规划建设方案
  • WPS-JS宏快速上手
  • Qt文件系统-文本文件读写
  • 蓝桥杯每日真题 - 第8天
  • [CKS] K8S ServiceAccount Set Up
  • UDP协议和TCP协议之间有什么具体区别?
  • Flink+Kafka中Source和Sink的使用
  • ONLYOFFICE8.2版本测评,团队协作的办公软件
  • 新160个crackme - 096-xtFusion-k1
  • 免费送源码:Java+springboot+MySQL 物流车辆管理系统的设计与实现 计算机毕业设计原创定制
  • kafka可视化管理平台-kafka-console-ui
  • vue el-date-picker 日期选择器禁用失效问题
  • 蓝队基础(详见B站泷羽sec)
  • 计算机网络之表示层
  • 【ReactPress】React + antd + NestJS + NextJS + MySQL 的简洁兼时尚的博客网站
  • FFmpeg 怎么裁剪m4a的音频,从一个时间点开始,裁剪15秒钟的视频
  • 如何在 IntelliJ IDEA 中去掉 Java 方法注释后的空行
  • CUDA error: device-side assert triggered 报错解决
  • androidstudio下载gradle慢
  • openai Realtime API (实时语音)
  • 鸿蒙版APP-图书购物商城案例
  • 2023年MathorCup数学建模A题量子计算机在信用评分卡组合优化中的应用解题全过程文档加程序