抖音列表页采集-爬虫部分(2)
Ⅱ.爬虫部分
'''
1. 发送请求 -> 模拟浏览器向服务器发送请求
2. 获取数据 -> 得到网页源代码 response
3. 解析数据 -> 提取视频链接/标题
4. 保存数据 -> 转二进制保存视频链接
'''
import requests
url='https://www.douyin.com/user/MS4wLjABAAAA3Edl4dvMxf-9uaJf8Zi8pt6RDBKQPPUzczKMMtwgInzWsy9UP1MoLf9qFXUwTE13?vid=7313874768241921319'
headers={
'cookie':"写自个的",
'user-agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}
response=requests.get(url=url,headers=headers).text
print(response)
得到响应结果:并确定到被加密的视频链接位置
视频链接被平台进行了简单的编码加密了 那先正则拿出这段内容 然后再进行解码
解完码就直接取值即可 操作就相对而言简单些 视频链接用字典取值方法就能拿下
接下来尝试拿全部的链接 把vid传进请求链接就好了
保存命令就懒得说了 直接看下载内容
总结:
这个程序难度不大,主要是为了方便一些素材的获取和某些特定单子的需求分析,适合咱们新手小白练练,凭经验而论,这种程序改动性很大的,他一般会过两~三月就换一种抓包接口,有新想法可以评论区多多讨论,这篇文章能起的话 后面跟大家讲讲他的一些逆向算法。