当前位置: 首页 > article >正文

抖音列表页采集-爬虫部分(2)

Ⅱ.爬虫部分

'''
1. 发送请求 -> 模拟浏览器向服务器发送请求
2. 获取数据 -> 得到网页源代码 response
3. 解析数据 -> 提取视频链接/标题
4. 保存数据 -> 转二进制保存视频链接
'''
import requests
url='https://www.douyin.com/user/MS4wLjABAAAA3Edl4dvMxf-9uaJf8Zi8pt6RDBKQPPUzczKMMtwgInzWsy9UP1MoLf9qFXUwTE13?vid=7313874768241921319'
headers={
    'cookie':"写自个的",
    'user-agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}
response=requests.get(url=url,headers=headers).text
print(response)

得到响应结果:并确定到被加密的视频链接位置

8817790e52df0a8bf95b32adb991ddf0.jpeg

 视频链接被平台进行了简单的编码加密了  那先正则拿出这段内容  然后再进行解码

d0a75d027209d6bbdb87c76577b178d3.jpeg

解完码就直接取值即可  操作就相对而言简单些  视频链接用字典取值方法就能拿下

65a9f0320fbde499f3ef62ec06607793.jpeg

接下来尝试拿全部的链接  把vid传进请求链接就好了

44ef4bfbce3a3749bb166713ef26110b.jpeg

 保存命令就懒得说了  直接看下载内容

总结:

   这个程序难度不大,主要是为了方便一些素材的获取和某些特定单子的需求分析,适合咱们新手小白练练,凭经验而论,这种程序改动性很大的,他一般会过两~三月就换一种抓包接口,有新想法可以评论区多多讨论,这篇文章能起的话  后面跟大家讲讲他的一些逆向算法。


http://www.kler.cn/news/367737.html

相关文章:

  • Netty-TCP服务端粘包、拆包问题(两种格式)
  • ThinkPad T480拆机屏幕改装:便携式显示器DIY指南
  • Xcode真机运行正常,打包报错
  • .Net 8 Web API CRUD 操作
  • 群控系统服务端开发模式-系统架构图
  • Android Audio基础——音频输出声道设置(十九)
  • B/S架构的诊所药店云his管理系统源码,云门诊管理系统,自主知识产权,支持二次开发
  • iOS Swift逆向——deMangle过程中的偏移计算
  • 算法|牛客网华为机试10-20C++
  • 学点高数-数学上的集合①-集合的基本概念
  • 学成在线实战
  • 机器学习 - 树结构1 - 随机森林
  • Spring Cloud --- Sentinel 规则持久化
  • YOLO11改进 | 卷积模块 | 卷积模块替换为选择性内核SKConv【附完整代码一键运行】
  • 设计模式概览
  • 手机拍证件照,换正装有领衣服及底色的方法
  • jenkins配置邮件通知
  • Flutter控制台提示setState() or markNeedsBuild() called during build错误
  • Linux中DNS搭建
  • GenAI 生态系统现状:不止大语言模型和向量数据库
  • Day 8 UE5c++
  • React实现购物车功能
  • 川渝地区软件工程考研择校分析
  • Pulsar mq 设置延迟消息模式 pulsar mq 发送延迟消息 pulsar如何发送消费延时消息
  • Django+MySQL接口开发完全指南
  • 深入解析 MySQL 数据库:数据库备份机制