当前位置：首页 > article >正文

抖音列表页采集-爬虫部分(2)

article 2024/10/27 20:31:29

Ⅱ.爬虫部分

'''
1. 发送请求 -> 模拟浏览器向服务器发送请求
2. 获取数据 -> 得到网页源代码 response
3. 解析数据 -> 提取视频链接/标题
4. 保存数据 -> 转二进制保存视频链接
'''
import requests
url='https://www.douyin.com/user/MS4wLjABAAAA3Edl4dvMxf-9uaJf8Zi8pt6RDBKQPPUzczKMMtwgInzWsy9UP1MoLf9qFXUwTE13?vid=7313874768241921319'
headers={
    'cookie':"写自个的",
    'user-agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}
response=requests.get(url=url,headers=headers).text
print(response)

得到响应结果：并确定到被加密的视频链接位置

视频链接被平台进行了简单的编码加密了那先正则拿出这段内容然后再进行解码

解完码就直接取值即可操作就相对而言简单些视频链接用字典取值方法就能拿下

接下来尝试拿全部的链接把vid传进请求链接就好了

保存命令就懒得说了直接看下载内容

总结：

这个程序难度不大，主要是为了方便一些素材的获取和某些特定单子的需求分析，适合咱们新手小白练练，凭经验而论，这种程序改动性很大的，他一般会过两~三月就换一种抓包接口，有新想法可以评论区多多讨论，这篇文章能起的话后面跟大家讲讲他的一些逆向算法。

http://www.kler.cn/news/367737.html

相关文章：

Netty-TCP服务端粘包、拆包问题（两种格式）

ThinkPad T480拆机屏幕改装：便携式显示器DIY指南

Xcode真机运行正常，打包报错

.Net 8 Web API CRUD 操作

群控系统服务端开发模式-系统架构图

Android Audio基础——音频输出声道设置（十九）

B/S架构的诊所药店云his管理系统源码，云门诊管理系统，自主知识产权，支持二次开发

iOS Swift逆向——deMangle过程中的偏移计算

算法|牛客网华为机试10-20C++

学点高数-数学上的集合①-集合的基本概念

学成在线实战

机器学习 - 树结构1 - 随机森林

Spring Cloud --- Sentinel 规则持久化

YOLO11改进 | 卷积模块 | 卷积模块替换为选择性内核SKConv【附完整代码一键运行】

设计模式概览

手机拍证件照，换正装有领衣服及底色的方法

jenkins配置邮件通知

Flutter控制台提示setState() or markNeedsBuild() called during build错误

Linux中DNS搭建

GenAI 生态系统现状：不止大语言模型和向量数据库

Day 8 UE5c++

React实现购物车功能

川渝地区软件工程考研择校分析

Pulsar mq 设置延迟消息模式 pulsar mq 发送延迟消息 pulsar如何发送消费延时消息

Django+MySQL接口开发完全指南

深入解析 MySQL 数据库：数据库备份机制