当前位置：首页 > article >正文

1.1 爬虫的一些知识（大模型提供语料）

article 2025/2/21 3:40:03

1.1 爬虫的一些知识（大模型提供语料）
网页资源：
资源组织方式：列表分页,搜索引擎，推荐
发送请求的文档类型：html ,js
响应请求的文档类型：html,js,json
请求方式：同步和异步
页面形式：单页面，非单页面；
抓取流程：requests直接请求
# 抓取入口(穷举或者探索方式)
# 遍历
# 解析&清洗
# 入库
# 遍历结束
需要关注的点：
内容反爬：抓取内容投毒、混淆等反抓取；
请求反爬：返回403等，或者跳转或者返回到一个人工校验页面；
资源覆盖率：穷举所有要抓取的资源；
增量抓取：如何保证更新能跟上；
抓取速率要友好；
关于反爬策略：
加上header；
不使用requests；
加上IP代理池；
关于模拟抓取：
重量级:selenium
轻量级：其他；
解析：bs4和xpath
一个是擅长筛选器，一个擅长路径定位；
清洗：
内容部分乱码、（硬）断行。
后续继续补充。。。