当前位置: 首页 > article >正文

1.1 爬虫的一些知识(大模型提供语料)

1.1 爬虫的一些知识(大模型提供语料)
网页资源:
资源组织方式:列表分页,搜索引擎,推荐
发送请求的文档类型:html ,js
响应请求的文档类型:html,js,json
请求方式:同步和异步
页面形式:单页面,非单页面;
抓取流程:requests直接请求
        # 抓取入口(穷举或者探索方式)
        # 遍历
        # 解析&清洗
        # 入库
        # 遍历结束
需要关注的点:
内容反爬:抓取内容投毒、混淆等反抓取;
请求反爬:返回403等,或者跳转或者返回到一个人工校验页面;
资源覆盖率:穷举所有要抓取的资源;
增量抓取:如何保证更新能跟上;
抓取速率要友好;
关于反爬策略:
加上header;
不使用requests;
加上IP代理池;
关于模拟抓取:
重量级:selenium
轻量级:其他;
解析:bs4和xpath
一个是擅长筛选器,一个擅长路径定位;
清洗:
内容部分乱码、(硬)断行。
后续继续补充。。。


http://www.kler.cn/a/404660.html

相关文章:

  • GitLab|GitLab报错:PG::ConnectionBad: could not connect to server...
  • 好用的js组件库
  • 【架构】主流企业架构Zachman、ToGAF、FEA、DoDAF介绍
  • 手机领夹麦克风哪个牌子好,哪种领夹麦性价比高,热门麦克风推荐
  • Llama模型文件介绍
  • 用 React18 构建Tic-Tac-Toe(井字棋)游戏
  • 渗透测试学习笔记—shodan(1)
  • Flink错误:一historyserver无法启动,二存在的文件会报错没有那个文件或目录
  • 乐鑫芯片模组物联网方案,智能设备升级新选择,启明云端乐鑫代理商
  • 2024亚太杯数学建模C题【Development Analyses and Strategies for Pet Industry 】思路详解
  • 面向未来的智能视觉参考设计与汽车架构,思尔芯提供基于Arm技术的创新方案
  • Android Studio2024版本安装环境SDK、Gradle配置
  • 【Node.js】全面解析 Node.js 安全最佳实践:保护您的应用
  • Smartbi Insight V11与OceanBase完成产品兼容互认证
  • 适合二开a的web组态?
  • “无关紧要”的小知识点:“xx Packages Are Looking for Funding”——npm fund命令及运行机制
  • AQS 理解 及不可重入锁实现
  • C++:operator new/delete函数
  • 前端面试之九阴真经
  • 金融量化交易领域,许多开源平台提供了图形用户界面(GUI)
  • Java-异常处理机制-throws
  • 【PCIE常见面试问题-1】
  • SpringBoot(三十三)SpringBoot集成Spring boot actuator程序监控器
  • 如何查找 Kafka消息队列中主题Topic的消费者?
  • C#高级:通过反射判断列表中指定字段是否存在空值
  • 笔记记录 k8s-RBAC