当前位置: 首页 > article >正文

『python爬虫』04. 爬虫需要知道的HTTP协议知识(保姆级图文)

目录

    • 1. HTTP协议是什么?
    • 2. HTTP协议结构
    • 3. 爬⾍需要的请求头和响应头内容
    • 总结


欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中

1. HTTP协议是什么?

HTTP协议, Hyper Text Transfer Protocol(超⽂本传输协议)的缩写,是⽤于从万维⽹(WWW:World Wide Web )服务器传输超⽂本到本地浏览器的传送协议.。

浏览器和服务器之间的数据交互遵守HTTP协议。.


2. HTTP协议结构

HTTP协议把⼀条消息分为三⼤块内容. ⽆论是请求还是响应都是三块内容:

  • 请求
  1. 请求⾏ -> 请求⽅式(get/post) 请求url地址 协议
  2. 请求头 -> 放⼀些服务器要使⽤的附加信息
  3. 请求体 -> ⼀般放⼀些请求参数
  • 响应
  1. 状态⾏ -> 协议 状态码(常用来判断我们爬虫是否成功,反应爬虫失败的原因)
  2. 响应头 -> 放⼀些客户端要使⽤的⼀些附加信息
  3. 响应体 -> 服务器返回的真正客户端要⽤的内容(HTML,json)等

写爬⾍的时候要格外注意请求头和响应头,这里面通常会含有被服务器识别到的访问网页的浏览器信息,访问时间等等重要的信息。
在这里插入图片描述


3. 爬⾍需要的请求头和响应头内容

请求头核心内容:

  1. User-Agent : 请求载体的身份标识(⽤啥发送的请求)
  2. Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)
  3. cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
    响应头核心内容:
  4. cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
  5. 各种神奇的莫名其妙的字符串(这个需要经验了, ⼀般都是token
    字样, 防⽌各种攻击和反爬

总结

大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2023 mzh

Crated:2023-3-1

欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
『未完待续』



http://www.kler.cn/a/16273.html

相关文章:

  • 基于yolov8、yolov5的车型检测识别系统(含UI界面、训练好的模型、Python代码、数据集)
  • UE5 UE4 播放视频没有声音解决
  • Ceph 中PG与PGP的概述
  • QQ 小程序已发布,但无法被搜索的解决方案
  • Thread类及常见方法
  • GIS空间分析案例---城市公共设施配置与服务评价
  • 云和恩墨荣获2023数字中国创新大赛·信创赛道“最具发展潜力奖”等4个奖项
  • C语言从入门到精通第16天(指针的定义与基本使用)
  • PID控制---基于python模拟
  • 面向画布(Canvas)的JavaScript库
  • 【c语言小项目】基于easyX的俄罗斯方块
  • Analysis For Office的一些使用技巧
  • C++练级之初级:第六篇
  • 使用PyTorch和Flower 进行联邦学习
  • 重载new和delete
  • Flutter集成个推推送-安卓原生篇
  • 【电商必学】 WhatsApp 全新攻略:什么是交互式消息模板
  • 【Zookeeper源码走读】第一章 客户端与服务器的连接过程
  • 麓言信息设计创意思维,打开设计师思路
  • 智慧物流信息系统开发需具备哪些功能?
  • 2023北京老博会(中国国际老年产业博览会)展位预订迎高峰
  • 鸿蒙系统是什么?鸿蒙与开源鸿蒙的关系?鸿蒙系统的发展历程
  • H2O生成——屏障
  • 论文笔记:Model-Contrastive Federated Learning
  • TPM-TPM-Profile-PTP协议-2
  • Vue3事件绑定