当前位置: 首页 > article >正文

『python爬虫』04. 爬虫需要知道的HTTP协议知识(保姆级图文)

目录

    • 1. HTTP协议是什么?
    • 2. HTTP协议结构
    • 3. 爬⾍需要的请求头和响应头内容
    • 总结


欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中

1. HTTP协议是什么?

HTTP协议, Hyper Text Transfer Protocol(超⽂本传输协议)的缩写,是⽤于从万维⽹(WWW:World Wide Web )服务器传输超⽂本到本地浏览器的传送协议.。

浏览器和服务器之间的数据交互遵守HTTP协议。.


2. HTTP协议结构

HTTP协议把⼀条消息分为三⼤块内容. ⽆论是请求还是响应都是三块内容:

  • 请求
  1. 请求⾏ -> 请求⽅式(get/post) 请求url地址 协议
  2. 请求头 -> 放⼀些服务器要使⽤的附加信息
  3. 请求体 -> ⼀般放⼀些请求参数
  • 响应
  1. 状态⾏ -> 协议 状态码(常用来判断我们爬虫是否成功,反应爬虫失败的原因)
  2. 响应头 -> 放⼀些客户端要使⽤的⼀些附加信息
  3. 响应体 -> 服务器返回的真正客户端要⽤的内容(HTML,json)等

写爬⾍的时候要格外注意请求头和响应头,这里面通常会含有被服务器识别到的访问网页的浏览器信息,访问时间等等重要的信息。
在这里插入图片描述


3. 爬⾍需要的请求头和响应头内容

请求头核心内容:

  1. User-Agent : 请求载体的身份标识(⽤啥发送的请求)
  2. Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)
  3. cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
    响应头核心内容:
  4. cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
  5. 各种神奇的莫名其妙的字符串(这个需要经验了, ⼀般都是token
    字样, 防⽌各种攻击和反爬

总结

大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2023 mzh

Crated:2023-3-1

欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
『未完待续』



http://www.kler.cn/news/16273.html

相关文章:

  • 云和恩墨荣获2023数字中国创新大赛·信创赛道“最具发展潜力奖”等4个奖项
  • C语言从入门到精通第16天(指针的定义与基本使用)
  • PID控制---基于python模拟
  • 面向画布(Canvas)的JavaScript库
  • 【c语言小项目】基于easyX的俄罗斯方块
  • Analysis For Office的一些使用技巧
  • C++练级之初级:第六篇
  • 使用PyTorch和Flower 进行联邦学习
  • 重载new和delete
  • Flutter集成个推推送-安卓原生篇
  • 【电商必学】 WhatsApp 全新攻略:什么是交互式消息模板
  • 【Zookeeper源码走读】第一章 客户端与服务器的连接过程
  • 麓言信息设计创意思维,打开设计师思路
  • 智慧物流信息系统开发需具备哪些功能?
  • 2023北京老博会(中国国际老年产业博览会)展位预订迎高峰
  • 鸿蒙系统是什么?鸿蒙与开源鸿蒙的关系?鸿蒙系统的发展历程
  • H2O生成——屏障
  • 论文笔记:Model-Contrastive Federated Learning
  • TPM-TPM-Profile-PTP协议-2
  • Vue3事件绑定
  • 【五一创作】50道Java面试题
  • Python的一些知识
  • 做了一年csgo搬砖项目,还清所有债务:会赚钱的人都在做这件事 !
  • 更轻更好用的蓝牙耳机,日常佩戴更舒适,QCY Crossky Link体验
  • Nginx:常见的面试题和答案
  • Delphi 内存分配
  • Java程序猿搬砖笔记(十二)
  • 记录和传播知识的重要性不亚于创造知识本身【专利所保护的,主要是`流程`、`工艺`和`方法`,不是一个具体的产品。】
  • 与贵州公安面对面|欧科云链天眼中国行,他们都说“行”
  • 点亮第一个LED灯