『python爬虫』04. 爬虫需要知道的HTTP协议知识(保姆级图文)
目录
- 1. HTTP协议是什么?
- 2. HTTP协议结构
- 3. 爬⾍需要的请求头和响应头内容
- 总结
欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
1. HTTP协议是什么?
HTTP协议, Hyper Text Transfer Protocol(超⽂本传输协议)的缩写,是⽤于从万维⽹(WWW:World Wide Web )服务器传输超⽂本到本地浏览器的传送协议.。
浏览器和服务器之间的数据交互遵守HTTP协议。.
2. HTTP协议结构
HTTP协议把⼀条消息分为三⼤块内容. ⽆论是请求还是响应都是三块内容:
- 请求
- 请求⾏ -> 请求⽅式(get/post) 请求url地址 协议
- 请求头 -> 放⼀些服务器要使⽤的附加信息
- 请求体 -> ⼀般放⼀些请求参数
- 响应
- 状态⾏ -> 协议 状态码(常用来判断我们爬虫是否成功,反应爬虫失败的原因)
- 响应头 -> 放⼀些客户端要使⽤的⼀些附加信息
- 响应体 -> 服务器返回的真正客户端要⽤的内容(HTML,json)等
写爬⾍的时候要格外注意请求头和响应头,这里面通常会含有被服务器识别到的访问网页的浏览器信息,访问时间等等重要的信息。
3. 爬⾍需要的请求头和响应头内容
请求头核心内容:
- User-Agent : 请求载体的身份标识(⽤啥发送的请求)
- Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)
- cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
响应头核心内容: - cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
- 各种神奇的莫名其妙的字符串(这个需要经验了, ⼀般都是token
字样, 防⽌各种攻击和反爬
总结
大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!
版权声明:
发现你走远了@mzh原创作品,转载必须标注原文链接
Copyright 2023 mzh
Crated:2023-3-1
欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
『未完待续』