当前位置：首页 > article >正文

爬虫2：web请求与http

article 2025/3/11 15:39:40

1.服务器渲染：在服务器那边直接把数据和html整合在一起，统一返回给浏览器
2.客户端渲染：请求网页时候服务器只返回html骨架，客户端再次请求数据时候再返回数据，进行数据展示（在页面源代码中看不到数据）
熟悉使用浏览器抓包工具F12

请求：
请求航：请求方式get/post，请求url地址，协议
请求头：放一些服务器要使用的附加信息
请求体：一般放一些请求参数

响应：
状态行：协议，状态码 200,404,500，419被发现了，
响应头：放一些客户端要使用的一些附加信息
响应体：服务器返回的真正客户端要用的内容（HTML，json）等

请求头中最常见的一些重要内容（爬虫需要）：

user-agent：请求载体的身份标识（用啥发送的骑牛）
Referer：防盗链（这次请求是从哪个页面来的，反爬用到）
cookie：本地字符串数据信息（用户登录信息，反爬的token)
响应头中一些重要的内容：
1.cookie:本地字符串数据信息（用户登录信息，反爬的token)
2.各种神奇的莫名其妙的字符串(这个需要经验了，一般都是token字样，防止各种攻击和反爬)

请求方式：
get: 显式
post：隐式

"""
下载在reqyests
"""

import requests

# query = input("输")

url = 'https://www.sogou.com/web?query=周杰伦'

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0",
}

resp = requests.get(url, headers=headers,verify=False)

# print(resp)
# print(resp.text)

url = 'https://fanyi.baidu.com/sug'

dat = {
    "kw": 'hello'
}
# 发送post
resp = requests.post(url, data=dat, verify=False)
# print(resp.text)
# 将服务器返回的json字符串转换成字典
# print(resp.json())


# 爬取指定的
url = 'https://movie.douban.com/j/chart/top_list'

# 重新封装参数
param = {
"type": "11",
"interval_id": "100:90",
"action": "",
"start": 0,
"limit": 20,
}

resp = requests.get(url, params=param,headers=headers,verify=False)

print(resp.json())

resp.close() # 访问次数可能被墙，以为和服务器连接数过多，所以需要关闭连接