1.简单的爬虫
1.数据在哪里?
- 在页面源码里
- 直接获取数据
- 不在页面源码里
- 找到真正获取数据的URL,再获取数据
2.requests模块
-
安装
pip install requests pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests
-
抓网站文字数据
import requests url = "https://gaze.run/" header = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3", } resp = requests.get(url) # 检查响应状态码 if resp.status_code == 200: # 检查响应内容是否包含特定字符串 if "斗破苍穹" in resp.text: print("Website is up!") else: print("Website is down!")
-
抓网站图片、视频、音频
import requests url = "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2578474613.jpg" resp = requests.get(url) file_name = url.split("/")[-1] with open(file_name, mode="wb") as f: f.write(resp.content) # resp.content得到的是bytes(字节)
-
知识点汇总
- 请求
requests.get()
,发送get
请求,请求的参数可以放在url里面,也可以传递给params
requestes.post()
,发送post
请求,请求参数放在字典里,再传递给data
- 响应
resp.text
接收文本resp.json()
接收json
字符串resp.content
接收字节
- 请求