Python爬虫学习第一弹 —— 爬虫的基础知识 及 requests基础
早上好啊,大佬们。小白兔写的上一篇python基础的文章上了CSDN的每日必读榜,着实让我受宠若惊呐,所以我赶紧努努力更出了这一篇。
众所周知,学一个新东西的时候都需要先知道原理,才能真正学会它,所以我们就来说一说爬虫的实现原理,但是为了避免大家觉得无聊直接放弃,小白兔在中间会增加一些实战案例,让大家在学习的时候多一些成就感。
那么我们就开始吧!~
爬虫的原理
大佬们,这是什么?
众所周知,这是可爱的小白兔。
但今天我们的答案是 网页 ,我们的爬虫也就是行走于形形色色的网页之间,
我们是怎么进入一个网页的?
就是在这里输入我们所需要进入的网页的网址。也就是 url
那么爬虫想要进来也是如此,通过向网页发起http请求,然后就能进入网页。
爬虫的本质 —— http请求
在这里我们所用到的比如requests,httpx让服务器响应内容。
服务器响应之后,也就是进入网页之后,我们就可以开始解析网页,使用HTML解析库解析页面,或者使用JSON解析JSON格式数据。bs4、xpath、正则。
解析数据之后把需要的内容存储入库,比如本地文件,或者数据库。mysql、redis。
也就是如下——
HTTP基础
上面说完了我们的爬虫的实现原理,那么我们现在来看看怎么进入到我们的页面当中,也就是向网页发起 http请求。
http请求方法
(1)GET:向目标服务器请求资源,返回实体主体。
(2)POST :向目标服务器发送资源,例如提交表单。
(3)HEAD:与 GET 类似,不过是用于获取报头,不会返回具体内容。(4)PUT :向目标服务器发送数据以覆盖指定内容
(5)DELETE :请求服务器删除 URL指定内容。
(6)OPTIONS :返回目标服务器针对特定资源的 HTTP 请求方法。
(7)TRACE :用于测试诊断,回显服务器收到的请求。
(8)CONNECT :HTTP/1.1 协议预留给能够将链接修改为管道方式的代理服务器
其中比较重要的是 GET 和 POST ,想必大家多多少少都听说过这两个名词,其它的那些方法都是针对特定情况的便捷方法,但是我们现在就只先掌握 GET 和 POST,对于别的就属于我可以不会,但它不能没有。
GET方法
这个很好理解,就是没进入一个网页就是对它进行了一次GET,就例如说:
黑不拉几的小白兔-CSDN博客
这个是我的主页的网址,然后大家如果要访问它,通过点击进入了这个网页,就是一次GET。
POST方法
它是输入,对于任何你的一个输入操作都是一次POST。
例如说你要登录CSDN,所填写的用户名和密码就是一次POST。
请求报文
这个是我们的http的请求报文,也就是每一个网页都实现了这个。
就例如说我们在页面中右键然后选择检查,打开开发者模式
进到网络一栏里,最开始里面是没有内容的,因为 它所记录的是 从我们打开它之后抓的包,然后我们刷新一下页面,它就开始抓包了。
点进它之后就会显示它的内容,
请求URL就是上面说的统一资源定位符;
请求方法 就是 请求方法;
下面的 请求标头 就是 请求头。
由于这个是GET方法,它是没有请求体的,如果它是POST就会有请求体。
请求头
每一个冒号前的就是请求头。每个网页的请求头或多或少,但大多都是不重要的。
以我的主页这个请求体为例,我们来提一下一些比较重要的。
Accept-Charset
表示客户端可以接受的字符集。
Cookie(重要)
网站用来识别用于身份所用的加密键值对,在需要登录才能访问的网站通常需要携带。
Connection
表示是否需要持久连接,close 代表本次响应后连接可以被关闭:kecpalive 表示长久连接,等待客户端的下次请求。在 HTTP11 下默认会保持持久连接。
Content-Length
请求体的长度。
Conetnt-Type
请求体的数据类型。
Host
请求的主机名。
Referer(重要)
指明用户从该URL出发到达此页面,常用于防盗链技术。
User-Agent(最重要)
服务器用来识别浏览器类型,可以更改这个参数达到切换电脑端与手机端的效果。
状态码
提几个重要的——
(1)200OK :表示请求成功,请求报文中所希望的资源会在响应中被返回,通常在浏览器中正常看到网页内容时就会返回 200 状态码。
(2)206 Partial Content:服务器返回部分内容,这虽然是请求成功,但请求返回的内容是不完整的。此状态码常见于断点续传或者大文件的分段下载传输。
(3)301 Moved Permanently:请求的资源被永久移动到了其他地方,并且之后也不会再将资源移动回来。通常新的 URL 地址会在 HTTP 响应头的 Location 键中返回。
(4)302 Moved Temporarily:请求的资源被临时移动到了其他地方,因此用户今后也应该继续向该 URL 发起请求,而非去请求响应体中返回的新的 URL地址。
(5)400 Bad Request:通常发生这个错误是因为在编写 HTTP 请求的时候,写错了请求参数或者语义有误,导致服务器无法理解。
(6)403 Forbidden:服务器理解了请求,但是拒绝返回内容。此状态码通常是因为网络爬虫恶意访问网站而导致IP地址被标记,再次请求就会被服务器拒绝。(7)404 NotFound:请求内容未在服务器找到,通常是由于网站开发者将内容删除所致。
(8)405 Method NotAllowed:请求方式错误,多数情况是因为请求方法不当所致,例如本应当是模拟登录的 POST 请求,误写为了 GET 请求。
(9)500 Internal Server Error:服务器遇到突发状况,导致无法完成请求处理,通常是因为服务器源代码错误。
(10)502 Bad Gateway:作为网关或者代理工作的服务器在执行请求的时候,从上游服务器收到无效响应。
requests库
这个大家可以参考一下它的官方网站 ——
Requests: 让 HTTP 服务人类 — Requests 2.18.1 文档
下面小白兔来说一下我学的几个感觉比较重要的指令。
下载requests库
首先想要使用这个requests库,我们要先安装一下它。
win + R 输入cmd 打开 终端
然后输入——
pip install requests
就可以开始下载了, 由于我这边已经下载了所以是显示这样的——
get方法
下面先给大家展示一下它的一个基础代码 ——
import requests #导入requests库
url = 'https://requests.readthedocs.io/projects/cn/zh-cn/latest/' #requests官方的url网址
html = requests.get(url) #使用get方法获取它的内容,但是这时候返回的是一个对象
#html的内容为<Response [200]>
print(html.text) #可以使用.text来获取文本内容
它的内容是 ——
按照上面的代码,相信大家都能够看懂,是不是入门很简单呐。
下面也可以通过param参数传递
就比如说,我在bing搜索百度,然后请求它的网页,对于它的页面它是有params参数的,对于这个我们就有了两种方式。
?后面的就是param参数,我们可以直接将它放在网址里,也可以将它分离出来,如下:
#param参数传递
#url = 'https://cn.bing.com/search?q=%E7%99%BE%E5%BA%A6&form=ANNTH1&refig=675fdb676a76431b9dd864bf11db8f7a&pc=CNNDDB'
url = 'https://cn.bing.com/search'
params={
'q':'%E7%99%BE%E5%BA%A6',
'form':'ANNTH1',
'refig':'675fdb676a76431b9dd864bf11db8f7a',
'pc':'CNNDDB'
}#将上面?后面的所有参数都拎出来即可
html = requests.get(url, params=params).text #在这里要加上params参数
print(html)
对于这两种方式是一样的,但是param参数传递的方式在后期维护时会更加容易。
然后大家可以来试一试爬取小白兔的主页 —— 黑不拉几的小白兔-CSDN博客
大佬们来试一试吧~
大家写的是不是这样的呢~
url = 'https://blog.csdn.net/sikimayi?spm=1000.2115.3001.5343'
html = requests.get(url)
print(html.text)
如果是的话,那看来小白兔上面讲的大佬们都学会,但是大家会发现没有输出内容,是不是呢?
这是因为我们在请求时缺少请求头,被网页认为是人机,拒绝访问了。
然后我们要做的就是添加请求头,但是上面我们看到了有很多请求头,我们要加上哪些呢?还是说全都加上,全都加上当然是可以的。
url = 'https://blog.csdn.net/sikimayi?spm=1000.2115.3001.5343'
header={
'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
'accept-encoding':'gzip, deflate, br, zstd',
'accept-language':'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
'cache-control':'no-cache',
'connection':'keep-alive',
'cookie':'UN=sikimayi; historyList-new=%5B%5D; cf_clearance=WDAPY5a1aClkXDMrYoGWfWQ3LiZQMJjtQwj_LRhTTKA-1715063668-1.0.1.1-6g4oFqmF76lA0LQvy2ywwQnp3CC55NrU2z7M2yVUXaCkcCA8oeMntqssBk.J0Ica_xduoh0Sm.DoxgXcjojzUw; p_uid=U010000; Hm_up_6bcd52f51e9b3dce32bec4a3997715ac=%7B%22islogin%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isonline%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isvip%22%3A%7B%22value%22%3A%220%22%2C%22scope%22%3A1%7D%2C%22uid_%22%3A%7B%22value%22%3A%22sikimayi%22%2C%22scope%22%3A1%7D%7D; c_ins_fpage=/index.html; c_ins_um=-; c_ins_prid=1715404249213_525437; c_ins_rid=1715404366529_109704; c_ins_fref=https://mp.csdn.net/mp_blog/creation/editor; uuid_tt_dd=10_21307064330-1715404372209-406850; chat-version=2.1.1; cf_clearance=3ViPw3inhQ1UvfeDksVfv6hQHlV1Q2LFlzqoXGw2Wsc-1716731873-1.0.1.1-f7URGCi82SRQ5wgIsGKdgWvzD.P5yaPVJHyPnEjwoLrT.Sev2DiFU2nKWUiYJPIdnArC7e3IJTgkd7jMVpZeVg; c_adb=1; fid=20_03820729018-1723424909429-580924; UserName=sikimayi; UserInfo=524f7bcffe6d4125b30c150dffe43705; UserToken=524f7bcffe6d4125b30c150dffe43705; UserNick=%E9%BB%91%E4%B8%8D%E6%8B%89%E5%87%A0%E7%9A%84%E5%B0%8F%E7%99%BD%E5%85%94; AU=4B3; BT=1728739535579; tfstk=gNFnNNZJWJkIUbpsVNlCE_rYxZ6tAeGSBud-2bnPQcos2wiKvzrurrkz9DI7ERqgmQnEvJKuEXNTpQndAb4zDbjADsCYRyMSaiIY6kM5BjuHL4--Yh-ZN1rKw5fYRyTNQ38ixsKldy9LU0rrLf8ZRcReYuoy7N0ryHJyTuzNScg-8LREYV5Zy4grabrz7N0SGN9SmkZY_M6H_POIqVPi-vm4StOyZF0eDmUEpQRrx2DHIyoMaQPgBYwNfDWXW0GKAzg3VsOITY2UxVllZCl3AyPrI7IOMv4qzuGL_aJE0JEK_WyDzQzitDk8aA-hjmPQ7SGZBs7075ZLR54Jz_uTDczQTbfVlXcEYf0_wGOEqRyz9vGWYMczS4SredJqRTOS7aFwFLME5VmAQMVplsSBDu7GSK1ZLVgCsNbMFLME5VmASNv2QvusR1f..; Hm_ct_6bcd52f51e9b3dce32bec4a3997715ac=6525*1*10_21307064330-1715404372209-406850!5744*1*sikimayi; fpv=23d15cf5313b47034fb0abb1068a7a42; __gads=ID=cefe4b0b548b67ac:T=1714131904:RT=1731742211:S=ALNI_Ma0bQ5nGMXd5xzlAq9Ig3H8kMA1jg; __gpi=UID=00000dfb8b16ef30:T=1714131904:RT=1731742211:S=ALNI_MZZ8baHj5JcKIrBKC8uIL7wa-h2MA; __eoi=ID=07941110ba5f4b15:T=1730121349:RT=1731742211:S=AA-AfjYoNe86a6hMwK3ig31Y-G8T; csdn_newcert_sikimayi=1; c_dl_prid=1731572780454_126134; c_dl_rid=1734237468885_422311; c_dl_fref=https://task.csdn.net/; c_dl_fpage=/; c_dl_um=-; Hm_lvt_ec8a58cd84a81850bcbd95ef89524721=1734243761; FCNEC=%5B%5B%22AKsRol8kr6FV5NUtnfvVW0Y7Hq5dwYfKI-8bkLjKhisSjOW3QTWYv2msGa0GwjRte3bYcEHS3Q_paqkRcc7p1PzRsF_sk07C4xKy5JduHkYh9TrNT08SUxy-PZTLhIQwNeasCcJRp6KG9BCaiPKqtoVUJv_S5cmwsw%3D%3D%22%5D%5D; sikimayicomment_new=1734246498355; _clck=1w33c94%7C2%7Cfrr%7C0%7C1546; firstDie=1; dc_session_id=10_1734333698240.102570; c_first_ref=default; c_first_page=https%3A//www.csdn.net/%3Fspm%3D1010.2135.3001.4476; c_segment=2; Hm_lvt_6bcd52f51e9b3dce32bec4a3997715ac=1734237964,1734243663,1734310298,1734333705; HMACCOUNT=4EF473FB6D1F7856; https_waf_cookie=bedc784c-01bf-45ae95328a9dfe0437e4d5ba75ec251e04a5; creative_btn_mp=3; c_pref=default; dc_sid=125a764c0e1edc83afd5ede96b925f44; c_dsid=11_1734338086892.782232; c_ref=https%3A//www.csdn.net/%3Fspm%3D1010.2135.3001.4476; c_page_id=default; log_Id_pv=19; Hm_lpvt_6bcd52f51e9b3dce32bec4a3997715ac=1734338189; log_Id_view=604; log_Id_click=23; _clsk=j6ocps%7C1734338836074%7C14%7C0%7Co.clarity.ms%2Fcollect; dc_tos=sokwfv; waf_captcha_marker=3d2d4bd9da493f5cd8a1fe48201c2fb989fc2fe5f641c67125ab1e50bf9b431c',
'host':'blog.csdn.net',
'pragma':'no-cache',
'referer':'https://www.csdn.net/?spm=1010.2135.3001.4476',
'sec-ch-ua':'"Microsoft Edge";v="131", "Chromium";v="131", "Not_A Brand";v="24"',
'sec-ch-ua-mobile':'?0',
'sec-ch-ua-platform':'"Windows"',
'sec-fetch-dest':'document',
'sec-fetch-mode':'navigate',
'sec-fetch-site':'same-site',
'sec-fetch-user':'?1',
'upgrade-insecure-requests':'1',
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0'
}
html = requests.get(url, headers=header)
print(html.text)
但是很麻烦,那么小白兔按照目前所学,在没有反爬虫的网页中一般都需要加的几个是 ——
user-agent , cookie , referer(有一些可能有一些网页没有,那就不用加)
然后再在请求时添加上headers即可。大家可以试试下面的代码。
url = 'https://blog.csdn.net/sikimayi?spm=1000.2115.3001.5343'
headers={
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0',
'cookie':'UN=sikimayi; historyList-new=%5B%5D; cf_clearance=WDAPY5a1aClkXDMrYoGWfWQ3LiZQMJjtQwj_LRhTTKA-1715063668-1.0.1.1-6g4oFqmF76lA0LQvy2ywwQnp3CC55NrU2z7M2yVUXaCkcCA8oeMntqssBk.J0Ica_xduoh0Sm.DoxgXcjojzUw; p_uid=U010000; Hm_up_6bcd52f51e9b3dce32bec4a3997715ac=%7B%22islogin%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isonline%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isvip%22%3A%7B%22value%22%3A%220%22%2C%22scope%22%3A1%7D%2C%22uid_%22%3A%7B%22value%22%3A%22sikimayi%22%2C%22scope%22%3A1%7D%7D; c_ins_fpage=/index.html; c_ins_um=-; c_ins_prid=1715404249213_525437; c_ins_rid=1715404366529_109704; c_ins_fref=https://mp.csdn.net/mp_blog/creation/editor; uuid_tt_dd=10_21307064330-1715404372209-406850; chat-version=2.1.1; cf_clearance=3ViPw3inhQ1UvfeDksVfv6hQHlV1Q2LFlzqoXGw2Wsc-1716731873-1.0.1.1-f7URGCi82SRQ5wgIsGKdgWvzD.P5yaPVJHyPnEjwoLrT.Sev2DiFU2nKWUiYJPIdnArC7e3IJTgkd7jMVpZeVg; c_adb=1; fid=20_03820729018-1723424909429-580924; UserName=sikimayi; UserInfo=524f7bcffe6d4125b30c150dffe43705; UserToken=524f7bcffe6d4125b30c150dffe43705; UserNick=%E9%BB%91%E4%B8%8D%E6%8B%89%E5%87%A0%E7%9A%84%E5%B0%8F%E7%99%BD%E5%85%94; AU=4B3; BT=1728739535579; tfstk=gNFnNNZJWJkIUbpsVNlCE_rYxZ6tAeGSBud-2bnPQcos2wiKvzrurrkz9DI7ERqgmQnEvJKuEXNTpQndAb4zDbjADsCYRyMSaiIY6kM5BjuHL4--Yh-ZN1rKw5fYRyTNQ38ixsKldy9LU0rrLf8ZRcReYuoy7N0ryHJyTuzNScg-8LREYV5Zy4grabrz7N0SGN9SmkZY_M6H_POIqVPi-vm4StOyZF0eDmUEpQRrx2DHIyoMaQPgBYwNfDWXW0GKAzg3VsOITY2UxVllZCl3AyPrI7IOMv4qzuGL_aJE0JEK_WyDzQzitDk8aA-hjmPQ7SGZBs7075ZLR54Jz_uTDczQTbfVlXcEYf0_wGOEqRyz9vGWYMczS4SredJqRTOS7aFwFLME5VmAQMVplsSBDu7GSK1ZLVgCsNbMFLME5VmASNv2QvusR1f..; Hm_ct_6bcd52f51e9b3dce32bec4a3997715ac=6525*1*10_21307064330-1715404372209-406850!5744*1*sikimayi; fpv=23d15cf5313b47034fb0abb1068a7a42; __gads=ID=cefe4b0b548b67ac:T=1714131904:RT=1731742211:S=ALNI_Ma0bQ5nGMXd5xzlAq9Ig3H8kMA1jg; __gpi=UID=00000dfb8b16ef30:T=1714131904:RT=1731742211:S=ALNI_MZZ8baHj5JcKIrBKC8uIL7wa-h2MA; __eoi=ID=07941110ba5f4b15:T=1730121349:RT=1731742211:S=AA-AfjYoNe86a6hMwK3ig31Y-G8T; csdn_newcert_sikimayi=1; c_dl_prid=1731572780454_126134; c_dl_rid=1734237468885_422311; c_dl_fref=https://task.csdn.net/; c_dl_fpage=/; c_dl_um=-; Hm_lvt_ec8a58cd84a81850bcbd95ef89524721=1734243761; FCNEC=%5B%5B%22AKsRol8kr6FV5NUtnfvVW0Y7Hq5dwYfKI-8bkLjKhisSjOW3QTWYv2msGa0GwjRte3bYcEHS3Q_paqkRcc7p1PzRsF_sk07C4xKy5JduHkYh9TrNT08SUxy-PZTLhIQwNeasCcJRp6KG9BCaiPKqtoVUJv_S5cmwsw%3D%3D%22%5D%5D; sikimayicomment_new=1734246498355; _clck=1w33c94%7C2%7Cfrr%7C0%7C1546; firstDie=1; dc_session_id=10_1734333698240.102570; c_first_ref=default; c_first_page=https%3A//www.csdn.net/%3Fspm%3D1010.2135.3001.4476; c_segment=2; Hm_lvt_6bcd52f51e9b3dce32bec4a3997715ac=1734237964,1734243663,1734310298,1734333705; HMACCOUNT=4EF473FB6D1F7856; https_waf_cookie=bedc784c-01bf-45ae95328a9dfe0437e4d5ba75ec251e04a5; creative_btn_mp=3; c_pref=default; c_dsid=11_1734333770741.956350; c_ref=https%3A//www.csdn.net/%3Fspm%3D1010.2135.3001.4476; log_Id_click=16; c_page_id=default; log_Id_pv=13; Hm_lpvt_6bcd52f51e9b3dce32bec4a3997715ac=1734337607; log_Id_view=427; _clsk=j6ocps%7C1734337608179%7C8%7C0%7Co.clarity.ms%2Fcollect; dc_sid=125a764c0e1edc83afd5ede96b925f44; dc_tos=sokvqn',
'referer':'https://www.csdn.net/?spm=1010.2135.3001.4476'
}
html = requests.get(url, headers=headers)
print(html.text)
然后大家就会发现有输出了。
encoding解码
然后还有一个要提的就是encoding,有时候爬取下来的内容会有乱码,那就是我们的编码格式不匹配,这时候就需要使用encoding了。
但是在官方网站中所说,现在的requests会自动匹配编码格式,不需要我们自己去修改。
很抱歉就是小白兔没有找到需要修改编码方式的网页,这里没办法展示一下, 但是大家要知道这么一个东西。
2进制内容
就比如说图片就是 二进制 的内容,那么我们获取二进制内容时,需要怎么做呢?
小白兔这里来获取一下我的CSDN的头像,首先我们在获取的包里找到头像的那个文件,可以在预览里面看。
#二进制获取
url = 'https://profile-avatar.csdnimg.cn/8435f35237f0475886629fa322489b34_sikimayi.jpg!1'
headers={
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0',
'referer':'https://blog.csdn.net/sikimayi?spm=1000.2115.3001.5343'
}
html = requests.get(url).content #这里我们就获取到了我们的图片二进制内容
#下面是将它存储到本地
with open('image.jpg', 'wb') as f: #w表示写入,我们所写入的是二进制所以加一个b,也就是wb
f.write(html)
f.close()
运行之后,我们就会获取到小白兔的头像。
大家也可以自己尝试一下爬取自己的头像,在评论区交作业喔。
json内容
我们下面来获取一下json格式的内容。
百度图片就是用json文件存储的,我们就以此为例。
搜索 小白兔 ,然后打开检查,网络,下滑页面,抓到包之后,找到json文件。
json文件 基本名称开头都是 acjson? 并且在预览中的内容是用花括号括起来的。
#json获取
url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&logid=8027333815762557034&ipn=rj&ct=201326592&is=&fp=result&fr=&word=%E5%B0%8F%E7%99%BD%E5%85%94&queryWord=%E5%B0%8F%E7%99%BD%E5%85%94&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=©right=&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&expermode=&nojc=&isAsync=&pn=150&rn=30&gsm=96&1734341076917='
headers={
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0',
'referer':'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&dyTabStr=MCwzLDEsMiwxMyw3LDYsNSwxMiw5&word=%E5%B0%8F%E7%99%BD%E5%85%94',
'cookie':'BDqhfp=%E5%B0%8F%E7%99%BD%E5%85%94%26%26NaN-1undefined%26%260%26%261; __bid_n=18c5721ec1002883fd379a; BAIDU_WISE_UID=wapp_1705300269322_914; MCITY=-244%3A; BAIDUID_BFESS=1950BE8816E9AA2145C877D9356CC8AE:FG=1; b2b_first=1712754131; BIDUPSID=1950BE8816E9AA2145C877D9356CC8AE; PSTM=1729860651; H_WISE_SIDS=110085_603324_307086_613053_618439_620010_621395_610631_621039_1991638_1991569_311849_1992049_617085_622907_620484_623659_612886_623792_623846_607111_623957_623998_624229_624264_620145_623183_618115_623536_624893_625047_625103_607028_625150_625173_624840_625163_621954_623990_625270_625094_625286_625298_625229_625312_625315_625457_618460_625318_625434_623209_625495_625249_612517_625431_625433_625574_625648_1992004_610106_623879_623874_625775_625788_625965_625973_624282_625622_625954_625344_626068_626148_625796_612952_626127_625239_626270_626411_625316_1991790_626548_626571_626580_626574_626608_626375_626070_623932_626645_620371_626283_625625_625613_624023; H_WISE_SIDS_BFESS=110085_603324_307086_613053_618439_620010_621395_610631_621039_1991638_1991569_311849_1992049_617085_622907_620484_623659_612886_623792_623846_607111_623957_623998_624229_624264_620145_623183_618115_623536_624893_625047_625103_607028_625150_625173_624840_625163_621954_623990_625270_625094_625286_625298_625229_625312_625315_625457_618460_625318_625434_623209_625495_625249_612517_625431_625433_625574_625648_1992004_610106_623879_623874_625775_625788_625965_625973_624282_625622_625954_625344_626068_626148_625796_612952_626127_625239_626270_626411_625316_1991790_626548_626571_626580_626574_626608_626375_626070_623932_626645_620371_626283_625625_625613_624023; ZFY=auY0yeWqsTeEnYundhJhZLZobYqzsWFB0sHPUn8UDu0:C; RT="z=1&dm=baidu.com&si=24442a58-0839-48c8-8aad-33c061d12f01&ss=m4pix1at&sl=0&tt=0&bcn=https%3A%2F%2Ffclog.baidu.com%2Flog%2Fweirwood%3Ftype%3Dperf&ld=4f4&ul=5rz2o&hd=5rz83"; BDRCVFR[BIVAaPonX6T]=-_EV5wtlMr0mh-8uz4WUvY; H_PS_PSSID=61027_61156_61245_61246_60853_61368_61392_61388_61408_61430; BA_HECTOR=21248l8l000l2h8la5aha1858earpq1jlvovq1v; PSINO=2; delPer=0; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; userFrom=www.baidu.com; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; ab_sr=1.0.1_NzcyZDQ4ZTI1NmZjOTcwMTg5NzRkNTJkNzQ1YTM2ZDA0ZDQ1OTFjY2MxMWJiMTU3MDA1ODg0OGRiN2YwM2Y3MmJlNjFmNTBmYmFkNDZlMWJkMDQ0MGQ2YzdlZTQ1NTYyYmIxYmE5YmFiNGY0MzhlM2NjODMyOTUxMmM2ZDUzNTdmN2Q2NTEzY2M1MWFmN2RhZmM4ZWRiMTNiOGY1YWRlMmI1ZDMwNGE3Mzc0Nzg3NjFjYmRiZDU0NzhiYWFkMWM2Y2Q2MmM5OGY0MDEzZjRlNzU2Y2Q0MzcwNWRjNDdmMjQ='
}
html = requests.get(url, headers=headers).json()
print(html)
这样我们就取下来了,然后获取的是个字典格式的内容,就可以通过索引来获取内容。
#json获取
url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&logid=8027333815762557034&ipn=rj&ct=201326592&is=&fp=result&fr=&word=%E5%B0%8F%E7%99%BD%E5%85%94&queryWord=%E5%B0%8F%E7%99%BD%E5%85%94&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=©right=&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&expermode=&nojc=&isAsync=&pn=150&rn=30&gsm=96&1734341076917='
headers={
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0',
'referer':'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&dyTabStr=MCwzLDEsMiwxMyw3LDYsNSwxMiw5&word=%E5%B0%8F%E7%99%BD%E5%85%94',
'cookie':'BDqhfp=%E5%B0%8F%E7%99%BD%E5%85%94%26%26NaN-1undefined%26%260%26%261; __bid_n=18c5721ec1002883fd379a; BAIDU_WISE_UID=wapp_1705300269322_914; MCITY=-244%3A; BAIDUID_BFESS=1950BE8816E9AA2145C877D9356CC8AE:FG=1; b2b_first=1712754131; BIDUPSID=1950BE8816E9AA2145C877D9356CC8AE; PSTM=1729860651; H_WISE_SIDS=110085_603324_307086_613053_618439_620010_621395_610631_621039_1991638_1991569_311849_1992049_617085_622907_620484_623659_612886_623792_623846_607111_623957_623998_624229_624264_620145_623183_618115_623536_624893_625047_625103_607028_625150_625173_624840_625163_621954_623990_625270_625094_625286_625298_625229_625312_625315_625457_618460_625318_625434_623209_625495_625249_612517_625431_625433_625574_625648_1992004_610106_623879_623874_625775_625788_625965_625973_624282_625622_625954_625344_626068_626148_625796_612952_626127_625239_626270_626411_625316_1991790_626548_626571_626580_626574_626608_626375_626070_623932_626645_620371_626283_625625_625613_624023; H_WISE_SIDS_BFESS=110085_603324_307086_613053_618439_620010_621395_610631_621039_1991638_1991569_311849_1992049_617085_622907_620484_623659_612886_623792_623846_607111_623957_623998_624229_624264_620145_623183_618115_623536_624893_625047_625103_607028_625150_625173_624840_625163_621954_623990_625270_625094_625286_625298_625229_625312_625315_625457_618460_625318_625434_623209_625495_625249_612517_625431_625433_625574_625648_1992004_610106_623879_623874_625775_625788_625965_625973_624282_625622_625954_625344_626068_626148_625796_612952_626127_625239_626270_626411_625316_1991790_626548_626571_626580_626574_626608_626375_626070_623932_626645_620371_626283_625625_625613_624023; ZFY=auY0yeWqsTeEnYundhJhZLZobYqzsWFB0sHPUn8UDu0:C; RT="z=1&dm=baidu.com&si=24442a58-0839-48c8-8aad-33c061d12f01&ss=m4pix1at&sl=0&tt=0&bcn=https%3A%2F%2Ffclog.baidu.com%2Flog%2Fweirwood%3Ftype%3Dperf&ld=4f4&ul=5rz2o&hd=5rz83"; BDRCVFR[BIVAaPonX6T]=-_EV5wtlMr0mh-8uz4WUvY; H_PS_PSSID=61027_61156_61245_61246_60853_61368_61392_61388_61408_61430; BA_HECTOR=21248l8l000l2h8la5aha1858earpq1jlvovq1v; PSINO=2; delPer=0; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; userFrom=www.baidu.com; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; ab_sr=1.0.1_NzcyZDQ4ZTI1NmZjOTcwMTg5NzRkNTJkNzQ1YTM2ZDA0ZDQ1OTFjY2MxMWJiMTU3MDA1ODg0OGRiN2YwM2Y3MmJlNjFmNTBmYmFkNDZlMWJkMDQ0MGQ2YzdlZTQ1NTYyYmIxYmE5YmFiNGY0MzhlM2NjODMyOTUxMmM2ZDUzNTdmN2Q2NTEzY2M1MWFmN2RhZmM4ZWRiMTNiOGY1YWRlMmI1ZDMwNGE3Mzc0Nzg3NjFjYmRiZDU0NzhiYWFkMWM2Y2Q2MmM5OGY0MDEzZjRlNzU2Y2Q0MzcwNWRjNDdmMjQ='
}
html = requests.get(url, headers=headers).json()
for i in html['data']: #middleURL是在data里面
print(i.get('middleURL')) #因为对于最后一个内容,它是空的,没有middleURL所以返回None
POST方法
#post
url='http://httpbin.org/post'
data={
'name':'黑不拉几的小白兔',
'age':20,
'fans':472
}
html=requests.post(url,data=data)
print(html.text)
网站返回了这些内容,里面包含了我们发送过去的内容,也就是我们发送成功了。
下面还有两个大家也可以看一下。
尾声
好了,那么我们这一期到这里就结束了,不知道大家学得怎么样,本期写的代码在下面提供给大家,可以用来复习。
链接:夸克网盘分享
提取码:Lw3E
解压密码:hbljdxbt
爬虫一定要多多练习喔,只有多遇到一些问题才会进步的更快,大家可以自己尝试着获取一下自己的CSDN的头像,或者获取一下百度图片,评论区交作业喔~
大家可以多多交流一下,小白兔也是新手,希望大家多教一下。
期待一下下一期的内容吧,会很有意思喔,超级有成就感的。ByeBye~