爬虫技术——小白入狱案例
知孤云出岫
目录
- 1. 案例概述
- 2. 案例需求分析
- 3. 实现步骤
- Step 1: 环境准备
- Step 2: 分析百度图片URL请求规律
- Step 3: 编写爬虫代码
- 代码解析
- 4. 运行代码
- 5. 注意事项
- 6. 案例总结
要实现大批量爬取百度图片,可以使用Python编写一个网络爬虫,通过发送HTTP请求并解析网页内容获取图片URL,然后将图片下载到本地。以下是一个详细的技术案例,包括具体实现步骤和代码示例。
1. 案例概述
百度图片搜索页面可以展示大量的图片,我们可以通过分析其请求规律,编写爬虫从页面中获取图片URL,并将图片批量下载。我们将使用requests
库获取网页内容,BeautifulSoup
库解析HTML,re
库进行正则匹配,同时使用多线程或异步库加速下载过程。
2. 案例需求分析
- 目标:批量下载百度图片搜索结果中的优质图片
- 技术栈:Python、requests、BeautifulSoup、正则表达式、线程池
- 难点:
- 爬虫需要模拟浏览器请求,避免被反爬机制检测
- 图片下载需高效且保证成功率
- 百度图片页面的URL是动态生成的,需要正确分析数据接口
3. 实现步骤
Step 1: 环境准备
pip install requests
pip install beautifulsoup4
Step 2: 分析百度图片URL请求规律
在百度图片页面进行搜索,使用浏览器开发者工具(F12)查看网络请求。可以发现,图片信息是通过特定的JSON接口获取的。通常请求的URL格式如下:
https://image.baidu.com/search/acjson?tn=resultjson_com&logid=XXXXX&ipn=rj&ct=201326592&is=&fp=result&queryWord={keyword}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={keyword}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn={page_num}&rn=30
queryWord
和word
是搜索关键词。pn
表示图片页码。rn
表示每页图片数量。
Step 3: 编写爬虫代码
以下代码示例展示了如何构建一个百度图片爬虫。该爬虫首先发起HTTP请求获取JSON数据,再解析其中的图片URL,然后逐一下载图片到本地。
import os
import re
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
# 定义请求头,模拟浏览器行为
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36"
}
# 创建文件夹存储图片
def create_folder(folder_name):
if not os.path.exists(folder_name):
os.makedirs(folder_name)
# 获取图片URL列表
def fetch_image_urls(keyword, page_num):
url = f"https://image.baidu.com/search/acjson?tn=resultjson_com&logid=XXXXX&ipn=rj&ct=201326592&is=&fp=result&queryWord={keyword}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={keyword}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn={page_num*30}&rn=30"
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
# 使用正则表达式提取所有图片的URL
img_urls = re.findall(r'"thumbURL":"(http.*?)"', response.text)
return img_urls
# 下载图片
def download_image(img_url, folder_name):
try:
img_data = requests.get(img_url, headers=headers).content
img_name = os.path.join(folder_name, img_url.split('/')[-1])
with open(img_name, 'wb') as img_file:
img_file.write(img_data)
print(f"Downloaded: {img_name}")
except Exception as e:
print(f"Failed to download {img_url}: {e}")
# 主函数,负责获取URL和下载图片
def main(keyword, num_pages, folder_name="images"):
create_folder(folder_name)
with ThreadPoolExecutor(max_workers=10) as executor:
for page_num in range(num_pages):
img_urls = fetch_image_urls(keyword, page_num)
for img_url in img_urls:
executor.submit(download_image, img_url, folder_name)
# 执行爬虫
if __name__ == "__main__":
search_keyword = "风景" # 可替换成需要的搜索关键词
main(search_keyword, num_pages=5)
代码解析
- 请求图片数据:
fetch_image_urls
函数构造URL并发起请求,返回包含图片URL的列表。 - 图片下载:
download_image
函数负责下载并保存图片,同时使用多线程加速下载过程。 - 多线程下载:
ThreadPoolExecutor
用于并行下载图片。
4. 运行代码
运行以上代码后,会在images
文件夹下存储批量下载的百度图片。根据网络环境和页面数量,可实现高效的图片下载。
5. 注意事项
- 反爬策略:百度可能会检测异常访问频率导致IP封禁。可以通过减少请求频率、使用代理IP等方式规避反爬。
- 使用代理:在高频请求情况下,建议添加代理池来模拟不同IP访问。
- 延时操作:为避免频繁请求导致的封禁,可以在请求间添加随机延时。
6. 案例总结
以上技术案例展示了如何利用Python爬虫实现大批量百度图片的下载。通过合理构造请求、使用正则表达式解析数据,以及使用多线程提升效率,该爬虫具备较好的性能和可拓展性。
步骤编号 | 步骤名称 | 操作说明 | 代码示例 |
---|---|---|---|
1 | 环境准备 | 安装所需的Python库:requests 和beautifulsoup4 | pip install requests pip install beautifulsoup4 |
2 | 分析请求URL格式 | 使用浏览器开发者工具(F12)观察百度图片页面的网络请求,找到获取图片的接口URL。 | URL示例:https://image.baidu.com/search/acjson?... |
3 | 创建图片存储文件夹 | 检查文件夹是否存在,若不存在则创建。 | os.makedirs(folder_name) |
4 | 获取图片URL列表 | 构造请求URL,使用正则表达式提取图片URL。 | fetch_image_urls(keyword, page_num) |
5 | 下载图片 | 通过图片URL下载图片数据并保存到本地文件夹中。 | download_image(img_url, folder_name) |
6 | 多线程并行下载 | 使用ThreadPoolExecutor 进行多线程图片下载,提高下载效率。 | executor.submit(download_image, img_url, folder_name) |
7 | 执行爬虫 | 调用main() 函数,输入关键词和页数,启动爬虫程序,完成图片批量下载。 | main(search_keyword, num_pages=5) |
8 | 反爬策略 | 加入延时、代理IP等措施,避免因高频访问被封禁。 | 使用time.sleep() 或代理池 |
9 | 案例总结 | 通过Python爬虫实现百度图片批量下载,分析URL结构、多线程加速下载,并总结反爬注意事项。 | - |