当前位置：首页 > article >正文

【Python网络爬虫笔记】14-使用代理绕过访问限制

article 2025/2/27 22:25:55

【Python网络爬虫笔记】14-网络代理

- 目录
- 什么是代理？
- 为什么需要使用代理？
- 代理的类型
- 如何在Python中使用代理？
- - 使用`requests`库设置代理
  - 使用`urllib`库设置代理
  - 使用`scrapy`框架设置代理
- 典型案例：使用代理爬取豆瓣电影Top250
- - 步骤1：安装依赖库
  - 步骤2：编写爬虫代码
  - 步骤3：运行代码
- 总结

在网络爬虫开发中，代理（Proxy）是一个非常重要的工具。它可以帮助我们隐藏真实IP地址、绕过访问限制、提高爬取效率等。本文将详细介绍如何在Python网络爬虫中使用代理，并提供一个典型案例来帮助大家更好地理解代理的应用。

什么是代理？

代理服务器（Proxy Server）是位于客户端和目标服务器之间的中间服务器。当我们通过代理服务器发送请求时，目标服务器看到的是代理服务器的IP地址，而不是我们的真实IP地址。这样，代理服务器可以起到隐藏真实IP、缓存数据、过滤内容等作用。
免费代理网站：
在这里插入图片描述

为什么需要使用代理？

在网络爬虫中，使用代理有以下几个主要原因：

隐藏真实IP：防止目标网站封禁我们的IP地址。
绕过访问限制：有些网站会根据IP地址限制访问频率或地区，使用代理可以绕过这些限制。
提高爬取效率：通过多个代理IP轮换请求，可以避免因频繁请求而被封禁。
数据采集：有些网站会根据用户的地理位置显示不同的内容，使用代理可以获取不同地区的数据。

代理的类型

代理服务器可以根据不同的标准进行分类，常见的分类方式有：

匿名性：
- 透明代理：目标服务器可以识别出我们使用了代理，并且知道我们的真实IP。
- 匿名代理：目标服务器知道我们使用了代理，但不知道我们的真实IP。
- 高匿代理：目标服务器无法识别出我们使用了代理，也无法获取我们的真实IP。
协议：
- HTTP代理：主要用于HTTP请求。
- HTTPS代理：主要用于HTTPS请求。
- SOCKS代理：支持多种协议，包括HTTP、HTTPS、FTP等。
来源：
- 免费代理：免费提供的代理IP，通常不稳定且速度较慢。
- 付费代理：付费使用的代理IP，通常更稳定、速度更快。

如何在Python中使用代理？

在Python中，使用代理非常简单。我们可以通过requests库或urllib库来设置代理。下面是一些常见的用法示例。

使用`requests`库设置代理

requests库是Python中最常用的HTTP库之一，它提供了非常简单的接口来设置代理。

import requests

# 设置代理
proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'http://10.10.1.10:1080',
}

# 发送请求
response = requests.get('http://example.com', proxies=proxies)

# 输出响应内容
print(response.text)

在这里插入图片描述

使用`urllib`库设置代理

urllib是Python标准库中的一个模块，也可以用来设置代理。

import urllib.request

# 设置代理
proxy_handler = urllib.request.ProxyHandler({
    'http': 'http://10.10.1.10:3128',
    'https': 'http://10.10.1.10:1080',
})

# 创建opener
opener = urllib.request.build_opener(proxy_handler)

# 发送请求
response = opener.open('http://example.com')

# 输出响应内容
print(response.read().decode('utf-8'))

使用`scrapy`框架设置代理

如果我们使用的是scrapy框架，可以通过在settings.py中设置代理。

# settings.py
PROXY = 'http://10.10.1.10:3128'

# 在middleware中使用代理
class ProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = PROXY

# 启用middleware
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.ProxyMiddleware': 350,
}

典型案例：使用代理爬取豆瓣电影Top250

下面我们通过一个典型案例来演示如何在Python网络爬虫中使用代理。我们将使用requests库和代理来爬取豆瓣电影Top250的数据。

步骤1：安装依赖库

首先，我们需要安装requests库和BeautifulSoup库。

pip install requests beautifulsoup4

步骤2：编写爬虫代码

import requests
from bs4 import BeautifulSoup

# 设置代理
proxies = {
    'http': 'http://your-proxy-ip:port',
    'https': 'http://your-proxy-ip:port',
}

# 豆瓣电影Top250的URL
url = 'https://movie.douban.com/top250'

# 发送请求
try:
    response = requests.get(url, proxies=proxies, headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    })
    response.raise_for_status()
except requests.exceptions.RequestException as e:
    print("请求失败:", e)
    exit()

# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')

# 提取电影信息
movies = soup.find_all('div', class_='hd')
for movie in movies:
    title = movie.a.span.text
    print("电影标题:", title)