当前位置：首页 > article >正文

如何设置爬虫的IP代理？

article 2025/2/21 23:51:32

在爬虫中设置IP代理是应对反爬机制、隐藏真实IP、提高爬取效率的重要手段。以下是几种常见的设置IP代理的方法，适用于Python爬虫：

1. 使用`requests`库设置静态代理

requests库支持通过proxies参数设置代理。你可以直接在请求中传入代理IP，实现简单的代理功能。

import requests

# 设置代理
proxies = {
    "http": "http://your_proxy_ip:your_proxy_port",
    "https": "https://your_proxy_ip:your_proxy_port"
}

# 发送请求
response = requests.get("http://example.com", proxies=proxies)
print(response.text)

2. 动态切换代理

在爬虫运行过程中，动态切换代理IP可以有效避免因频繁请求导致的IP封禁。可以通过编写一个函数，随机选择代理IP来实现这一功能。

import random

# 代理IP池
proxy_list = [
    "http://proxy1:port",
    "http://proxy2:port",
    "http://proxy3:port"
]

def get_random_proxy():
    return random.choice(proxy_list)

# 使用随机代理IP
proxies = {
    "http": get_random_proxy(),
    "https": get_random_proxy()
}

response = requests.get("http://example.com", proxies=proxies)
print(response.text)

3. 使用代理服务API

一些代理服务提供商提供API接口，可以动态获取新的代理IP。这种方式适用于需要频繁更换IP的场景。

import requests

# 获取代理IP的API
proxy_api = "http://api.dmdaili.com/dmgetip.asp?apikey=YOUR_API_KEY&fengefu=&operate=all"
proxy_response = requests.get(proxy_api)
proxy_ip = proxy_response.text.strip()

# 使用获取到的代理IP
proxies = {
    "http": proxy_ip,
    "https": proxy_ip
}

response = requests.get("http://example.com", proxies=proxies)
print(response.text)

4. 使用爬虫框架（如Scrapy）设置代理

在Scrapy框架中，可以通过自定义中间件来设置代理IP。

在`settings.py`中配置代理中间件：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
    'your_project_name.middlewares.ProxyMiddleware': 100,
}

在`middlewares.py`中定义代理中间件：

import random

class ProxyMiddleware(object):
    def process_request(self, request, spider):
        proxy_list = [
            "http://proxy1:port",
            "http://proxy2:port",
            "http://proxy3:port"
        ]
        proxy = random.choice(proxy_list)
        request.meta['proxy'] = proxy