当前位置: 首页 > article >正文

如何设置爬虫的延时避免被封禁

在使用爬虫获取数据时,合理设置延时是避免被目标网站封禁的关键策略之一。以下是一些常见的方法和技巧:

一、使用 time.sleep() 设置固定延时

time.sleep() 是 Python 中最常用的延时方法,可以在每次请求之间设置固定的延时,从而降低请求频率。

Python

import time
import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
}

urls = ["http://example.com/page1", "http://example.com/page2"]  # 示例URL列表

for url in urls:
    response = requests.get(url, headers=headers)
    time.sleep(1)  # 每次请求间隔1秒

二、使用随机延时

为了更好地模拟真实用户的行为,可以设置随机延时。这可以通过 random.uniform()random.randint() 实现。

Python

import time
import random
import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
}

urls = ["http://example.com/page1", "http://example.com/page2"]  # 示例URL列表

for url in urls:
    response = requests.get(url, headers=headers)
    delay = random.uniform(0.5, 2.0)  # 随机延时0.5到2秒
    time.sleep(delay)

三、使用 Scrapy 框架的 DOWNLOAD_DELAY 设置延时

如果你使用的是 Scrapy 框架,可以通过设置 DOWNLOAD_DELAY 来控制请求间隔。

Python

# 在 settings.py 中设置
DOWNLOAD_DELAY = 2  # 每次请求间隔2秒

此外,还可以结合 RandomDelayMiddleware 实现随机延时。

四、使用代理服务器

使用代理服务器可以隐藏真实 IP 地址,降低被封禁的风险。可以结合 requests 库使用代理。

Python

import requests
import random

proxy_list = [
    {"http": "http://proxy1.example.com:8080"},
    {"http": "http://proxy2.example.com:8080"},
]

url = "http://example.com/data"

for _ in range(5):  # 示例:发送5次请求
    proxy = random.choice(proxy_list)
    response = requests.get(url, proxies=proxy)
    time.sleep(1)  # 每次请求间隔1秒

五、结合其他策略

除了设置延时,还可以结合其他策略来降低被封禁的风险:

  • 随机更换 User-Agent:模拟不同的浏览器访问。

  • 遵守 robots.txt 文件:遵循目标网站的爬取规则。

  • 使用会话和 Cookies:模拟真实用户的浏览行为。

六、总结

合理设置延时是避免爬虫被封禁的重要策略。通过使用 time.sleep() 设置固定延时、使用随机延时、结合 Scrapy 框架的 DOWNLOAD_DELAY、使用代理服务器以及结合其他策略,可以有效降低爬虫被封禁的风险。在实际应用中,建议根据目标网站的实际情况灵活调整延时策略。


http://www.kler.cn/a/590647.html

相关文章:

  • LeetCode Hot 100:1.两数之和、49.字母异位词分组、128.最长连续序列、283.移动零、11.盛水最多的容器
  • DNA语言模型GROVER学习人类基因组中的序列上下文
  • C/C++都有哪些开源的Web框架?
  • go语言的包使用,以及错误处理
  • 欧拉降幂-乘积幂次
  • 深入理解 IP、子网掩码、端口号和协议
  • Spring Cloud Config - 动态配置管理与高可用治理
  • 大型语言模型(LLM):解码人工智能的“语言基因“
  • Qt中打开windows的cmd窗口并显示
  • TypeScript接口 interface 高级用法完全解析
  • 深度学习-服务器训练SparseDrive过程记录
  • 文件包含与下载漏洞
  • JavaScript 元编程革命:Proxy 如何重塑语言本质
  • LLM对齐方法作用:主要解决大型语言模型(LLMs)输出与人类价值观、需求和安全规范不一致的问题
  • 【华为OD机考真题】- 用户调度问题(Java)
  • 使用zenodo-upload进行zenodo大文件上传
  • 【力扣】2666. 只允许一次函数调用——认识高阶函数
  • CellOracle|基因扰动研究基因功能|基因调控网络+虚拟干预
  • 大模型推理:LM Studio在Mac上部署Deepseek-R1模型
  • Windows安卓子系统WSA安装面具Root