当前位置：首页 > article >正文

【Python爬虫(24)】Redis：Python爬虫的秘密武器

article 2025/2/22 3:18:56

【Python爬虫】专栏简介：本专栏是 Python 爬虫领域的集大成之作，共 100 章节。从 Python 基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。

一、Redis 数据结构大揭秘
- 1.1 字符串（String）
- 1.2 哈希（Hash）
- 1.3 列表（List）
- 1.4 集合（Set）
- 1.5 有序集合（Zset）
二、Redis 作为爬虫任务队列的奇妙之旅
- 2.1 添加任务
- 2.2 获取任务
- 2.3 任务去重
三、Redis 在缓存爬取数据中的神奇功效
- 3.1 缓存网页内容
- 3.2 缓存数据结果
四、总结与展望

一、Redis 数据结构大揭秘

Redis 作为一款高性能的键值对数据库，其丰富的数据结构为爬虫开发提供了强大的支持。在深入探讨 Redis 在爬虫中的应用之前，我们先来详细了解一下 Redis 的五种基本数据结构：字符串（String）、哈希（Hash）、列表（List）、集合（Set）和有序集合（Zset）。

1.1 字符串（String）

字符串是 Redis 最基础的数据结构，一个键对应一个值，且值的类型为字符串。它基于简单动态字符串（SDS）实现，具备诸多特性。例如，SDS 会进行空间预分配，当字符串长度增加时，若所需空间小于当前剩余空间则直接使用，否则会额外分配未使用空间的两倍大小，减少频繁内存分配开销；并且具有惰性释放特性，当缩短字符串时，并不会立即释放多余空间，而是留作后续使用；同时它是二进制安全的，能存储任意格式的数据，包括图片、序列化对象等，单个键值对最大可存储 512MB 数据。

在爬虫场景中，字符串常用于存储临时数据，比如代理 IP。在爬取过程中，为避免被目标网站封禁，需要频繁更换代理 IP，就可以将代理 IP 以字符串形式存储在 Redis 中，如使用 SET proxy:ip “123.45.67.89:8080” 命令将代理 IP 存入，使用时通过 GET proxy:ip 获取。此外，也可存储请求头、cookies 等信息，方便爬虫在请求时使用。

1.2 哈希（Hash）

哈希结构可以看作是一个小型的 map 对象，由多个键值对集合组成，每个键值对中的键和值都是字符串类型。在爬虫中，当需要存储结构化的数据时，哈希就派上了用场。比如按网站或关键词分类存储数据，以爬取电商网站商品信息为例，对于每个商品的信息，如商品 ID、名称、价格、销量等，可以使用一个哈希来存储。假设商品 ID 为 12345，使用 HMSET product:12345 “name” “手机” “price” “3999” “sales” “1000” 这样的命令，就可以将商品的各项信息存储在名为 product:12345 的哈希中。后续如果要查询该商品的价格，通过 HGET product:12345 “price” 就能快速获取，这种方式便于对特定 URL 对应的内容进行分类管理和查询。

1.3 列表（List）

列表是一个线性的有序结构，它底层采用了 ziplist（压缩列表）或 linkedlist（链表）存储，能根据实际数据情况自动选择合适的存储方式以节省内存。在列表中可以从两端进行插入（LPUSH、RPUSH）和弹出（LPOP、RPOP）操作，这使得它非常适合实现消息队列，满足先进先出（FIFO）或先进后出（LIFO）的需求。

在爬虫应用中，列表常被用来实现消息队列。例如，将待爬取的 URL 存储在列表中，爬虫程序从列表中取出 URL 进行爬取。当有新的 URL 需要爬取时，使用 LPUSH 命令将其添加到列表头部，爬虫则通过 RPOP 命令从列表尾部获取 URL，保证先进入列表的 URL 先被爬取。此外，还可以利用列表保存最新的消息列表，如爬取新闻网站时，将最新的新闻 URL 按照发布时间顺序存储在列表中，方便后续获取最新内容。

1.4 集合（Set）

集合是一个无序且元素不可重复的数据结构，它利用哈希表实现，因此在查找元素时具有非常高的效率，时间复杂度为 O (1)。在爬虫中，集合主要用于存储 URL 集合，以实现去重功能。当爬虫获取到一个新的 URL 时，首先将其添加到 Redis 的集合中，添加时如果集合中已存在该 URL，则添加失败，从而避免对同一 URL 进行重复爬取。比如使用 SADD urls “http://example.com"命令将 URL 添加到名为 urls 的集合中，每次添加前通过 SISMEMBER urls"http://example.com” 检查 URL 是否已存在，若存在则不再爬取，大大提高了爬虫的效率，避免了重复劳动。

1.5 有序集合（Zset）

有序集合是在集合的基础上，为每个元素关联了一个分数（score），通过这个分数来对元素进行排序。有序集合在实现上结合了哈希表和跳跃表（skiplist），既能保证元素的唯一性，又能高效地进行范围查询和排序操作。

在爬虫场景中，有序集合可用于按任务优先级或时间排序执行任务。例如，为每个待爬取的 URL 分配一个优先级分数，重要性高的 URL 分数设置得高，爬虫在获取任务时，通过 ZRANGEBYSCORE 命令按照分数从高到低获取 URL，优先爬取重要性高的页面。或者按照时间戳为 URL 分配分数，实现按照时间顺序爬取新更新的页面，确保爬虫能够及时获取最新的信息。

二、Redis 作为爬虫任务队列的奇妙之旅

在爬虫开发中，任务队列是一个至关重要的组件，它负责管理待爬取的任务，确保爬虫程序能够有序地进行数据抓取。Redis 的列表（List）数据结构以其出色的性能和简单易用的特性，成为实现爬虫任务队列的理想选择。下面我们将深入探讨如何使用 Redis 作为爬虫的任务队列，包括添加任务、获取任务以及任务去重等关键操作。

2.1 添加任务

在爬虫任务中，最常见的任务就是待爬取的 URL。我们可以使用 Redis 的 RPUSH 命令（如果希望任务按照后进先出的顺序执行，则使用 LPUSH 命令）将这些 URL 添加到任务队列中。在 Python 中，借助 redis - py 库可以轻松实现这一操作。示例代码如下：

import redis

# 连接Redis
r = redis.Redis(host='localhost', port=6379, db=0)

# 待爬取的URL列表
urls = [
    'http://example.com/page1',
    'http://example.com/page2',
    'http://example.com/page3'
]

# 将URL添加到任务队列
for url in urls:
    r.rpush('task_queue', url)

在上述代码中，首先通过redis.Redis方法连接到本地的 Redis 服务器。然后定义了一个包含多个待爬取 URL 的列表urls。最后，通过循环遍历urls列表，使用r.rpush(‘task_queue’, url)将每个 URL 添加到名为task_queue的任务队列中。这里的task_queue是自定义的队列名称，你可以根据实际需求进行修改。

2.2 获取任务

爬虫从任务队列中获取任务时，通常希望在队列为空时能够阻塞等待，而不是不断地进行空轮询，这样可以节省系统资源。Redis 提供了 BRPOP（从右侧阻塞式弹出）和 BLPOP（从左侧阻塞式弹出）命令来满足这一需求。同样以 Python 代码为例：

import redis

# 连接Redis
r = redis.Redis(host='localhost', port=6379, db=0)

while True:
    # 从任务队列中阻塞式获取任务，超时时间设为0表示一直阻塞
    result = r.brpop('task_queue', 0)
    if result:
        _, url = result
        # 执行爬虫操作，这里简单打印URL表示爬取
        print(f'正在爬取: {url}')

上述代码中，使用一个无限循环while True来持续获取任务。r.brpop(‘task_queue’, 0)表示从名为task_queue的任务队列右侧阻塞式获取任务，第二个参数0表示如果队列为空则一直阻塞等待，直到有新任务加入队列。当获取到任务时，result是一个包含两个元素的元组，第一个元素是队列名称（这里是task_queue），第二个元素是实际的任务（即 URL），通过_, url = result解包元组，提取出 URL 并进行后续的爬虫操作，这里只是简单地打印 URL 来模拟爬取过程。

2.3 任务去重

在爬虫任务中，避免重复爬取相同的 URL 是非常重要的，否则会浪费资源和时间。使用 Redis 实现任务去重有多种方案，以下是几种常见的方法及其优缺点分析：

添加前判断 List 中是否已存在任务：在将任务添加到任务队列（List）之前，先使用LRANGE命令获取 List 中的所有元素，然后判断新任务是否已经存在于 List 中。如果存在，则不添加；如果不存在，则添加。这种方法的优点是实现简单，只依赖 List 数据结构。缺点是当 List 中的元素数量较多时，LRANGE操作的时间复杂度为 O (n)，性能会急剧下降，因为每次添加任务都需要遍历整个 List 。
使用 Set/Hash/Bloom Filter 辅助去重：利用 Set 的元素唯一性特性，在添加任务到 List 之前，先判断任务是否已存在于 Set 中。如果存在，则不添加到 List；如果不存在，则同时添加到 Set 和 List 中。Hash 也可以实现类似功能，通过将任务作为 Hash 的键，值可以存储一些额外信息（如任务状态等）。Bloom Filter 是一种空间效率很高的概率型数据结构，适合大规模数据的去重，它通过多个哈希函数将元素映射到一个位数组中，查询时通过判断对应位是否都为 1 来确定元素是否存在，存在一定的误判率，但可以通过调整参数来控制。这种方案的优点是 Set 和 Hash 的查找操作时间复杂度为 O (1)，性能较高，Bloom Filter 在大规模数据下空间优势明显；缺点是需要额外的存储空间来维护 Set/Hash/Bloom Filter，Bloom Filter 存在误判可能。
其他方案：还可以使用有序集合（Zset），将任务的唯一标识作为成员，设置一个分数（如时间戳、任务优先级等），添加任务时通过判断成员是否存在来实现去重，同时可以根据分数进行排序等操作。另外，使用 Lua 脚本可以实现原子性的去重和添加操作，减少网络往返次数，提高效率，但 Lua 脚本的编写和维护相对复杂。

在实际应用中，需要根据任务的特点、数据规模以及性能要求等因素来选择合适的去重方案。例如，如果任务量较小且对准确性要求高，可以选择 Set 或 Hash 去重；如果任务量非常大且对空间要求苛刻，可以考虑 Bloom Filter 。

三、Redis 在缓存爬取数据中的神奇功效

在爬虫的实际应用中，缓存爬取数据是提高爬虫效率和性能的关键环节。Redis 凭借其高速的读写性能和丰富的数据结构，在缓存爬取数据方面发挥着重要作用。下面我们将深入探讨 Redis 在缓存网页内容和缓存数据结果两个方面的应用。

3.1 缓存网页内容

在爬虫过程中，对于一些频繁访问的网页，如果每次都重新爬取，不仅会浪费大量的网络资源和时间，还可能增加目标服务器的负担，甚至导致被封禁。因此，将爬取的网页内容缓存起来是一个非常有效的优化策略。

Redis 的字符串（String）和哈希（Hash）数据结构都可以用于缓存网页内容。以字符串为例，我们可以将网页的 URL 作为键，网页的内容（如 HTML 文本）作为值存储到 Redis 中。使用哈希结构时，可以将 URL 作为哈希的键，将网页内容以及其他相关信息（如爬取时间、网页编码等）作为哈希的字段值进行存储，这样可以更方便地管理和查询网页的相关信息。

在 Python 中，利用 redis - py 库实现缓存网页内容的示例代码如下：

import redis
import requests

# 连接Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def get_page(url):
    # 先检查缓存中是否存在该网页内容
    content = r.get(url)
    if content:
        print(f'从缓存中获取网页: {url}')
        return content.decode('utf-8')

    # 如果缓存中不存在，则进行爬取
    try:
        response = requests.get(url)
        response.raise_for_status()
        content = response.text
        # 将网页内容存入缓存
        r.set(url, content)
        print(f'爬取网页并缓存: {url}')
        return content
    except requests.RequestException as e:
        print(f'爬取网页失败: {url}, 错误信息: {e}')
        return None

# 测试获取网页
url = 'http://example.com'
page_content = get_page(url)
if page_content:
    print(page_content)

在上述代码中，get_page函数首先尝试从 Redis 缓存中获取指定 URL 的网页内容。如果缓存中存在该内容，则直接返回；如果不存在，则使用requests库发送 HTTP 请求获取网页内容，在获取成功后将内容存入 Redis 缓存，并返回网页内容。通过这种方式，后续对同一 URL 的请求就可以直接从缓存中获取，大大提高了爬虫的效率。

3.2 缓存数据结果

除了缓存网页内容，将爬虫处理后的数据结果进行缓存也是非常有必要的。在实际的爬虫项目中，爬虫通常会对爬取到的数据进行清洗、解析和处理，得到最终需要的数据结果。这些数据结果可能会被后续的数据分析、存储等模块使用，如果每次都重新进行爬取和处理，效率会非常低。

Redis 的哈希（Hash）数据结构非常适合用于缓存数据结果。我们可以将数据的唯一标识（如新闻的 ID、商品的 SKU 等）作为哈希的键，将数据的各个字段（如新闻的标题、作者、正文；商品的名称、价格、销量等）作为哈希的字段，对应的值作为字段值进行存储。这样在需要查询某条数据时，可以通过哈希的键快速获取到所有相关字段的值。

例如，在爬取论文数据时，我们可以将论文的 DOI（数字对象标识符）作为哈希的键，将论文的标题、作者、摘要、关键词、正文等信息作为哈希的字段进行存储。示例代码如下：

import redis

# 连接Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def cache_paper_data(doi, title, author, abstract, keywords, content):
    data = {
        'title': title,
        'author': author,
        'abstract': abstract,
        'keywords': keywords,
        'content': content
    }
    # 使用hmset命令将论文数据存入Redis哈希中
    r.hmset(f'paper:{doi}', data)

def get_paper_data(doi):
    # 使用hgetall命令从Redis哈希中获取论文数据
    data = r.hgetall(f'paper:{doi}')
    if data:
        result = {key.decode('utf-8'): value.decode('utf-8') for key, value in data.items()}
        return result
    return None

# 测试缓存和获取论文数据
doi = '10.1000/182'
title = '论文标题'
author = '作者姓名'
abstract = '论文摘要'
keywords = '关键词1,关键词2,关键词3'
content = '论文正文内容'

# 缓存论文数据
cache_paper_data(doi, title, author, abstract, keywords, content)

# 获取论文数据
paper_info = get_paper_data(doi)
if paper_info:
    print(paper_info)

在上述代码中，cache_paper_data函数用于将论文数据缓存到 Redis 中，get_paper_data函数用于从 Redis 中获取论文数据。通过这种方式，我们可以方便地对论文数据进行缓存和查询，提高爬虫数据处理的效率和灵活性。

四、总结与展望

Redis 凭借其丰富的数据结构和卓越的性能，在爬虫开发中扮演着举足轻重的角色。通过使用字符串、哈希、列表、集合和有序集合等数据结构，我们能够高效地管理爬虫任务队列，实现任务的添加、获取和去重，同时还能对爬取的数据进行有效的缓存，无论是网页内容还是处理后的数据结果，都能通过 Redis 快速存储和读取，大大提高了爬虫的效率和性能。

展望未来，随着互联网数据量的持续增长以及分布式爬虫需求的不断增加，Redis 在爬虫领域的应用将更加广泛和深入。在分布式爬虫场景中，Redis 可以作为多个爬虫节点之间的任务调度中心和数据共享枢纽，通过其强大的消息队列和数据存储功能，实现任务的高效分发和数据的一致性管理，进一步提升爬虫系统的整体性能和扩展性。同时，随着技术的不断发展，Redis 也将不断优化和完善，为爬虫开发者提供更多强大的功能和更便捷的使用体验，助力爬虫技术在大数据采集和分析等领域发挥更大的作用。

查看全文

http://www.kler.cn/a/555535.html