当前位置：首页 > article >正文

Python 爬虫运行状态监控：进度、错误与完成情况

article 2025/2/22 2:12:48

Python 爬虫运行状态监控：进度、错误与完成情况

在进行大规模数据爬取时，监控爬虫的运行状态至关重要。通过实时监控，可以了解爬虫的工作进度、出现的错误以及任务完成情况。这样可以及时发现并解决问题，确保数据抓取任务顺利进行。本文将详细介绍如何使用 Python 实现爬虫的状态监控，包括进度、错误与完成情况的监控方法。

在这里插入图片描述

1. 为什么要监控爬虫运行状态？

在网络爬虫任务中，监控能够帮助我们做到以下几点：

确保任务完成：通过进度监控，我们可以了解爬取进度，预测完成时间。
及时发现错误：监控错误有助于排查异常（如网络超时、访问限制等），并及时处理。
资源管理：监控运行状态可以帮助我们合理安排系统资源，防止因过度占用导致崩溃。

通常，我们希望监控以下几方面的内容：

进度：已完成的任务数量、总任务数量。
错误情况：错误类型、错误次数。
完成状态：任务是否全部完成，是否有失败的任务。

接下来，我们将介绍在 Python 爬虫中如何实现这些监控功能。

2. 使用进度条监控爬取进度

在爬虫中，查看进度最直接的方法就是显示一个进度条。Python 提供了许多工具可以轻松实现进度条，其中 tqdm 是一个很受欢迎的库。

示例：使用 `tqdm` 显示进度条

以下示例展示了如何使用 tqdm 库在爬虫任务中显示进度条。

import requests
from tqdm import tqdm

# 待爬取的 URL 列表
urls = [
    "https://example.com/page1",
    "https://example.com/page2",
    "https://example.com/page3",
    # 其他 URL
]

# 进度条监控
for url in tqdm(urls, desc="爬取进度"):
    try:
        response = requests.get(url)
        # 假设我们对页面内容进行某些处理
        content = response.text
    except Exception as e:
        print(f"请求 {url} 时出错：{e}")

进度条的优缺点

优点：实现简单直观，适合小规模爬虫任务，实时显示任务进度。
缺点：只能显示基本的完成情况，对于错误和完成状态等信息需要结合其他方法实现。

3. 日志记录：监控错误和成功状态

爬虫任务中，错误和异常情况是不可避免的。日志记录是一种非常实用的监控方式，可以帮助我们记录每个请求的状态，包括成功请求和失败的错误类型。

Python 的 logging 模块可以帮助我们记录详细的日志信息，包括错误、警告和完成情况。

示例：使用 `logging` 记录爬虫运行日志

以下代码展示了如何使用 logging 模块记录爬虫日志，包括成功和失败的情况。

import logging
import requests

# 配置日志记录
logging.basicConfig(
    filename="spider.log",
    level=logging.INFO,
    format="%(asctime)s - %(levelname)s - %(message)s"
)

# URL 列表
urls = [
    "https://example.com/page1",
    "https://example.com/page2",
    "https://example.com/page3",
]

# 抓取过程
for url in urls:
    try:
        response = requests.get(url)
        if response.status_code == 200:
            logging.info(f"成功抓取 {url}")
        else:
            logging.warning(f"请求 {url} 返回非 200 状态码：{response.status_code}")
    except requests.RequestException as e:
        logging.error(f"请求 {url} 时出错：{e}")

日志的优缺点

优点：可以详细记录请求状态，保留运行记录，方便后期排查问题。
缺点：日志内容较多时，需定期清理日志文件；无法直接显示实时进度。

4. 数据库记录与状态监控

对于复杂爬虫项目，可能需要更加精细的监控。可以将每次爬取的状态信息（如 URL、状态码、错误等）保存到数据库中，以便后续分析。

示例：使用 SQLite 记录爬虫状态

以下示例展示了如何将每个 URL 的爬取状态保存到 SQLite 数据库中。

import sqlite3
import requests

# 初始化数据库
conn = sqlite3.connect("spider_status.db")
cursor = conn.cursor()
cursor.execute('''CREATE TABLE IF NOT EXISTS crawl_status (
                    url TEXT PRIMARY KEY,
                    status_code INTEGER,
                    error_message TEXT
                 )''')

urls = [
    "https://example.com/page1",
    "https://example.com/page2",
    "https://example.com/page3",
]

# 抓取并记录状态
for url in urls:
    try:
        response = requests.get(url)
        cursor.execute("INSERT OR REPLACE INTO crawl_status (url, status_code) VALUES (?, ?)", 
                       (url, response.status_code))
    except requests.RequestException as e:
        cursor.execute("INSERT OR REPLACE INTO crawl_status (url, error_message) VALUES (?, ?)", 
                       (url, str(e)))

conn.commit()
conn.close()

数据库记录的优缺点

优点：便于数据持久化，适合长期、批量分析数据。
缺点：实现较复杂，需额外存储空间。

5. 异步爬虫的状态监控

在异步爬虫中（如使用 asyncio 和 aiohttp），由于请求是并发的，可能无法像同步爬虫那样顺序输出日志。为了记录并发状态，可以使用异步日志库（如 aiologger）或者存储数据库来记录每个请求的状态。

示例：使用 `asyncio` 和 `tqdm` 显示异步进度条

以下示例展示了如何结合 asyncio、aiohttp 和 tqdm 实现异步爬虫的状态监控。

import aiohttp
import asyncio
from tqdm.asyncio import tqdm

urls = [
    "https://example.com/page1",
    "https://example.com/page2",
    "https://example.com/page3",
]

async def fetch(session, url):
    try:
        async with session.get(url) as response:
            if response.status == 200:
                print(f"成功抓取 {url}")
            else:
                print(f"请求 {url} 返回非 200 状态码：{response.status}")
    except Exception as e:
        print(f"请求 {url} 时出错：{e}")

async def main():
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url) for url in urls]
        for task in tqdm(asyncio.as_completed(tasks), total=len(urls), desc="爬取进度"):
            await task

# 运行异步爬虫
asyncio.run(main())

异步爬虫的优缺点

优点：支持高并发，适合大规模网络请求的爬虫任务。
缺点：调试较复杂，需对异步编程有一定了解。

6. 监控爬虫的整体状态

为了进一步监控爬虫任务的整体状态，可以使用定时器或守护进程定期检查爬虫运行情况，将结果汇总到监控系统中，例如：

进度监控：每隔一段时间统计完成的任务数和总任务数，计算完成比例。
错误统计：定期统计每种错误的发生次数，发现高频错误并分析原因。
实时监控系统：结合第三方监控工具（如 Grafana、Prometheus）实时分析和展示爬虫状态。

以下是通过定时任务定期检查进度和错误的示例：

import time
import requests
import logging
from tqdm import tqdm

logging.basicConfig(level=logging.INFO)

# 待爬取的 URL 列表
urls = ["https://example.com/page1", "https://example.com/page2"]

# 定义变量统计完成情况
completed_count = 0
total_count = len(urls)
errors = []

# 抓取过程
for url in tqdm(urls, desc="爬取进度"):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            completed_count += 1
        else:
            errors.append((url, response.status_code))
            logging.warning(f"请求 {url} 返回非 200 状态码：{response.status_code}")
    except requests.RequestException as e:
        errors.append((url, str(e)))
        logging.error(f"请求 {url} 时出错：{e

}")

print(f"\n已完成 {completed_count}/{total_count}")
if errors:
    print(f"出现 {len(errors)} 个错误")