当前位置：首页 > article >正文

【python】用 Scrapy 实现高效爬虫项目

article 2025/2/22 16:34:31

用 Scrapy 实现高效爬虫项目

Scrapy 是一个功能强大的 Python 爬虫框架，以其高效、灵活、可扩展性而闻名。无论是处理简单的爬取任务，还是构建复杂的分布式爬虫项目，Scrapy 都能提供强有力的支持。本文将从 Scrapy 的核心概念、项目结构、优化技巧等方面，带你掌握用 Scrapy 构建高效爬虫的技巧。

一、Scrapy 的核心概念

要理解 Scrapy，首先需要掌握以下几个核心概念：

Spider: 爬虫类，定义爬取逻辑和处理逻辑。
Request: 发起 HTTP 请求，支持各种参数（如 headers、cookies 等）。
Response: 请求的结果，包含网页内容及相关信息。
Item: 数据结构，用于存储爬取到的内容。
Pipeline: 数据处理管道，用于清洗、存储数据。
Middleware: 中间件，用于处理请求和响应的行为。

二、快速搭建 Scrapy 项目

1. 创建项目

使用 scrapy startproject 命令快速生成项目模板：

scrapy startproject myproject

生成的项目结构如下：

myproject/
    scrapy.cfg           # 项目配置文件
    myproject/
        __init__.py
        items.py        # 定义数据结构
        middlewares.py  # 定义中间件
        pipelines.py    # 定义数据管道
        settings.py     # 项目设置
        spiders/        # 存放爬虫文件

2. 编写 Spider

Spider 是 Scrapy 的核心，用于定义爬取的逻辑。

创建一个简单的爬虫：

scrapy genspider example example.com

编辑 example.py：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = ['http://example.com']

    def parse(self, response):
        for title in response.css('h1::text').getall():
            yield {'title': title}

运行爬虫：

scrapy crawl example

三、高效数据提取技巧

1. 使用 CSS 和 XPath 选择器

Scrapy 提供了便捷的 CSS 和 XPath 选择器，可以轻松提取网页内容：

CSS 示例：

titles = response.css('h1::text').getall()

XPath 示例：

titles = response.xpath('//h1/text()').getall()

2. 使用 Item 提取结构化数据

定义一个 Item 来存储爬取的数据：

# items.py
import scrapy

class ExampleItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()

在 Spider 中使用 Item：

from myproject.items import ExampleItem

def parse(self, response):
    item = ExampleItem()
    item['title'] = response.css('h1::text').get()
    item['url'] = response.url
    yield item

四、提升爬虫性能的设置和优化

1. 配置并发与延迟

在 settings.py 中配置以下参数来提升爬取速度：

# 设置并发数
CONCURRENT_REQUESTS = 16

# 降低爬取延迟
DOWNLOAD_DELAY = 0.5

# 每个域名的并发请求数
CONCURRENT_REQUESTS_PER_DOMAIN = 8

2. 启用持久化功能

Scrapy 提供了断点续爬的功能，可以通过以下命令启用：

scrapy crawl example --set JOBDIR=crawls/example

3. 启用缓存

对于开发和调试阶段，可以启用缓存以减少网络请求：

HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 86400  # 缓存 1 天

五、处理反爬的常见技巧

1. 设置 User-Agent

为避免被目标网站屏蔽，可以设置 User-Agent：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'

2. 使用代理

通过设置代理来隐藏真实 IP：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 543,
}

PROXY_POOL = [
    'http://123.123.123.123:8080',
    'http://111.111.111.111:8080',
]

import random

class ProxyMiddleware:
    def process_request(self, request, spider):
        request.meta['proxy'] = random.choice(PROXY_POOL)

3. 模拟浏览器行为

启用 scrapy-playwright 或 scrapy-selenium 模拟浏览器行为，处理 JavaScript 渲染的网站：

pip install scrapy-playwright

配置 settings.py：

DOWNLOAD_HANDLERS = {
    'http': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
    'https': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
}

PLAYWRIGHT_BROWSER_TYPE = 'chromium'

六、数据存储与导出

1. 导出为 CSV 或 JSON 文件

运行爬虫时直接导出数据：

scrapy crawl example -o output.json

2. 使用 Pipeline 存储到数据库

编辑 pipelines.py，将数据存入数据库：

import sqlite3

class SQLitePipeline:

    def open_spider(self, spider):
        self.connection = sqlite3.connect('example.db')
        self.cursor = self.connection.cursor()
        self.cursor.execute('CREATE TABLE IF NOT EXISTS data (title TEXT, url TEXT)')

    def close_spider(self, spider):
        self.connection.close()

    def process_item(self, item, spider):
        self.cursor.execute('INSERT INTO data (title, url) VALUES (?, ?)', (item['title'], item['url']))
        self.connection.commit()
        return item

启用 Pipeline：

ITEM_PIPELINES = {
    'myproject.pipelines.SQLitePipeline': 300,
}

七、监控与调试

1. 使用 `scrapy shell` 调试

scrapy shell 'http://example.com'

在交互环境中测试选择器和解析逻辑。

2. 启用日志记录

在 settings.py 中设置日志级别：

LOG_LEVEL = 'INFO'

八、分布式爬虫的实现

通过 scrapy-redis 实现分布式爬虫，使用 Redis 存储任务队列和爬取状态。

安装 scrapy-redis：

pip install scrapy-redis

配置爬虫使用 Redis 队列：

# settings.py
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
SCHEDULER_PERSIST = True
REDIS_URL = 'redis://localhost:6379'

在 Spider 中继承 RedisSpider：

from scrapy_redis.spiders import RedisSpider

class DistributedSpider(RedisSpider):
    name = 'distributed'
    redis_key = 'distributed:start_urls'

    def parse(self, response):
        yield {'url': response.url}

建议

Scrapy 是一个高效的爬虫框架，通过灵活的配置和扩展，可以轻松应对各种复杂场景。从基础的 Spider 编写到性能优化，再到分布式爬取，Scrapy 都为开发者提供了丰富的工具链。在实际项目中，根据具体需求选择合适的功能，可以最大化 Scrapy 的潜力。

九、Scrapy 实战：实现一个新闻爬虫

为了更好地理解 Scrapy 的使用，下面将通过一个实战案例，演示如何构建一个新闻爬虫，爬取指定新闻网站的文章标题、链接以及发布日期。我们将结合前面讲解的技巧，确保爬虫高效、稳定并能处理反爬措施。

1. 确定目标网站

假设我们要爬取一个新闻网站（例如 example.com），并提取以下信息：

文章标题
文章链接
文章发布日期

2. 创建 Scrapy 项目

首先，创建 Scrapy 项目：

scrapy startproject news_scraper

进入项目目录：

cd news_scraper

3. 编写 Spider

使用 scrapy genspider 创建一个新的爬虫：

scrapy genspider news_spider example.com

编辑 news_spider.py，编写爬虫逻辑：

import scrapy

class NewsSpider(scrapy.Spider):
    name = "news_spider"
    start_urls = ['http://example.com/news']

    def parse(self, response):
        for article in response.css('div.article'):
            title = article.css('h2 a::text').get()
            link = article.css('h2 a::attr(href)').get()
            date = article.css('span.date::text').get()

            yield {
                'title': title,
                'link': response.urljoin(link),
                'date': date
            }

        # 翻页逻辑
        next_page = response.css('a.next_page::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)

4. 运行爬虫

运行爬虫并输出结果到 JSON 文件：

scrapy crawl news_spider -o news.json

5. 处理反爬

目标网站可能会有反爬机制，如 IP 限制、请求频率控制等。我们可以通过以下方式进行优化：

1. 设置 User-Agent

修改 settings.py 文件，设置 User-Agent 伪装成真实浏览器：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'

2. 设置请求延迟

通过配置 DOWNLOAD_DELAY，降低爬取速度，减少被封禁的风险：

DOWNLOAD_DELAY = 1  # 1秒的延迟
CONCURRENT_REQUESTS = 8  # 设置并发请求数

3. 使用代理池

为了避免因频繁请求同一网站而被封，我们可以使用代理池。首先，安装 scrapy-proxies 库：

pip install scrapy-proxies

然后，在 settings.py 中配置代理：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 543,
}

PROXY_POOL = [
    'http://123.123.123.123:8080',
    'http://111.111.111.111:8080',
    # 添加更多代理地址
]

import random

class ProxyMiddleware:
    def process_request(self, request, spider):
        request.meta['proxy'] = random.choice(PROXY_POOL)

4. 启用缓存

为了提高开发效率，避免频繁请求，启用缓存：

HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 86400  # 缓存1天

6. 数据存储与清洗

1. 存储到数据库

如果数据量较大，可以将数据存储到数据库中，而不是直接导出到文件。我们可以通过 Scrapy 的 Pipeline 功能将数据存入 SQLite 数据库。

首先，创建一个数据库 Pipeline：

# pipelines.py
import sqlite3

class SQLitePipeline:

    def open_spider(self, spider):
        self.connection = sqlite3.connect('news.db')
        self.cursor = self.connection.cursor()
        self.cursor.execute('CREATE TABLE IF NOT EXISTS news (title TEXT, link TEXT, date TEXT)')

    def close_spider(self, spider):
        self.connection.close()

    def process_item(self, item, spider):
        self.cursor.execute('INSERT INTO news (title, link, date) VALUES (?, ?, ?)', 
                            (item['title'], item['link'], item['date']))
        self.connection.commit()
        return item

在 settings.py 中启用该 Pipeline：

ITEM_PIPELINES = {
    'news_scraper.pipelines.SQLitePipeline': 1,
}

2. 数据清洗

如果从网页提取的数据不完全或者需要处理额外的字段（如日期格式化），可以在 Pipeline 中进行数据清洗。例如，将日期格式化为统一的标准格式：

from datetime import datetime

class DateFormatPipeline:

    def process_item(self, item, spider):
        item['date'] = datetime.strptime(item['date'], '%Y-%m-%d').strftime('%d/%m/%Y')
        return item

在 settings.py 中启用：

ITEM_PIPELINES = {
    'news_scraper.pipelines.DateFormatPipeline': 2,
    'news_scraper.pipelines.SQLitePipeline': 1,
}

7. 分布式爬虫（可选）

如果爬取的新闻量巨大，可以使用 scrapy-redis 来实现分布式爬虫。通过 Redis 存储 URL 队列并在多个爬虫实例之间共享任务。

首先，安装 scrapy-redis：

pip install scrapy-redis

在 settings.py 中进行配置：

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
SCHEDULER_PERSIST = True
REDIS_URL = 'redis://localhost:6379'

修改 Spider 以使用 Redis：

from scrapy_redis.spiders import RedisSpider

class RedisNewsSpider(RedisSpider):
    name = "redis_news_spider"
    redis_key = 'news:start_urls'

    def parse(self, response):
        for article in response.css('div.article'):
            title = article.css('h2 a::text').get()
            link = article.css('h2 a::attr(href)').get()
            date = article.css('span.date::text').get()
            yield {'title': title, 'link': link, 'date': date}