当前位置：首页 > article >正文

Scrapy 入门教程

article 2025/3/25 9:06:40

Scrapy 入门教程

Scrapy 是一个用于爬取网站数据的 Python 框架，功能强大且易于扩展。本文将介绍 Scrapy 的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。

1. 什么是 Scrapy？

Scrapy 是一个开源的、用于爬取网站数据的框架，主要特点包括：

高效、异步的爬取机制
强大的 XPath 和 CSS 选择器解析能力
内置中间件，支持代理、去重等功能
易于扩展，适用于各种爬虫需求

2. 安装 Scrapy

Scrapy 需要 Python 3.7 及以上版本，推荐使用虚拟环境进行安装。

pip install scrapy

安装完成后，可以运行以下命令检查是否安装成功：

scrapy version

3. 创建 Scrapy 项目

使用 Scrapy 创建一个新项目：

scrapy startproject myproject

项目结构如下：

myproject/
│── myproject/      # 项目模块
│   ├── spiders/    # 存放爬虫文件
│   ├── items.py    # 定义数据结构
│   ├── middlewares.py  # 中间件
│   ├── pipelines.py  # 数据处理
│   ├── settings.py  # 配置文件
└── scrapy.cfg       # 配置文件

4. 编写一个爬虫

进入 spiders 目录，新建 quotes_spider.py 文件，编写爬虫：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ["http://quotes.toscrape.com/"]

    def parse(self, response):
        for quote in response.css("div.quote"):
            yield {
                'text': quote.css("span.text::text").get(),
                'author': quote.css("small.author::text").get(),
                'tags': quote.css("div.tags a.tag::text").getall(),
            }