当前位置：首页 > article >正文

Scrapy入门

article 2025/3/12 13:59:05

Scrapy是一个用Python实现的快速、高层次的屏幕抓取和web抓取框架，主要用于抓取web站点并从页面中提取结构化的数据。

安装

pip install scrapy

创建Scrapy项目

使用scrapy startproject命令创建一个新的Scrapy项目。例如，创建一个名为myproject的项目：

scrapy startproject myproject

该命令会在当前目录下创建一个名为myproject的文件夹，其中包含Scrapy项目的所有必要文件和文件夹。

在项目文件夹中，使用scrapy genspider命令创建一个爬虫。

scrapy genspider example example.com

该命令会在myproject/spiders目录下创建一个名为example.py的爬虫文件。

Scrapy的项目结构

Scrapy项目的文件结构通常包括以下几个部分：

scrapy.cfg：项目的配置文件。

myproject/：项目的Python模块，将会从这里引用代码。

items.py：定义爬取结果的数据结构。

middlewares.py：定义下载器中间件和爬虫中间件。

pipelines.py：定义数据处理的管道。

settings.py：项目的全局配置文件。

spiders/：存储爬虫代码的目录。

Scrapy框架的组成

引擎（Engine）：控制数据流，触发事务。

调度器（Scheduler）：接受请求并将其加入队列，以便之后引擎需要时提供。

下载器（Downloader）：下载网页内容，并将内容返回给爬虫。

爬虫（Spider）：解析响应并生成提取结果和新的请求。

项目管道（Item Pipeline）：处理由爬虫提取出来的数据，如清洗、验证和存储。

下载器中间件（Downloader Middlewares）：处理引擎与下载器之间的请求及响应。

爬虫中间件（Spider Middlewares）：处理爬虫输入的响应和输出的结果及新的请求。

查看全文

http://www.kler.cn/a/328777.html

深度学习 Transformer 的标签平滑（Label Smoothing）

计算机视觉小目标检测模型

【Golang】深入解读Go语言中的错误（error）与异常（panic）

Base64编码避坑指南

Skip、Compose、Flutter和RN

面试金典题3.2

在C语言中，符号有两个主要用途：

Rainbond 助力城建智控，从传统开发到敏捷开发转型

算法必学之LRU

Gson将对象转换为JSON（学习笔记）

【C++高阶】深入理解C++智能指针：掌握RAII与内存安全的利器

南沙C++信奥赛陈老师解一本通题 2005：【20CSPJ普及组】直播获奖

Vue3.X + SpringBoot小程序 | AI大模型项目 | 饮食陪伴官

Python知识点：如何使用AWS Greengrass与Python进行边缘计算

64 注意力机制_by《李沐：动手学深度学习v2》pytorch版

【计网】从零开始学习http协议 --- http的请求与应答

Stable Diffusion绘画 | 来训练属于自己的模型：素材准备篇

【AI知识点】嵌入向量（Embedding Vector）

明达技术工业级边缘计算网关：智能制造的智慧纽带

Docker安装consul + go使用consul + consul知识

Scrapy框架的组成

相关文章：