当前位置：首页 > article >正文

Scrapy | 使用Scrapy进行数据建模和请求

article 2024/10/21 19:05:50

scrapy数据建模与请求

数据建模
- 1.1 为什么建模
- 1.2 如何建模
- 1.3如何使用模板类
- 1.4 开发流程总结

目标：
1.应用在scrapy项目中进行建模
2.应用构造Request对象，并发送请求
3.应用利用meta参数在不同的解析函数中传递数据

数据建模

| 通常在做项目的过程中，在items.py中进行数据建模

1.1 为什么建模

1.定义itm即提前规划好哪些字段需要抓，防止手误，因为定义好之后，在运行过程中，系统会自动检查
2.配合注释一起可以清晰的知道要抓取哪些字段，没有定义的字段不能抓取，在目标字段少的时候可以使用字典代替
3.使用scrapy的一些特定组件需要item做支持，如scrapy的ImagesPipeline管道类，百度搜索了解更多

1.2 如何建模

在items.py文件中定义要提取的字段：

class MyspiderItem(scrapy.Item):
	name=scrapy.Field（）#讲师的名字
	title=scrapy.Field（）#讲师的职称
	desc=scrapy.Field（）#讲师的介绍

1.3如何使用模板类

模板类定义以后需要在爬虫中导入并且实例化，之后的使用方法和使用字典相同
在这里插入图片描述
注意：
1.from myspider…items import Myspiderltem这一行代码中注意item的正确导入路径，忽略pycharm标记的错误
2.python中的导入路径要诀：从哪里开始运行，就从哪里升始导入

1.4 开发流程总结

1.创建项目
scrapy startproject项目名
2.明确目标
在items.py文件中进行建模
3.创建爬虫
3.1创建爬虫

scrapy genspider    【爬虫名】   【允许的域】

3.2完成爬虫

修改start_urls
检查修改allowed domains
编写解析方法

4.保存数据

在pipelines.py文件中定义对数据处理的管道
在settings.py文件中注册启用管道

查看全文

http://www.kler.cn/news/359102.html

在日本生活压力大吗？

手动把idea里面的services项目删除了，如何恢复

cefsharp79.1.360（Chromium 79.0.3945.130）支持H264视频播放-PDF预览老版本回顾系列体验

基于vue框架的的宠物救助系统l07q0（程序+源码+数据库+调试部署+开发环境）系统界面在最后面。

Node-RED开源项目的modbus通信（TCP）

scrapy 爬虫学习之【中医方剂】爬虫

本地装了个pytorch cuda

YOLO元年！目标检测最强模型YOLOV11发布，全网首发yolov11原理+实战+论文解读教程！通俗易懂，科研人连夜水一篇SCI论文！计算机视觉|CV

完整发布/上传uniapp Ios应用到App Store流程

CAN上位机软件VBDSP的控件如何实现按钮一次发送多条报文(自动化测试)

uniapp-uniapp + vue3 + pinia 搭建uniapp模板

【前端】Matter：过滤与高级碰撞检测

解决IntelliJ IDEA启动失败的完整指南

世界数字农业盛宴与技术探索，25年3月聚焦世界灌溉科技大会

rootless模式下测试istio Ambient功能

Windows下的快速精准的抠图算法（Python实现，内含代码下载链接）

git restore恢复删除文件

协议 MQTT

Scala中抽象类重写

使用JMeter录制元件来录制HTTPS下的脚本