当前位置: 首页 > article >正文

Scrapy | 使用Scrapy进行数据建模和请求

scrapy数据建模与请求

  • 数据建模
    • 1.1 为什么建模
    • 1.2 如何建模
    • 1.3如何使用模板类
    • 1.4 开发流程总结

目标:
1.应用在scrapy项目中进行建模
2.应用构造Request对象,并发送请求
3.应用利用meta参数在不同的解析函数中传递数据

数据建模

| 通常在做项目的过程中,在items.py中进行数据建模

1.1 为什么建模

1.定义itm即提前规划好哪些字段需要抓,防止手误,因为定义好之后,在运行过程中,系统会自动检查
2.配合注释一起可以清晰的知道要抓取哪些字段,没有定义的字段不能抓取,在目标字段少的时候可以使用字典代替
3.使用scrapy的一些特定组件需要item做支持,如scrapy的ImagesPipeline管道类,百度搜索了解更多

1.2 如何建模

在items.py文件中定义要提取的字段:

class MyspiderItem(scrapy.Item):
	name=scrapy.Field()#讲师的名字
	title=scrapy.Field()#讲师的职称
	desc=scrapy.Field()#讲师的介绍

1.3如何使用模板类

模板类定义以后需要在爬虫中导入并且实例化,之后的使用方法和使用字典相同
在这里插入图片描述
注意:
1.from myspider…items import Myspiderltem这一行代码中注意item的正确导入路径,忽略pycharm标记的错误
2.python中的导入路径要诀:从哪里开始运行,就从哪里升始导入

1.4 开发流程总结

1.创建项目
scrapy startproject项目名
2.明确目标
在items.py文件中进行建模
3.创建爬虫
3.1创建爬虫

scrapy genspider    【爬虫名】   【允许的域】

3.2完成爬虫

修改start_urls
检查修改allowed domains
编写解析方法

4.保存数据

在pipelines.py文件中定义对数据处理的管道
在settings.py文件中注册启用管道

http://www.kler.cn/news/359102.html

相关文章:

  • 在日本生活压力大吗?
  • 手动把idea里面的services项目删除了,如何恢复
  • cefsharp79.1.360(Chromium 79.0.3945.130)支持H264视频播放-PDF预览 老版本回顾系列体验
  • 基于vue框架的的宠物救助系统l07q0(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。
  • Node-RED开源项目的modbus通信(TCP)
  • scrapy 爬虫学习之【中医方剂】爬虫
  • 本地装了个pytorch cuda
  • YOLO元年!目标检测最强模型YOLOV11发布,全网首发yolov11原理+实战+论文解读教程!通俗易懂,科研人连夜水一篇SCI论文!计算机视觉|CV
  • 完整发布/上传uniapp Ios应用到App Store流程
  • CAN上位机软件VBDSP的控件如何实现按钮一次发送多条报文(自动化测试)
  • uniapp-uniapp + vue3 + pinia 搭建uniapp模板
  • 【前端】Matter:过滤与高级碰撞检测
  • 解决IntelliJ IDEA启动失败的完整指南
  • 世界数字农业盛宴与技术探索,25年3月聚焦世界灌溉科技大会
  • rootless模式下测试istio Ambient功能
  • Windows下的快速精准的抠图算法(Python实现,内含代码下载链接)
  • git restore恢复删除文件
  • 协议 MQTT
  • Scala中抽象类重写
  • 使用JMeter录制元件来录制HTTPS下的脚本