当前位置: 首页 > article >正文

Scrapy 项目部署Scrapyd

什么是Scrapyd

Scrapyd 是一个用来管理和运行 Scrapy 爬虫的服务。它允许用户将 Scrapy 项目部署到服务器上,然后通过一个简单的 API 来启动、停止和监控爬虫的运行。Scrapyd 可以帮助简化爬虫的部署过程,使得用户不必手动在服务器上运行爬虫,也不需要每次更新代码后都重新登录服务器。

安装Scrapyd

1. 安装服务端

pip install scrapyd

启动服务端

scrapyd

访问scrapyd的web页面地址:http://127.0.0.1:6800/

2. 安装客户端

pip install scrapyd-client

windows系统上要安装 pywin32

pip install pywin32

配置 Scrapy 项目

在 scrapy.cfg 文件中文配置

[settings]
default = myproject.settings

[deploy:myproject] # deploy:部署名   # 推荐部署名和项目名一致
url = http://localhost:6800/
project = myproject

构建和部署 Scrapy 项目

这条命令会将您的项目打包为 .egg 文件,并将其上传到 Scrapyd 服务中。上传成功后,Scrapyd 会显示已部署的项目和版本信息

# scrapyd-deploy 部署名
# scrapyd-deploy 部署名 -p 项目名
scrapyd-deploy myproject

启动 Scrapy 爬虫

部署成功后,您可以通过 Scrapyd 的 API 启动 Scrapy 爬虫。使用 curl 或其他 HTTP 客户端发送 POST 请求来启动爬虫。例如:

# curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名称
curl http://localhost:6800/schedule.json -d project=myproject -d spider=baidu

其他命令

  • 查看已部署的项目和版本:http://localhost:6800/listprojects.json
  • 查看项目中的爬虫:http://localhost:6800/listspiders.json?project=your_project_name
  • 查看正在运行的爬虫,可以查看job_id:http://localhost:6800/listjobs.json?project=your_project_name
  • 停止正在运行的爬虫:http://localhost:6800/cancel.json -d project=your_project_name -d job=jobid

http://www.kler.cn/a/282046.html

相关文章:

  • 【蓝桥杯备赛】深秋的苹果
  • 2024-11-17 -MATLAB三维绘图简单实例
  • 【Pytorch】IPython库中的display函数
  • JavaScript中的reduce函数
  • 深入理解 C++ 二叉树
  • 储能技术中锂离子电池的优势和劣势
  • WHAT - 通过 react-use 源码学习 React(State 篇)
  • html+css+js网页设计 婚庆类型模版 12个页面
  • 关于复杂业务逻辑使用SQL还是java代码实现的思考
  • Golang安装与环境配置
  • 严重腰椎滑脱、无法走路,江山邦尔骨科医院机器人辅助手术为患者完美复位
  • XML 数据格式介绍及其应用
  • 1.5.1、输入输出技术
  • 【编程知识】c++中的结构体和JavaScript中的对象有啥异同
  • 树上dp+分组背包类问题
  • SpringIoc体系结构设计
  • 算法的学习笔记—连续子数组的最大和
  • 【hot100篇-python刷题记录】【杨辉三角】
  • 【Linux】进程概念
  • Andon安灯系统在汽车零部件工厂起到什么作用?
  • 小程序常用界面交互api
  • 双向链表的复杂操作、内核链表、栈
  • 操作系统:哪些函数属于系统调用?
  • Java新版主要特性|2024年最后一个版本即将到来
  • 网络编程Day9_IO多路复用 20240821
  • ThingsKit物联网平台与AIoTedge边缘计算平台的融合创新