当前位置: 首页 > article >正文

scrapy的安装和使用

一、scrapy是什么:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序

二、scrapy的安装:pip install scrapy -i https://pypi.douban.com/simple

983c6a8fa46c4f068b6e5c2f35ee54fc.png三、scrapy项目的创建以及运行

1.win+r 进入终端

cd C:\Users\malongqiang\PycharmProjects\pythonProject\ 爬虫练习1018

注意:路径最好是你python代码放置路径(cd + 选中文件夹拉入终端)

dfb96dc6be08499f828bb13dff023ab0.png2.创建scrapy_baidu_1024文件:scrapy startproject scrapy_baidu_102406127b0e5289460587dfdae9c20ef5fd.png3.创建后的结果:a9bc2abec62c4aff91394117ca10f852.png4.进入spiders文件夹下:cd scrapy_baidu_1024\scrapy_baidu_1024\spiders12b55cf73cc345d0ac04919a9a93ebf9.png5.创建爬虫文件baidu.py:scrapy genspider baidu http://www.baidu.com49c288f2ec0b47d6ac7f7a7c9c9fb2fe.png

f8ca241b4f23425db716caddc249df67.png6.baidu.py的内容:bb1c01afe70f44efb66303a957f1283b.png7.写入要打印的内容:my loveaef16a19192e4f0e81d9482209062b69.png8.运行爬虫文件(baidu):scrapy crawl baidu94f46375fa044836a525e8b0a77a8683.png9.没有结果,爬取失败,原因如下:robots.txt协议不让爬820a7a77c2264a0aa9fa29fc8ed275de.png368d0b56994043a3b82d41ea29e61536.png10.解决办法:找到该目录下的settings注释ROBOTSTXT_OBEY = Truebf244e5ec9dd4f68807e4febee488cf1.png11.重新运行指令,打印出来结果c45a6157d9f94486807bb09407dc7622.png

四、scrapy相关内容资料:f36f36d1abc745d8a81a12ea0978ffc9.png

 

 


http://www.kler.cn/a/104447.html

相关文章:

  • 【linux】倒计时小程序
  • 基于C#使用winform技术的游戏平台的实现【C#课程设计】
  • centos搭建elastic集群
  • Vue常用指令
  • 【Chrome】使用k8s、docker部署无头浏览器Headless,Java调用示例
  • 笔记本电脑识别不了刻录机,由于设备驱动程序的前一个实例仍在内存中,windows 无法加载这个硬件的设备驱动程序。 (代码 38)
  • (自适应手机端)厨师招聘信息发布类网站模板
  • vscode代码快捷输入
  • 【软件测试】自动化测试selenium
  • 【反射】Field类
  • 如何配置微信小程序id
  • NewStarCTF2023week4-More Fast(GC回收)
  • Leo赠书活动-02期 【信息科技风险管理:合规管理、技术防控与数字化】
  • JSONP的安全性较差,那么在跨域情况下,有没有其他更安全的替代方案呢?
  • Ragnar-lothbrok 靶机
  • 8.3 矢量图层点要素单一符号使用二
  • Qt之设置QLineEdit只能输入浮点数
  • 微信小程序在线预览PDF文件
  • 原来服务器这么有用-Docker安装
  • 【前段基础入门之】=>CSS3新增渐变颜色属性