scrapy实战之新浪新闻爬虫
背景
数据是分析工作的前提,新闻数据对于一些领域分析是必不可少的资料之一,今天我们就借助scrapy框架一起看一下新浪新闻爬虫实战。
1.创建spider
Spider 是自己定义的类,Scrapy 用它来从网页里抓取内容,并解析抓取的结果。不过这个类必须继承 Scrapy 提供的 Spider 类 scrapy.Spider,还要定义 Spider 的名称和起始请求,以及怎样处理爬取后的结果的方法。
也可以使用命令行创建一个 Spider。比如要生成 Quotes 这个 Spider,可以执行如下命令:
cd tutorial
scrapy genspider sinanews
class SinaNewSpider(scrapy.Spider)