当前位置：首页 > article >正文

scrapy案例——豆瓣电影Top250的爬取

article 2024/10/23 23:39:26

项目：豆瓣电影Top250的爬取

案例需求：

1.使用scrapy爬虫技术爬取豆瓣电影Top250的电影数据（包括排名、电影名称、导演、演员、url、评分）

2.实现分页爬取，共十页

3.将爬取下来的数据保存在数据库中

案例分析：

1.找到正确的数据吧，并复制正确的请求url

做好准备：开启管道、关闭君子协议、伪造浏览器

ITEM_PIPELINES = {
   'doubanbook.pipelines.DoubanbookPipeline': 300,
}

ROBOTSTXT_OBEY = False

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'

2.解析数据：如title

    def parse(self, response):
        # 实例一个容器保存爬取的信息
        item = DoubanbookItem()
        # 这部分是爬取部分，使用xpath的方式选择信息，具体方法根据网页结构而定
        for box in response.xpath('//ol[@class="grid_view"]/li'):
            item['Rank'] = box.xpath('.//div[@class="pic"]/em/text()').extract()[0]
            item['Name'] = box.xpath('.//div[@class="info"]/div[1]/a/span[1]/text()').extract()[0].strip().replace("\n","").replace(" ", "")
            s = box.xpath('.//div[@class="bd"]/p/text()').extract()[0].strip().replace(" ", "")
            item['Author'] = s.split()[0]
            if len(s.split()) > 1:
                item['Actor'] = s.split()[1]
            item['Score'] = box.xpath('.//div[@class="star"]/span[2]/text()').extract()[0].strip()
            item['Url'] = box.xpath('.//div[@class="pic"]/a/@href').extract()
            yield item

items.py中

import scrapy


class DoubanbookItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    Rank = scrapy.Field()
    Name = scrapy.Field()
    Author = scrapy.Field()
    Actor = scrapy.Field()
    Score = scrapy.Field()
    Url = scrapy.Field()

3.获取翻页链接

# 获取下一页的rl信息
        next_url = response.xpath('//span[@class="next"]/link/@href').extract()
        if next_url:
            # 将信息组合成下一页的url
            page = 'https://movie.douban.com/top250' + next_url[0]
            yield scrapy.Request(page, callback=self.parse)

4.保存至数据库

pipelines.py

from itemadapter import ItemAdapter
import pymysql.cursors
import pymysql
from twisted.enterprise import adbapi


class DoubanbookPipeline(object):
    def __init__(self):
        # 打开文件
        # 连接数据库
        self.conn = pymysql.connect(
            host='localhost',
            port=3306,
            user='root',
            passwd='wx990826',
            db='douban',
        )
        self.cur = self.conn.cursor()

    def process_item(self, item, spider):
        sqli = "insert into movie(ranks,title,author,actor,score,url) values(%s,%s,%s,%s,%s,%s)"

        self.cur.execute(sqli, (
        item['Rank'], item['Name'], item['Author'], item['Actor'], item['Score'],item['Url']))
        self.conn.commit()
        return item
        # 该方法在spider被开启时被调用。

运行项目：

start.py

from scrapy import cmdline
cmdline.execute(['scrapy','crawl','read','--nolog'])

运行结果：

查看全文

http://www.kler.cn/news/362226.html

亿佰特STM32MP13工业核心板【学习】

MySql数据库中的表的操作

基于node.js宜家宜业物业管理系统【附源码】

嵌套div导致子区域margin失效问题解决

vscode 预览markdown 文件

【算法系列-栈与队列】匹配消除系列

高校危化试剂仓储系统|基于SprinBoot+vue的高校危化试剂仓储系统设计与实现(源码+数据库+文档)

上拉电阻和下拉电阻在电路中的作用（一）

HTTP安全么？如何更好的保护您的网站

软件程序系统架构中MVC和三层架构分别是什么，有什么区别？

Jmeter接口测试企业级项目实战day2

从不一样的角度体会MATLAB

张雪峰：如果你现在是计算机专业，一定要优先报网络安全,它是未来国家发展的大方向

测网速小程序，纯前端

基于深度学习的生物启发的学习系统

【问题解决】——当出现0xc000007b和缺少mfc140.dll时，该怎么做才能让软件可以打开

MySQL中的最左前缀匹配原则

docker加速镜像

论文阅读（二十四）：SA-Net： Shuffle Attention for Deep Convolutional Neural Networks

linux系统下载安装nvidia显卡驱动

Qml的使用

Unity加载界面制作

Docker：安装 Syslog-ng 的技术指南

Build an Android project and get a `.apk` file on a Debian 11 command line

Java项目-基于Springboot的车辆充电桩项目(源码+说明).zip

c++基础算法练习(1)

相关文章：