当前位置: 首页 > article >正文

Python爬虫 | 爬取豆瓣电影Top250的数据

简单记录一下,实现爬取豆瓣电影Top 250的数据。
这里我使用requests库来发送HTTP请求,以及BeautifulSoup库来解析HTML页面。

1.安装requestsBeautifulSoup库。

如果没有安装,可以通过以下命令安装:

pip install requests beautifulsoup4

2.具体实现代码

import requests
from bs4 import BeautifulSoup

# 豆瓣电影Top 250的URL
base_url = "https://movie.douban.com/top250"

# 存储电影信息的列表
movies = []

# 豆瓣电影Top 250有10页,每页25部电影
for i in range(10):
    # 构造每一页的URL
    url = f"{base_url}{i * 25}"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 找到所有电影的容器
    items = soup.find_all('div', class_='item')
    
    for item in items:
        # 电影名
        title = item.find('span', class_='title').get_text()
        # 评分
        rating_num = item.find('span', class_='rating_num').get_text()
        # 评价人数
        rating_people = item.find('div', class_='star').find_all('span')[-1].get_text().strip('人评价')
        
        # 将电影信息存储为字典
        movie = {
            'title': title,
            'rating_num': rating_num,
            'rating_people': rating_people
        }
        movies.append(movie)

# 打印电影信息
for movie in movies:
    print(f"电影名: {movie['title']}, 评分: {movie['rating_num']}, 评价人数: {movie['rating_people']}")

3.注意事项

请遵守豆瓣的使用条款和条件,不要过度请求豆瓣的服务器,以免给豆瓣造成不必要的负担。


http://www.kler.cn/a/386494.html

相关文章:

  • UE5 开启“Python Remote Execution“
  • 编译chromium笔记
  • 【0x04】HCI_Connection_Request事件详解
  • win32汇编环境,对多行编辑框添加或删除文本
  • 【云原生布道系列】第三篇:“软”饭“硬”吃的计算
  • 三格电子——MODBUS TCP 转 CANOpen 协议网关
  • 《计算机原理与系统结构》学习系列——存储器(上)
  • md5等摘要算法的「撞库」与「加盐」(Ⅰ)
  • 软考:信息安全难点再次复习
  • 如何改 Bug - 2024最新版前端秋招面试短期突击面试题【100道】
  • Excel 数据分析高级建模指南
  • 人工智能在SEO中的关键词优化技巧与策略
  • PaaS云原生:分布式集群中如何构建自动化压测工具
  • 对接世邦XC-9000 HTTP
  • 数据结构————链表
  • 论文阅读《机器人状态估计中的李群》
  • 理解鸿蒙app 开发中的 context
  • Centos 网络接口打vlan标签
  • 三周精通FastAPI:38 针对不同的编程语言来生成客户端
  • 『事善能』MySQL基础 — 2.MySQL 5.7安装(一)
  • 玩的花,云产品也能拼团了!!!
  • typescript 补充
  • Spring Boot技术在导师双选系统中的应用
  • uniapp中使用全局样式文件引入的三种方式
  • 高德地图通过经纬度查找位置和轨迹回放
  • Uboot移植