当前位置：首页 > article >正文

Python爬虫 | 爬取豆瓣电影Top250的数据

article 2025/1/22 21:55:22

简单记录一下，实现爬取豆瓣电影Top 250的数据。
这里我使用requests库来发送HTTP请求，以及BeautifulSoup库来解析HTML页面。

1.安装`requests`和`BeautifulSoup`库。

如果没有安装，可以通过以下命令安装：

pip install requests beautifulsoup4

2.具体实现代码

import requests
from bs4 import BeautifulSoup

# 豆瓣电影Top 250的URL
base_url = "https://movie.douban.com/top250"

# 存储电影信息的列表
movies = []

# 豆瓣电影Top 250有10页，每页25部电影
for i in range(10):
    # 构造每一页的URL
    url = f"{base_url}{i * 25}"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 找到所有电影的容器
    items = soup.find_all('div', class_='item')
    
    for item in items:
        # 电影名
        title = item.find('span', class_='title').get_text()
        # 评分
        rating_num = item.find('span', class_='rating_num').get_text()
        # 评价人数
        rating_people = item.find('div', class_='star').find_all('span')[-1].get_text().strip('人评价')
        
        # 将电影信息存储为字典
        movie = {
            'title': title,
            'rating_num': rating_num,
            'rating_people': rating_people
        }
        movies.append(movie)

# 打印电影信息
for movie in movies:
    print(f"电影名: {movie['title']}, 评分: {movie['rating_num']}, 评价人数: {movie['rating_people']}")