当前位置：首页 > article >正文

15分钟学 Python 第41天：Python 爬虫入门（六）第二篇

article 2024/10/7 15:09:56

Day41：Python爬取猫眼电影网站的电影信息

1. 项目背景

在本项目中，我们将使用 Python 爬虫技术从猫眼电影网站抓取电影信息。猫眼电影是一个知名的电影信息平台，提供了丰富的电影相关数据。通过这个练习，您将深入学习如何抓取动态网站的数据，包括发送请求、解析 JSON 数据、处理分页等基本技术。

2. 项目目标

爬取猫眼电影网站的电影信息，包括电影名称、评分、票房、上映时间等。
将抓取的数据保存为CSV文件，便于后续分析与使用。

3. 核心工具

Python 3.x ：编程语言环境。
requests ：用于发送 HTTP 请求。
json ：用于解析 JSON 数据。
pandas ：用于数据存储和处理。
BeautifulSoup ：用于解析 HTML 文档（如需处理 HTML 内容）。

4. 环境准备

确保您的环境中安装了以下库。在终端中运行以下命令：

pip install requests pandas beautifulsoup4

5. 数据抓取流程

5.1 确定目标网址和接口

我们要爬取的猫眼电影数据源是一个 API 接口，可以通过特定的 GET 请求获取数据。猫眼的电影数据接口如下：

https://maoyan.com/board/4

5.2 发送请求

使用 requests 库向网页发送请求，获取网页内容。

5.3 解析JSON数据

使用 json 库解析获取的 JSON 数据。

5.4 提取电影信息

从解析的内容中提取所需的电影信息。

5.5 处理分页

处理多页数据，确保提取到所有电影信息。

5.6 数据存储

将提取到的数据存储为 CSV 文件。

5.7 运行流程图

6. 示例代码

以下是完整的代码示例，分为几个功能部分以便更好理解。

6.1 导入必要的库

import requests
import pandas as pd
import json
import time

6.2 发送请求并获取页面内容

def fetch_movies(page):
    url = f'https://maoyan.com/board/4?offset={page * 10}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print("请求失败", response.status_code)
        return None

6.3 解析HTML并提取信息

def parse_movies(html):
    movies = []
    soup = BeautifulSoup(html, 'html.parser')
    for item in soup.find_all('div', class_='movie-item-info'):
        title = item.find('p', class_='name').text.strip()
        star = item.find('p', class_='star').text.strip()
        score = item.find('p', class_='score').text.strip()
        release_time = item.find('p', class_='releaese').text.strip().split('：')[-1]
        movies.append({
            'Title': title,
            'Star': star,
            'Score': score,
            'Release Time': release_time
        })
    return movies

6.4 存储数据到CSV

def save_to_csv(movies, filename='maoyan_movies.csv'):
    df = pd.DataFrame(movies)
    df.to_csv(filename, index=False, encoding='utf-8-sig')
    print(f"数据已保存到 {filename}")

6.5 主程序

def main():
    all_movies = []
    for page in range(10):  # 爬取前 10 页数据
        html = fetch_movies(page)
        if html:
            movies = parse_movies(html)
            all_movies.extend(movies)
            time.sleep(2)  # 添加延迟，避免请求过快
    save_to_csv(all_movies)

if __name__ == '__main__':
    main()

7. 数据分析与检查

运行完毕后，我们可以使用 pandas 读取 CSV 文件并检查数据：

def load_and_check_csv(filename='maoyan_movies.csv'):
    df = pd.read_csv(filename)
    print(df.head())
    print(f"总电影数: {len(df)}")

load_and_check_csv()