当前位置：首页 > article >正文

从零开始构建一个简单的Web爬虫：Python实战教程

article 2025/3/20 4:59:48

在信息爆炸的时代，如何高效地从互联网中获取所需数据成为了一项重要技能。Web爬虫（Web Crawler）作为一种自动化工具，可以帮助我们从网页中提取有价值的信息。本文将带你从零开始，使用Python构建一个简单的Web爬虫，并通过实际案例演示其应用。

一、什么是Web爬虫？

Web爬虫是一种自动化程序，能够模拟人类浏览网页的行为，从网页中提取数据并存储下来。常见的应用场景包括：

数据采集：从电商网站抓取商品信息，从新闻网站获取最新文章。
搜索引擎：搜索引擎通过爬虫抓取网页内容并建立索引。
监控与预警：监控竞争对手的网站变化，或跟踪特定信息的更新。

二、技术选型：为什么选择Python？

Python是构建Web爬虫的首选语言，主要原因如下：

丰富的库支持：Python拥有强大的第三方库，如requests、BeautifulSoup、Scrapy等，可以轻松实现网页抓取和解析。
简单易学：Python语法简洁，适合初学者快速上手。
社区活跃：Python拥有庞大的开发者社区，遇到问题时可以快速找到解决方案。

三、实战案例：抓取豆瓣电影Top250

目标：从豆瓣电影Top250页面（豆瓣电影 Top 250）中提取电影名称、评分和短评，并将结果保存到CSV文件中。

四、实现步骤

1. 安装必要的库

在开始之前，我们需要安装以下Python库：

requests：用于发送HTTP请求，获取网页内容。
BeautifulSoup：用于解析HTML文档，提取所需数据。
pandas：用于将数据保存为CSV文件。

可以通过以下命令安装这些库：

pip install requests beautifulsoup4 pandas

2. 分析目标网页

打开豆瓣电影Top250页面，按F12打开开发者工具，查看网页结构。可以发现，每部电影的信息都包含在一个<div class="item">标签中，电影名称、评分和短评分别位于<span class="title">、<span class="rating_num">和<span class="inq">标签中。

3. 编写爬虫代码

以下是完整的爬虫代码：

import requests
from bs4 import BeautifulSoup
import pandas as pd

# 定义目标URL
url = "https://movie.douban.com/top250"

# 发送HTTP请求，获取网页内容
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get(url, headers=headers)

# 解析网页内容
soup = BeautifulSoup(response.text, "html.parser")

# 提取电影信息
movies = []
for item in soup.find_all("div", class_="item"):
    title = item.find("span", class_="title").text
    rating = item.find("span", class_="rating_num").text
    quote = item.find("span", class_="inq").text if item.find("span", class_="inq") else "无短评"
    movies.append({"电影名称": title, "评分": rating, "短评": quote})

# 将数据保存为CSV文件
df = pd.DataFrame(movies)
df.to_csv("douban_top250.csv", index=False, encoding="utf_8_sig")

print("数据抓取完成，已保存为douban_top250.csv")

4. 代码解析

发送HTTP请求：使用requests.get()方法获取网页内容，并通过headers模拟浏览器请求，避免被网站反爬虫机制拦截。
解析HTML：使用BeautifulSoup解析网页内容，并通过find_all()方法提取每部电影的信息。
保存数据：使用pandas将提取的数据保存为CSV文件。

5. 运行结果

运行脚本后，程序会生成一个名为douban_top250.csv的文件，内容如下：

电影名称	评分	短评
肖申克的救赎	9.7	希望让人自由。
霸王别姬	9.6	风华绝代。
阿甘正传	9.5	一部美国近现代史。
...	...	...

五、进一步优化

为了让爬虫更加健壮和实用，我们可以添加以下功能：

分页抓取：豆瓣电影Top250分为10页，我们需要抓取所有页面的数据。
异常处理：增加对网络请求失败、HTML解析错误的处理。
反爬虫策略：通过设置随机延时、使用代理IP等方式避免被网站封禁。

优化后的代码如下：

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import random

# 定义抓取函数
def scrape_page(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }
    response = requests.get(url, headers=headers)
    if response.status_code != 200:
        print(f"请求失败，状态码：{response.status_code}")
        return []
    soup = BeautifulSoup(response.text, "html.parser")
    movies = []
    for item in soup.find_all("div", class_="item"):
        title = item.find("span", class_="title").text
        rating = item.find("span", class_="rating_num").text
        quote = item.find("span", class_="inq").text if item.find("span", class_="inq") else "无短评"
        movies.append({"电影名称": title, "评分": rating, "短评": quote})
    return movies

# 抓取所有页面
all_movies = []
for page in range(0, 250, 25):
    url = f"https://movie.douban.com/top250?start={page}"
    print(f"正在抓取：{url}")
    movies = scrape_page(url)
    all_movies.extend(movies)
    time.sleep(random.randint(1, 3))  # 随机延时，避免被封禁

# 保存数据
df = pd.DataFrame(all_movies)
df.to_csv("douban_top250_full.csv", index=False, encoding="utf_8_sig")

print("数据抓取完成，已保存为douban_top250_full.csv")