当前位置：首页 > article >正文

Python爬取豆瓣图书网Top250 实战

article 2025/3/1 2:07:56

Python爬取豆瓣图书网Top250 实战

只是用于学习，请不要恶意攻击别人的网站，尊重他人。

1. 引言

豆瓣图书Top250是一个经典的图书排行榜，包含了大量优质图书的信息。本文将深入探讨如何使用Python爬取豆瓣图书Top250的内容，并将数据分别保存到数据库（SQLite）和文本文档中。我们将涵盖反爬虫策略、异常处理、数据清洗等技术细节，并提醒大家在爬取数据时尊重他人的劳动成果。

2. 技术栈与工具

在开始之前，请确保你已经安装了以下Python库：

requests：用于发送HTTP请求。
BeautifulSoup：用于解析HTML内容。
sqlite3：用于操作SQLite数据库。
fake_useragent：用于生成随机的User-Agent头，避免被反爬虫机制拦截。

你可以通过以下命令安装这些库：

pip install requests beautifulsoup4 fake_useragent

3. 爬取豆瓣图书Top250

3.1 反爬虫策略

为了避免被反爬虫机制拦截，我们需要采取以下措施：

随机User-Agent：使用fake_useragent库生成随机的User-Agent头。
请求延时：在每次请求之间添加适当的延时，避免频繁请求。
异常处理：捕获请求过程中可能出现的异常，确保程序稳定性。

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import time
import random

# 目标URL
url = 'https://book.douban.com/top250'

# 生成随机User-Agent
ua = UserAgent()
headers = {
    'User-Agent': ua.random
}

# 发送HTTP请求
try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()  # 检查请求是否成功
except requests.exceptions.RequestException as e:
    print(f'请求失败: {e}')
    exit()

# 添加随机延时（1-3秒）
time.sleep(random.uniform(1, 3))

3.2 解析HTML内容

使用BeautifulSoup解析HTML内容，并提取每本书的书名、评分和评价人数。为了提高代码的健壮性，我们需要对可能缺失的数据进行处理。

# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')

# 找到所有图书信息
books = soup.find_all('tr', class_='item')

# 存储图书信息
book_list = []

for book in books:
    try:
        # 提取书名
        title = book.find('div', class_='pl2').find('a')['title']
        
        # 提取评分
        rating = book.find('span', class_='rating_nums').text
        
        # 提取评价人数
        people = book.find('span', class_='pl').text.strip().strip('()')
        
        # 数据清洗：确保评分和评价人数为有效值
        if not title or not rating or not people:
            continue
        
        # 将图书信息添加到列表中
        book_list.append({
            'title': title,
            'rating': float(rating),
            'people': int(people.replace(',', ''))  # 去除千分位逗号
        })
    except AttributeError as e:
        print(f'解析错误: {e}')
        continue

# 打印结果
for book in book_list:
    print(f"书名: {book['title']}, 评分: {book['rating']}, 评价人数: {book['people']}")

4. 保存数据到文本文档

将爬取的数据保存到文本文档中，每行存储一本书的信息。为了便于后续分析，我们可以使用CSV格式保存数据。

import csv

# 保存数据到CSV文件
with open('douban_top250.csv', 'w', encoding='utf-8', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['书名', '评分', '评价人数'])  # 写入表头
    for book in book_list:
        writer.writerow([book['title'], book['rating'], book['people']])

print("数据已保存到CSV文件: douban_top250.csv")

5. 保存数据到SQLite数据库

5.1 创建数据库和表

使用SQLite数据库存储数据，确保数据结构的规范性和可扩展性。

import sqlite3

# 连接到SQLite数据库（如果数据库不存在，则会自动创建）
conn = sqlite3.connect('douban_top250.db')
cursor = conn.cursor()

# 创建表
cursor.execute('''
CREATE TABLE IF NOT EXISTS books (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    title TEXT NOT NULL,
    rating REAL NOT NULL,
    people INTEGER NOT NULL
)
''')

# 提交更改
conn.commit()

5.2 插入数据

将爬取的数据插入到数据库中，并使用事务机制确保数据的一致性。

# 使用事务插入数据
try:
    cursor.executemany('''
    INSERT INTO books (title, rating, people)
    VALUES (?, ?, ?)
    ''', [(book['title'], book['rating'], book['people']) for book in book_list])
    conn.commit()
except sqlite3.Error as e:
    print(f'数据库插入错误: {e}')
    conn.rollback()
finally:
    # 关闭数据库连接
    conn.close()

print("数据已保存到数据库: douban_top250.db")

6. 完整代码

以下是完整的代码：

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import time
import random
import csv
import sqlite3

# 目标URL
url = 'https://book.douban.com/top250'

# 生成随机User-Agent
ua = UserAgent()
headers = {
    'User-Agent': ua.random
}

# 发送HTTP请求
try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()  # 检查请求是否成功
except requests.exceptions.RequestException as e:
    print(f'请求失败: {e}')
    exit()

# 添加随机延时（1-3秒）
time.sleep(random.uniform(1, 3))

# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')

# 找到所有图书信息
books = soup.find_all('tr', class_='item')

# 存储图书信息
book_list = []

for book in books:
    try:
        # 提取书名
        title = book.find('div', class_='pl2').find('a')['title']
        
        # 提取评分
        rating = book.find('span', class_='rating_nums').text
        
        # 提取评价人数
        people = book.find('span', class_='pl').text.strip().strip('()')
        
        # 数据清洗：确保评分和评价人数为有效值
        if not title or not rating or not people:
            continue
        
        # 将图书信息添加到列表中
        book_list.append({
            'title': title,
            'rating': float(rating),
            'people': int(people.replace(',', ''))  # 去除千分位逗号
        })
    except AttributeError as e:
        print(f'解析错误: {e}')
        continue

# 保存数据到CSV文件
with open('douban_top250.csv', 'w', encoding='utf-8', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['书名', '评分', '评价人数'])  # 写入表头
    for book in book_list:
        writer.writerow([book['title'], book['rating'], book['people']])

print("数据已保存到CSV文件: douban_top250.csv")

# 连接到SQLite数据库
conn = sqlite3.connect('douban_top250.db')
cursor = conn.cursor()

# 创建表
cursor.execute('''
CREATE TABLE IF NOT EXISTS books (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    title TEXT NOT NULL,
    rating REAL NOT NULL,
    people INTEGER NOT NULL
)
''')

# 使用事务插入数据
try:
    cursor.executemany('''
    INSERT INTO books (title, rating, people)
    VALUES (?, ?, ?)
    ''', [(book['title'], book['rating'], book['people']) for book in book_list])
    conn.commit()
except sqlite3.Error as e:
    print(f'数据库插入错误: {e}')
    conn.rollback()
finally:
    # 关闭数据库连接
    conn.close()

print("数据已保存到数据库: douban_top250.db")