当前位置：首页 > article >正文

从网络请求到Excel：自动化数据抓取和保存的完整指南

article 2024/10/22 10:33:14

背景介绍

在投资和财经领域，论坛一直是投资者们讨论和分享信息的重要平台，而东方财富股吧作为中国最大的财经论坛之一，聚集了大量投资者实时交流股票信息。对于投资者来说，自动化地采集这些发帖信息，并进行分析，是获取市场情绪和热点的有效方式。

手动收集这些信息显然耗时耗力，如何快速自动化地采集大量论坛数据，规避反爬虫机制，并将数据有效存储以便后续分析，是本文要解决的关键问题。

在本篇文章中，我们将带你一步步实现自动化采集东方财富股吧的发帖信息，并将抓取到的发帖标题和时间保存到Excel中。整个过程不仅高效、可靠，还将使用代理IP、多线程等技术手段，保证抓取速度和成功率。

问题陈述

手动访问东方财富股吧论坛并收集每个帖子的标题和发帖时间，不仅工作量巨大，还容易因为频繁请求而触发反爬虫机制导致封禁。我们需要设计一个系统，能够：

通过代理IP避开封禁；
使用cookie和User-Agent伪装请求；
通过多线程提高抓取速度；
自动整理抓取到的发帖标题和时间，并保存到Excel文件中。

解决方案

解决这一问题的核心是设计一个高效、稳定的自动化爬虫系统。我们将借助Python语言及相关库来实现此功能。方案的主要步骤如下：

使用requests库进行网络请求，通过BeautifulSoup解析HTML，提取发帖的标题和时间。
使用爬虫代理来规避反爬虫机制。
通过多线程并行抓取不同页面的数据，提升爬取速度。
最后，将数据整理保存到Excel中，供后续分析使用。

案例分析

1. 环境准备

首先，安装需要的Python库：

pip install requests pandas openpyxl beautifulsoup4

requests: 用于发送HTTP请求，获取网页内容。
pandas: 用于数据处理和保存到Excel。
openpyxl: 用于生成和操作Excel文件。
beautifulsoup4: 用于解析HTML页面，提取需要的信息。

2. 爬虫设计

我们将使用东方财富网股吧的一个股票讨论区作为示例，爬取论坛页面中的每个帖子的标题和发帖时间，并使用代理IP、cookie、user-agent来伪装请求。

代码实现：

import requests
import pandas as pd
import threading
from openpyxl import Workbook
from bs4 import BeautifulSoup

# 代理设置，使用亿牛云代理服务 www.16yu.cn
proxy = {
    "http": "http://用户名:密码@proxy.16yu.cn:81000",
    "https": "http://用户名:密码@proxy.16yu.cn:81000"
}

# 请求头设置，包含user-agent和cookie
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Cookie": "your_cookie_here"
}

# 东方财富股吧论坛URL模板，替换为实际的股票代码
base_url = "https://guba.eastmoney.com/list,股票代码,f_{}.html"

# 定义线程锁，用于数据安全写入
lock = threading.Lock()

# 存储帖子标题和时间的列表
posts_list = []

# 数据抓取函数
def fetch_data(page_num):
    try:
        # 构建完整的URL
        url = base_url.format(page_num)
        response = requests.get(url, headers=headers, proxies=proxy, timeout=10)
        if response.status_code == 200:
            # 使用BeautifulSoup解析HTML内容
            soup = BeautifulSoup(response.text, "html.parser")
            # 查找所有帖子条目，假设帖子标题在a标签中，时间在span标签中
            posts = soup.find_all('div', class_='articleh')  # 文章的HTML容器
            for post in posts:
                # 提取帖子标题和发帖时间
                title = post.find('a', class_='l3').get_text() if post.find('a', class_='l3') else 'N/A'
                time = post.find('span', class_='l6').get_text() if post.find('span', class_='l6') else 'N/A'
                lock.acquire()  # 加锁，确保数据写入的线程安全
                posts_list.append({"标题": title, "时间": time})
                lock.release()  # 解锁
        else:
            print(f"请求失败，状态码: {response.status_code}")
    except Exception as e:
        print(f"抓取失败: {e}")

# 多线程抓取函数
def multi_thread_crawl(pages):
    threads = []
    for page in range(1, pages + 1):
        thread = threading.Thread(target=fetch_data, args=(page,))
        threads.append(thread)
        thread.start()
    
    for thread in threads:
        thread.join()  # 等待所有线程结束

# 模拟抓取10页数据
multi_thread_crawl(10)

# 保存数据到Excel
def save_to_excel(posts_list, file_name="guba_posts.xlsx"):
    df = pd.DataFrame(posts_list)  # 将数据转换为DataFrame格式
    df.to_excel(file_name, index=False)  # 保存到Excel文件
    print(f"数据已保存到 {file_name}")

# 将抓取到的数据保存到Excel
save_to_excel(posts_list)