当前位置：首页 > article >正文

使用 Selenium 构建简单高效的网页爬虫

article 2025/3/31 18:50:38

在当今数据驱动的世界中，网络爬虫已成为获取网络信息的重要工具。本文将介绍如何使用 Python 和 Selenium 构建一个简单而高效的网页爬虫，该爬虫能够处理现代网站的动态内容，支持代理设置和用户配置文件。

为什么选择 Selenium？

传统的爬虫工具（如 Requests 和 BeautifulSoup）在处理静态网页时表现出色，但在面对现代 JavaScript 渲染的动态网站时往往力不从心。Selenium 通过实际控制浏览器来解决这个问题，它可以：

执行 JavaScript 并渲染动态内容
模拟用户交互（点击、滚动等）
处理复杂的网站认证和会话
支持各种浏览器（Chrome、Firefox、Edge 等）

爬虫功能概述

我们的 Selenium 爬虫具有以下功能：

灵活的 URL 抓取：可以抓取任何指定的 URL
代理支持：可以通过代理服务器访问网站，有助于规避 IP 限制
用户数据目录：可以使用已保存的 Chrome 用户数据，保留登录状态和 Cookie
链接提取：自动提取页面上的链接，为进一步爬取做准备
错误处理：优雅地处理浏览器异常

代码实现详解

导入必要的库

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.common.exceptions import WebDriverException
from selenium.webdriver.common.by import By
from urllib.parse import urlparse
import os

这些库提供了我们需要的所有功能：

selenium 包提供了 WebDriver 接口
Options 类用于配置 Chrome 浏览器
Service 类用于管理 ChromeDriver 服务
WebDriverException 用于异常处理
By 类用于定位元素
urlparse 用于 URL 解析
os 用于文件路径操作

核心爬虫函数

def selenium_crawler(url, proxy=None, user_data_dir=None):
    """
    Selenium 实现的爬虫函数
    :param url: 目标URL
    :param proxy: 代理地址，格式如 "http://ip:port" 或 "socks5://ip:port"
    :param user_data_dir: Chrome 用户数据目录路径
    """
    chrome_options = Options()
    
    # 设置用户数据目录
    if user_data_dir and os.path.exists(user_data_dir):
        chrome_options.add_argument(f"--user-data-dir={user_data_dir}")
    
    # 设置代理
    if proxy:
        chrome_options.add_argument(f"--proxy-server={proxy}")

    try:
        # 自动管理 ChromeDriver
        from webdriver_manager.chrome import ChromeDriverManager
        service = Service(ChromeDriverManager().install())
        driver = webdriver.Chrome(
            service=service,
            options=chrome_options
        )
        
        driver.get(url)
        print("页面标题:", driver.title)
        
        # 获取所有链接（示例）
        links = [a.get_attribute("href") for a in driver.find_elements(By.TAG_NAME, "a")]
        print("\n页面链接：")
        for link in links[:10]:  # 仅打印前10个链接
            if link and not urlparse(link).netloc:
                link = urlparse(url)._replace(path=link).geturl()
            print(link)
            
    except WebDriverException as e:
        print(f"浏览器错误: {str(e)}")
    finally:
        if 'driver' in locals():
            driver.quit()

这个函数是我们爬虫的核心，它执行以下步骤：

配置 Chrome 选项：设置用户数据目录和代理（如果提供）
初始化 WebDriver：使用 webdriver_manager 自动下载和管理 ChromeDriver
访问目标 URL：使用 driver.get() 方法加载页面
提取信息：获取页面标题和所有链接
错误处理：捕获并处理可能的 WebDriver 异常
资源清理：确保在函数结束时关闭浏览器

主程序

if __name__ == "__main__":
    target_url = input("请输入要抓取的URL（默认：https://example.com）: ") or "https://example.com"
    proxy = input("请输入代理地址（格式：http://ip:port，留空则不使用代理）: ")
    user_data_dir = input("请输入 Chrome 用户数据目录路径（留空则使用默认路径）: ").strip('"')  # 去除可能输入的双引号
    
    selenium_crawler(target_url, proxy=proxy, user_data_dir=user_data_dir)

主程序通过交互式输入获取参数，然后调用爬虫函数。

技术要点解析

1. ChromeDriver 自动管理

传统上，使用 Selenium 需要手动下载与浏览器版本匹配的 ChromeDriver。我们使用 webdriver_manager 库自动处理这个过程：

from webdriver_manager.chrome import ChromeDriverManager
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service, options=chrome_options)

这段代码会自动下载适合当前 Chrome 版本的 ChromeDriver，并正确配置 Service 对象。

2. 用户数据目录

Chrome 的用户数据目录包含 Cookie、历史记录和登录状态等信息。通过指定这个目录，爬虫可以使用已登录的会话：

if user_data_dir and os.path.exists(user_data_dir):
    chrome_options.add_argument(f"--user-data-dir={user_data_dir}")

这对于需要登录才能访问的网站特别有用。

3. 代理支持

网络爬虫经常需要使用代理来避免 IP 封锁或访问地理限制的内容：

if proxy:
    chrome_options.add_argument(f"--proxy-server={proxy}")

支持 HTTP、HTTPS 和 SOCKS 代理。

4. 现代元素选择器

Selenium 4 引入了新的元素选择方法，替代了旧的 find_elements_by_* 方法：

links = [a.get_attribute("href") for a in driver.find_elements(By.TAG_NAME, "a")]

这种方法更加灵活，并且与 W3C WebDriver 标准保持一致。

5. 相对 URL 处理

爬虫需要正确处理相对 URL，我们使用 urlparse 来解决这个问题：

if link and not urlparse(link).netloc:
    link = urlparse(url)._replace(path=link).geturl()

这确保了所有提取的链接都是完整的绝对 URL。

扩展可能性

这个基础爬虫可以进一步扩展：

多线程爬取：使用 Python 的 threading 或 concurrent.futures 并行爬取多个 URL
深度爬取：实现递归爬取，访问提取的链接
数据存储：将爬取的数据保存到数据库或文件中
更多浏览器选项：添加无头模式、禁用图片等选项以提高性能
高级交互：实现表单填写、按钮点击等交互功能

注意事项

使用网络爬虫时，请遵守以下原则：

尊重 robots.txt：检查网站的爬虫规则
控制请求频率：添加延迟，避免对服务器造成过大负担
遵守服务条款：确保爬取活动不违反目标网站的服务条款
数据使用合规：遵守数据保护法规，如 GDPR

完整代码

以下是完整的 Selenium 爬虫代码：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.common.exceptions import WebDriverException
from selenium.webdriver.common.by import By
from urllib.parse import urlparse
import os

def selenium_crawler(url, proxy=None, user_data_dir=None):
    """
    Selenium 实现的爬虫函数
    :param url: 目标URL
    :param proxy: 代理地址，格式如 "http://ip:port" 或 "socks5://ip:port"
    :param user_data_dir: Chrome 用户数据目录路径
    """
    chrome_options = Options()
    
    # 设置用户数据目录
    if user_data_dir and os.path.exists(user_data_dir):
        chrome_options.add_argument(f"--user-data-dir={user_data_dir}")
    
    # 设置代理
    if proxy:
        chrome_options.add_argument(f"--proxy-server={proxy}")

    try:
        # 自动管理 ChromeDriver
        from webdriver_manager.chrome import ChromeDriverManager
        service = Service(ChromeDriverManager().install())
        driver = webdriver.Chrome(
            service=service,
            options=chrome_options
        )
        
        driver.get(url)
        print("页面标题:", driver.title)
        
        # 获取所有链接（示例）
        links = [a.get_attribute("href") for a in driver.find_elements(By.TAG_NAME, "a")]
        print("\n页面链接：")
        for link in links[:10]:  # 仅打印前10个链接
            if link and not urlparse(link).netloc:
                link = urlparse(url)._replace(path=link).geturl()
            print(link)
            
    except WebDriverException as e:
        print(f"浏览器错误: {str(e)}")
    finally:
        if 'driver' in locals():
            driver.quit()

if __name__ == "__main__":
    target_url = input("请输入要抓取的URL（默认：https://example.com）: ") or "https://example.com"
    proxy = input("请输入代理地址（格式：http://ip:port，留空则不使用代理）: ")
    user_data_dir = input("请输入 Chrome 用户数据目录路径（留空则使用默认路径）: ").strip('"')  # 去除可能输入的双引号
    
    selenium_crawler(target_url, proxy=proxy, user_data_dir=user_data_dir)

结语

Selenium 爬虫是一个强大的工具，能够处理现代网站的复杂性。通过本文介绍的基础爬虫，您可以开始自己的网络数据采集项目，并根据需要进行扩展和定制。无论是市场研究、数据分析还是自动化测试，这个爬虫都提供了一个坚实的起点。

本文示例代码使用 Python 3.6+ 和 Selenium 4.x 测试通过。如需运行代码，请确保已安装必要的依赖：

pip install selenium webdriver-manager

查看全文

http://www.kler.cn/a/613640.html

Docker Compose 基础知识

rnn的ho的维度 (num_layers * num_directions, batchsize, hidden_size)

付账问题 | 第9届蓝桥杯省赛C++A组

Kafka 偏移量

安卓车载app面经

嵌入式单片机程序的映像文件解读

idea中如何使用git

git在实践使用中的操作流程

Java----用正则表达式爬取数据

SpringCloud Hystrix的用法详解

【C#.NET】Web API项目Swagger配置扩展

vscode无法打开Terminal终端

电脑连不上手机热点会出现的小bug

博卡软件管理中心8：为美容美发行业量身打造的轻量级管理方案

swagger上传图片请求报错

3.27学习总结

介绍几种创意登录页（含完整源码）

Uniapp使用大疆SDK打包离线原生插件二

力扣HOT100之普通数组：41. 缺失的第一个正数

uvm configuration