当前位置：首页 > article >正文

SpiderFlow平台v0.5.0爬取动态渲染的页面

article 2025/1/8 17:17:20

在 SpiderFlow v0.5.0 中爬取动态渲染的页面，通常会面临的问题是静态 HTML 页面不能直接获取到由 JavaScript 动态渲染的内容。为了应对这一挑战，SpiderFlow 提供了几种方法来处理动态渲染的页面，其中常见的做法是使用 Selenium 或者 Requests-HTML 等工具模拟浏览器行为，获取页面的最终渲染内容。

以下是如何在 SpiderFlow v0.5.0 中爬取动态渲染页面的一些方案。

方案 1：使用 Selenium 来爬取动态渲染的页面

Selenium 是一种常见的解决方案，它通过模拟浏览器来执行 JavaScript，从而获取动态渲染的页面内容。

步骤：

1.安装必要的库

在 SpiderFlow 的 Python 环境中，安装 Selenium 和 WebDriver（如 ChromeDriver）。

pip install selenium

2.创建自定义运算符

使用 SpiderFlow 的自定义 Python 运算符来集成 Selenium。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from spiderflow import Operator
import time

class SeleniumDynamicPageOperator(Operator):
    def __init__(self, url, output_column):
        super().__init__(inputs=[], output_column=output_column)
        self.url = url

    def run(self):
        # 配置无头模式，避免弹出浏览器窗口
        chrome_options = Options()
        chrome_options.add_argument("--headless")
        chrome_options.add_argument("--disable-gpu")

        # 初始化 WebDriver
        service = Service("path/to/chromedriver")  # 请替换为 ChromeDriver 的实际路径
        driver = webdriver.Chrome(service=service, options=chrome_options)

        # 打开目标网页
        driver.get(self.url)

        # 等待页面加载完成
        time.sleep(5)  # 根据实际需要调整等待时间，或者使用 WebDriverWait 等方法

        # 获取动态渲染后的页面内容
        page_source = driver.page_source

        # 关闭浏览器
        driver.quit()

        return page_source

3.配置爬取任务

在 SpiderFlow 中，使用上面创建的 SeleniumDynamicPageOperator 运算符来爬取动态页面。

# 示例：使用自定义运算符抓取动态页面
url = "https://example.com/dynamic-page"
operator = SeleniumDynamicPageOperator(url, output_column="dynamic_page_content")
dynamic_page_content = operator.run()
print(dynamic_page_content)

说明：

这段代码首先启动一个无头的 Chrome 浏览器，通过 Selenium 打开页面，等待页面加载完毕后获取 HTML 内容。
使用 driver.page_source 获取渲染后的页面源代码。
time.sleep(5) 是简单的等待页面加载，你也可以使用更精确的方式（如 WebDriverWait）来等待特定元素加载完成。

方案 2：使用 Requests-HTML 来抓取动态渲染页面

Requests-HTML 是一个轻量级的库，它内置了对 JavaScript 渲染的支持。它通过使用 Chromium 来模拟页面加载，适合抓取一些简单的动态页面。

步骤：

1.安装 Requests-HTML

pip install requests-html

2.创建自定义运算符

from requests_html import HTMLSession
from spiderflow import Operator

class RequestsHtmlDynamicPageOperator(Operator):
    def __init__(self, url, output_column):
        super().__init__(inputs=[], output_column=output_column)
        self.url = url

    def run(self):
        session = HTMLSession()

        # 获取页面内容
        response = session.get(self.url)

        # 渲染页面（执行 JavaScript）
        response.html.render(sleep=3)  # 可以通过调整 sleep 参数控制等待时间

        # 获取渲染后的 HTML 内容
        rendered_html = response.html.html

        return rendered_html

3.配置爬取任务

在 SpiderFlow 中，使用上面创建的 RequestsHtmlDynamicPageOperator 运算符来爬取动态页面。

# 示例：使用自定义运算符抓取动态页面
url = "https://example.com/dynamic-page"
operator = RequestsHtmlDynamicPageOperator(url, output_column="dynamic_page_content")
dynamic_page_content = operator.run()
print(dynamic_page_content)