当前位置: 首页 > article >正文

【Python爬虫实战】DrissionPage 与 ChromiumPage:高效网页自动化与数据抓取的双利器

  🌈个人主页:易辰君-CSDN博客
🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html

目录

前言

一、DrissionPage简介

(一)特点

(二)安装

(三)基本用法

(四)常见操作示例

二、ChromiumPage简介

(一)特点

(二)安装 ChromiumPage 和依赖

(三)基本用法

(四)常见操作

(五)适用场景

(六)ChromiumPage总结

三、总结


前言

在数据抓取与自动化测试领域,处理静态和动态网页的需求日益增加。传统的工具如 requestsselenium 虽然各有优势,但往往需要根据需求在二者之间切换,增加了代码的复杂度。DrissionPage 则创新性地整合了这两种模式,提供了统一的 API,使得静态和动态网页的处理变得更加简洁高效。此外,DrissionPageChromiumPage 模块结合了 Playwright 的强大性能,专为处理复杂的动态网页而设计,让开发者可以在无头浏览器中高效执行 JavaScript、进行模拟操作,为网页自动化和数据抓取提供了理想的解决方案。


一、DrissionPage简介

DrissionPage 是一个基于 Python 的网页自动化和数据抓取库,结合了 requestsselenium 两种工具的优势,为开发者提供了统一的 API,从而简化了静态和动态网页的处理。通过 DrissionPage,可以轻松切换不同的操作模式,适用于从简单的数据抓取到复杂的网页自动化操作。

(一)特点

(1)双模式支持:提供了两种模式,分别是 requests 模式和 selenium 模式。

  • requests 模式:适合加载速度快的静态网页抓取。

  • selenium 模式:适合处理动态网页和需要用户操作的网页,比如点击按钮、表单输入等。

(2)统一 APIDrissionPage 提供的 API 简洁且一致,无论是 requests 还是 selenium 模式,使用的接口基本一致,从而简化了代码的切换和维护。

(3)简化浏览器控制:在 selenium 模式下,可以自动加载页面、执行脚本、模拟用户操作(点击、输入等),便于实现自动化浏览器任务。

(4)智能解析与提取:集成了便捷的 CSS 选择器支持,可轻松定位页面元素,适用于快速数据提取和处理。

(二)安装

使用 pip 进行安装:

pip install drissionPage

此外,如果需要使用 selenium 模式,需要确保系统安装了对应的浏览器驱动(如 Chrome 的 chromedriver),或者使用 webdriver-manager 自动管理驱动。

(三)基本用法

以下是一个快速入门示例,展示如何使用 DrissionPage 切换模式来获取网页内容:

from drissionPage import Drission

# 初始化 Drission 对象
drission = Drission()

# 使用 requests 模式获取静态网页内容
page = drission.requests.get('https://example.com')
print(page.text)  # 输出网页文本内容

# 切换到 selenium 模式,适用于动态网页
drission.change_mode('selenium')
page = drission.get('https://example.com')
print(page.page_source)  # 输出完整的网页源码

(四)常见操作示例

  • 定位和获取元素
# 在 requests 模式下查找元素
element = page.ele('h1')
print(element.text)
  • 自动化操作(在 selenium 模式下)
drission.change_mode('selenium')
page = drission.get('https://example.com')

# 点击元素
page.ele('button#submit').click()

# 输入文本
page.ele('input#name').input('example text')

二、ChromiumPage简介

ChromiumPageDrissionPage 库中的一个功能模块,专门用于控制基于 Chromium 的无头浏览器(headless browser),可以用于在 Python 中实现浏览器自动化和动态网页的数据抓取。ChromiumPage 使用 Playwright 作为底层引擎,能够高效地加载页面、执行 JavaScript 代码,并且可以无缝地处理动态内容(例如 AJAX 加载的内容)。

(一)特点

  • 高性能:基于 Playwright 引擎的无头浏览器,相比 Selenium 更轻量且性能更好。

  • 跨平台兼容Playwright 支持在 Windows、MacOS 和 Linux 上运行,并且适用于多种浏览器内核(包括 Chromium、Firefox 等)。

  • 处理动态内容:可以执行 JavaScript、模拟点击、输入等操作,适合动态网页的数据抓取。

  • API 简单易用:提供了简洁的 API,使得操作元素、提取数据变得更加直观。

(二)安装 ChromiumPage 和依赖

ChromiumPage 依赖 Playwright,因此在安装 DrissionPage 后,还需要安装 Playwright 并下载浏览器二进制文件:

pip install drissionPage[playwright]
python -m playwright install

(三)基本用法

以下是一个简单的例子,展示了如何使用 ChromiumPage 来访问网页、查找元素和执行自动化操作:

from drissionPage import ChromiumPage

# 初始化 ChromiumPage 对象
page = ChromiumPage()

# 访问网页
page.get('https://example.com')

# 查找元素并获取文本
element = page.ele('h1')
print(element.text)

# 模拟点击按钮
page.ele('button#submit').click()

# 在输入框中输入文本
page.ele('input#name').input('Hello, World!')

(四)常见操作

定位元素:可以使用 CSS 选择器或 XPath 定位页面中的元素。

# 查找单个元素
element = page.ele('div.classname')

# 查找多个元素
elements = page.eles('p')
for e in elements:
    print(e.text)

获取动态内容:在页面加载完成后,可以轻松获取由 JavaScript 动态生成的内容。

page.get('https://example.com')
content = page.ele('div#dynamic-content').text
print(content)

自动化操作:点击按钮、选择下拉框、输入文本等操作都可以在 ChromiumPage 中实现,比如登录表单填写

page.ele('input#username').input('my_username')
page.ele('input#password').input('my_password')
page.ele('button#login').click()

截图与 PDF 生成

可以轻松保存页面截图和生成 PDF 文件。

# 保存截图
page.screenshot('screenshot.png')

# 保存页面为 PDF
page.pdf('page.pdf')

(五)适用场景

  • 数据抓取:适合处理需要 JavaScript 渲染的动态网页。

  • 自动化测试:能够模拟用户的操作,用于自动化测试。

  • 网页自动化操作:适用于登录操作、数据提交等任务。

(六)ChromiumPage总结

ChromiumPage 是一个强大的网页自动化和数据抓取工具,通过与 Playwright 的结合,可以实现高效、跨平台的浏览器自动化。无论是用于数据抓取还是自动化测试,它都提供了丰富的 API,适合需要处理动态网页内容的任务。


三、总结

DrissionPageChromiumPage 的结合,使得 Python 用户能够轻松应对多种网页自动化与数据抓取任务。从简单的数据抓取到复杂的用户交互、从静态页面到动态内容,这两个工具模块通过统一、简洁的 API 极大地降低了开发者的工作量。无论是需要更高性能的动态页面处理,还是简化自动化测试流程,DrissionPage 都是一个强大的利器,尤其在需要高效处理动态内容的场景下,ChromiumPage 的表现尤为出色。


http://www.kler.cn/a/384135.html

相关文章:

  • Docker-软件容器平台
  • 小北的字节跳动青训营与调用模型:调用模型:OpenAI API vs 微调开源Llama2/ChatGLM(持续更新中~~~)
  • 配置本地策略路由示例
  • 【FAQ】HarmonyOS SDK 闭源开放能力 —Vision Kit
  • $nextTick 实现原理
  • Copy From 勇哥的机器视觉实验项目
  • 【AI】【提高认知】卷积神经网络:从LeNet到AI淘金热的深度学习之旅
  • 一、数据操作
  • 5G NR物理层|5G PHY层概述
  • 【SpringCloud】Nacos微服务注册中心
  • 【LeetCode】【算法】416. 分割等和子集
  • STM32F1 LL 库和HAL 库在GPIO 上的区别
  • 从0开始学习机器学习--Day13--神经网络如何处理复杂非线性函数
  • 【JavaEE】常见锁策略、CAS
  • python --03 (数据类型)
  • 【持续更新】【NLP项目】【自然语言处理】智能聊天机器人——“有问必答”【Chatbot】第2章、《模式一:问候模式》
  • Qt——窗口
  • 阿里云 DataWorks 正式支持 SelectDB Apache Doris 数据源,实现 MySQL 整库实时同步
  • Golang | Leetcode Golang题解之第542题01矩阵
  • Spring Boot 与 Vue 共筑航空机票预定卓越平台
  • Docker LLama-Factory vLLM 快速部署Meta-Llama-3.1-70B-Instruct
  • 银行卡二要素核验 API 对接说明
  • uniapp 实现瀑布流
  • LSTM+LightGBM+Catboost的stacking融合模型
  • Pr 视频过渡:沉浸式视频 - VR 默比乌斯缩放
  • 网络安全从入门到精通(特别篇II):应急响应之DDOS处置流程