当前位置: 首页 > article >正文

利用Selenium和XPath抓取JavaScript动态加载内容的实践案例

00010.png

引言

在当今的互联网时代,数据的获取和分析对于商业决策、市场研究以及个人兴趣都至关重要。然而,许多现代网站采用JavaScript动态加载技术来展示内容,这给传统的静态网页抓取方法带来了挑战。本文将通过一个实践案例,详细介绍如何使用Python的Selenium库结合XPath来抓取一个实际网站中由JavaScript动态加载的内容。

环境准备

在开始之前,确保你的开发环境中安装了Python以及以下库:

  • selenium:用于自动化Web浏览器交互。
  • lxml:用于解析HTML和XML文档。
  • beautifulsoup4:提供了一些简单的方法来导航、搜索和修改解析树。

可以通过以下命令安装所需的库:

bash
pip install selenium lxml beautifulsoup4

下载WebDriver

Selenium需要对应浏览器的WebDriver才能控制浏览器。例如,如果你使用的是Chrome浏览器,需要下载ChromeDriver。

实践案例

假设我们要抓取的网站是http://dynamic-content-example.com,该网站使用JavaScript动态加载了一个列表,我们的目标是抓取这个列表中的所有项目。

步骤1:初始化Selenium WebDriver

步骤2:访问目标网站

步骤3:等待页面加载

由于内容是动态加载的,我们需要等待这些内容加载完成。Selenium提供了显式等待(Explicit Wait)的功能来实现这一点。

步骤4:使用XPath抓取数据

一旦页面加载完成,我们就可以使用XPath来定位并抓取我们感兴趣的元素。

步骤5:关闭浏览器

完成数据抓取后,关闭浏览器以释放资源。

代码实现

以下是完整的代码实现,包括了上述所有步骤:

python
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.proxy import Proxy, ProxyType
from bs4 import BeautifulSoup

proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 创建代理对象
proxy = Proxy()
proxy.proxy_type = ProxyType.MANUAL
proxy.http_proxy = f"{proxyHost}:{proxyPort}"
proxy.ssl_proxy = f"{proxyHost}:{proxyPort}"
proxy.add_to_capabilities({"proxyAuthConfig": {
    "username": proxyUser,
    "password": proxyPass
}})

# 初始化WebDriver
service = Service(ChromeDriverManager().install())
browser = webdriver.Chrome(service=service, proxy=proxy)

# 访问目标网站
url = 'http://dynamic-content-example.com'
browser.get(url)

# 等待页面加载
wait = WebDriverWait(browser, 10)
wait.until(EC.presence_of_element_located((By.XPATH, '//div[@class="dynamic-list"]')))

# 使用XPath抓取数据
html = browser.page_source
soup = BeautifulSoup(html, 'lxml')
items = soup.select('//div[@class="dynamic-list"]//li')

for item in items:
    print(item.text)

# 关闭浏览器
browser.quit()

结论

通过本文的实践案例,我们展示了如何使用Selenium和XPath来抓取由JavaScript动态加载的网站内容。这种方法虽然强大,但也需要注意合理使用爬虫技术,尊重目标网站的robots.txt规则,避免对网站造成不必要的负担。同时,由于网站结构和技术的不断变化,爬虫策略可能需要定期更新以适应这些变化。


http://www.kler.cn/news/283063.html

相关文章:

  • OpenCV杂项图像变换(1)自适应阈值处理函数adaptiveThreshold()的使用
  • WordPress入门级防火墙推荐指南
  • vue3+ts+vite+electron+electron-store+electron-builder打包可安装包
  • uni-app启动本地开发环境,修改默认端口号
  • 抖音电商举办用户体验开放日,加强消费者交流提升服务能力
  • 泰克PCE I控制板7KK1200-3CA11 C73249-F50-L20-3
  • 基于生成对抗模型GAN蒸馏的方法FAKD及其在EdgesSRGAN中的应用
  • 揭秘:安全鞋清洗攻略!轻松应对各种鞋面材料,焕然一新就靠这几招
  • 算法练习题06:leetcode793每日温度
  • 微信小程序:点击事件(bindtap)传递参数
  • 面试官让简述一下elasticsearch
  • 图论----最小生成树讲解与相关题解
  • 开源低代码LLM编排平台Dify:可视化Agent和工作流,如何部署在自己系统中,自定义修改前后端详解
  • Oracle SYSAUX表空间使用率过高进行清理
  • #C++ 笔记三
  • 太速科技-FMC213V3-基于FMC兼容1.8V IO的Full Camera Link 输入子卡
  • 资料搜索过程样例 - 10吨电动葫芦的缆绳重量
  • 利用OpenCV根据图片识别环境的亮度
  • Linux WPA/WPA2/WPA3/IEEE 802.1X Supplicant
  • C++ 模板基础知识——类模板、变量模板与别名模板(超长纯享版)
  • 【C++】RAII思想与智能指针原理——有效避免内存泄露问题
  • 萤石云 C++ SDK使用指南
  • STL容器中 list(双向链表)的增删改查
  • 51单片机——定时器
  • Unity获取SceneView尺寸
  • Docker 镜像导出与加载:从入门到精通
  • redis(未授权访问漏洞)
  • Mysql集群相关技术
  • 数分基础(03-3)客户特征分析-Tableau
  • 为什么需要对即将上线的系统进行压力测试