当前位置：首页 > article >正文

python爬虫解析工具BeautifulSoup（bs4）和CSS选择器——处理HTML和XML数据（7）

article 2025/2/21 3:41:28

文章目录

1、BeautifulSoup
- 1.1 常用解析器
- 1.2 安装解析库
- 1.3 基础操作
- - 1.3.1 导入模块
  - 1.3.2 生成实例化对象
  - 1.3.3 标签选择器
  - 1.3.4 标签选择器常用方法
  - 1.3.5 实用：标准选择器（find_all和find）
- 1.4 操作进阶
- - 1.4.1 CSS选择器
  - 1.4.2 使用方法：select()
  - - 1.4.2.1 三种选择器的使用（id、class、标签）
    - 1.4.2.2 获取标签内属性的值
- 1.5 总结

1、BeautifulSoup

beautifulsoup是一个高效的网页解析库，可以从HTML或XML文件中提取数据；支持不同的解析器，比如：对HTML解析，对XML解析，对HTML5解析，它是一个非常强大的工具，利用它可以非常方便的抓取网页数据

1.1 常用解析器

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库、执行速度适中、文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快、文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, “xml”)	速度快、唯一支持XML的解析器	需要安装C语言库
html5lib

http://www.kler.cn/a/320566.html

相关文章：

Windows系统修改Tomcat虚拟机内存参数

《CUDA编程》3.简单CUDA程序的基本框架

计算机毕业设计python+spark知识图谱房价预测系统房源推荐系统房源数据分析房源可视化房源大数据大屏大数据毕业设计机器学习

RuoYi-App根据不同角色权限实现功能按钮显隐

OpenHarmony（鸿蒙南向）——平台驱动指南【I2C】

简易STL实现 | 红黑树的实现

SpringCloud-07 GateWay01 网关技术

使用Okhttp-服务器不支持缓存的解决办法

C++之Person类

JavaScript中的无穷大

华为静态路由（route-static）

【Unity navigation面板】

在 deepin 上除了 Steam，还能怎么玩游戏？

Python中性能优化与高级应用

Java律师法律咨询小程序

卷轴模式商城APP开发搭建全流程解析

Pandas和Seaborn可视化详解

Spring Boot 学习之路 -- Service 层

elastic search 向量检索的过程包括数据写入与查询

网络安全入门教程（非常详细）从零基础入门到精通，看完这一篇你就是网络安全高手了。