文章目录
- 1、BeautifulSoup
-
- 1.1 常用解析器
- 1.2 安装解析库
- 1.3 基础操作
-
- 1.3.1 导入模块
- 1.3.2 生成实例化对象
- 1.3.3 标签选择器
- 1.3.4 标签选择器常用方法
- 1.3.5 实用:标准选择器(find_all和find)
- 1.4 操作进阶
-
- 1.4.1 CSS选择器
- 1.4.2 使用方法:select()
-
- 1.4.2.1 三种选择器的使用(id、class、标签)
- 1.4.2.2 获取标签内属性的值
- 1.5 总结
1、BeautifulSoup
beautifulsoup
是一个高效的网页解析库,可以从HTML或XML文件中提取数据;支持不同的解析器,比如:对HTML解析,对XML解析,对HTML5解析,它是一个非常强大的工具,利用它可以非常方便的抓取网页数据
1.1 常用解析器
解析器 |
使用方法 |
优势 |
劣势 |
Python标准库 |
BeautifulSoup(markup, “html.parser”) |
Python的内置标准库、执行速度适中 、文档容错能力强 |
Python 2.7.3 or 3.2.2)前的版本中文容错能力差 |
lxml HTML 解析器 |
BeautifulSoup(markup, “lxml”) |
速度快、文档容错能力强 |
需要安装C语言库 |
lxml XML 解析器 |
BeautifulSoup(markup, “xml”) |
速度快、唯一支持XML的解析器 |
需要安装C语言库 |
html5lib |