当前位置：首页 > article >正文

BeautifulSoup：Python网页解析库详解

article 2025/2/21 3:42:30

BeautifulSoup是一个Python库，用于从HTML或XML文件中提取数据。它能够通过简单的方法处理复杂的HTML文档，并且很容易就能找到你需要的标签和数据。

BeautifulSoup的主要特点

易于使用：BeautifulSoup提供了简洁的API来提取HTML标签。
灵活：可以与lxml、html5lib或html.parser等解析器一起使用。
强大：支持导航、搜索、修改解析树等功能。

常用BeautifulSoup函数及其参数

`BeautifulSoup(markup, parser, features, **kwargs)`

创建BeautifulSoup对象，解析HTML或XML。

markup：HTML或XML字符串。
parser：使用的解析器，如'html.parser'或'lxml'。
features：解析器特性。
**kwargs：传递给解析器的其他参数。

`soup.find(name, attrs, recursive, string, **kwargs)`

在解析树中查找第一个匹配的标签。

name：要查找的标签名。
attrs：查找标签的属性。
recursive：是否递归查找。
string：查找标签的直接文本。

`soup.findAll(name, attrs, limit, **kwargs)`

查找所有匹配的标签。

name：标签名。
attrs：属性。
limit：返回结果的数量限制。

`soup.find_parents(tagName, recursive=True, *args, **kwargs)`

向上查找标签的所有父标签。

tagName：父标签的名称。

`soup.findChildren(*args, **kwargs)`

查找标签的直接子标签。

`soup.title`

获取文档的标题。

`soup.prettify()`

返回美化后的字符串表示形式。

`soup.get_text()`

获取标签内的所有文本。

`soup.encode()`

返回HTML的编码字符串。

示例用法

以下是一个使用BeautifulSoup解析HTML文档并提取数据的示例：

from bs4 import BeautifulSoup

# 假设我们有一段HTML内容
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters...</p>
</body>
</html>
"""

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_doc, 'html.parser')

# 提取标题
print(soup.title.string)

# 查找所有的段落
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.get_text())

# 查找包含特定类名的标签
story_paragraph = soup.find('p', class_='story')
print(story_paragraph.get_text())