当前位置：首页 > article >正文

Python 网页爬取入门指南

article 2025/3/24 8:51:36

随着互联网数据的不断增长，网页爬取（Web Scraping）成为数据采集与分析的重要手段。Python 作为一门简单高效的编程语言，提供了丰富的第三方库，能够帮助开发者快速构建爬虫。本文将带您了解网页爬取的基本概念，介绍常用库（如 Requests、BeautifulSoup）并通过详细代码示例讲解如何实现简单的网页数据抓取。

1. 爬虫基础概念

网页爬取指的是利用程序自动获取网页内容并对数据进行解析和提取的过程。常见步骤包括：

发送请求： 使用 HTTP 请求（GET/POST）获取网页 HTML 内容。
解析网页： 利用 HTML 解析库提取出目标数据。
数据存储： 将提取的数据保存到本地文件或数据库中，方便后续分析。

2. 环境配置与常用库介绍

在进行网页爬取前，需要安装以下常用的 Python 库：

Requests： 用于发送 HTTP 请求，简单易用且功能强大。
BeautifulSoup： 通过解析 HTML/XML，方便提取目标数据。
lxml（可选）： 提供更高效的 XML/HTML 解析支持。

安装方法（使用 pip）：

pip install requests beautifulsoup4 lxml

3. 示例代码：爬取网页并提取数据

下面以爬取一个简单网页为例，介绍如何利用 Requests 和 BeautifulSoup 获取网页标题和部分文本内容。

import requests
from bs4 import BeautifulSoup

def fetch_page(url):
try:
# 发送 GET 请求获取网页内容
response = requests.get(url, timeout=10)
# 如果响应状态码为200，表示请求成功
if response.status_code == 200:
return response.text
else:
print(f"请求失败，状态码：{response.status_code}")
return None
except requests.RequestException as e:
print(f"请求出现异常：{e}")
return None

def parse_page(html):
# 使用 BeautifulSoup 解析 HTML 内容
soup = BeautifulSoup(html, 'lxml')

# 提取网页标题
title = soup.find('title').get_text(strip=True)

# 以段落为例，提取所有<p>标签的内容
paragraphs = [p.get_text(strip=True) for p in soup.find_all('p')]

return title, paragraphs

def main():
url = "https://example.com" # 替换为你要爬取的目标 URL
html = fetch_page(url)
if html:
title, paragraphs = parse_page(html)
print("网页标题：", title)
print("网页段落内容：")
for idx, para in enumerate(paragraphs, 1):
print(f"{idx}. {para}")

if __name__ == "__main__":
main()

代码解析

发送请求：
使用 requests.get() 方法向目标 URL 发送 GET 请求，并通过 timeout 参数防止长时间等待。判断状态码确保请求成功。
解析 HTML：
利用 BeautifulSoup 创建解析对象，指定解析器为 lxml。通过 soup.find() 和 soup.find_all() 分别提取网页标题和所有段落内容。
数据输出：
将提取的标题和段落内容打印出来，方便查看爬取结果。