当前位置：首页 > article >正文

使用python爬取网络资源

article 2025/3/26 10:43:27

整体思路

网络资源爬取通常分为以下几个步骤：

发送 HTTP 请求：使用requests库向目标网站发送请求，获取网页的 HTML 内容。
解析 HTML 内容：使用BeautifulSoup库解析 HTML 内容，从中提取所需的数据。
处理数据：对提取的数据进行清洗、存储等操作。

代码实现

import requests
from bs4 import BeautifulSoup

def scrape_website(url):
try:
# 发送 HTTP 请求获取网页内容
# requests.get 方法会向指定的 URL 发送一个 GET 请求
response = requests.get(url)
# 检查响应状态码，如果状态码不是 200，会抛出 HTTPError 异常
response.raise_for_status()

# 使用 BeautifulSoup 解析 HTML
# 'html.parser' 是 Python 内置的 HTML 解析器
soup = BeautifulSoup(response.text, 'html.parser')

# 这里可以根据网页结构提取你需要的信息
# 例如，提取所有的标题标签
titles = soup.find_all('title')
for title in titles:
print(title.text)

# 示例：提取所有的链接
links = soup.find_all('a')
for link in links:
href = link.get('href')
if href:
print(href)

except requests.RequestException as e:
print(f"请求发生错误: {e}")
except Exception as e:
print(f"发生未知错误: {e}")

if __name__ == "__main__":
# 要爬取的网页 URL
url = 'https://www.example.com'
scrape_website(url)

代码说明

导入必要的库：
- requests：用于发送 HTTP 请求，获取网页内容。
- BeautifulSoup：用于解析 HTML 内容，方便提取所需的数据。
定义爬取函数：
- scrape_website函数接收一个 URL 作为参数，向该 URL 发送 HTTP 请求并解析响应内容。
发送请求并检查状态：
- requests.get(url)：向指定的 URL 发送一个 GET 请求，并返回一个响应对象。
- response.raise_for_status()：检查响应状态码，如果状态码不是 200，会抛出HTTPError异常。
解析 HTML：
- BeautifulSoup(response.text, 'html.parser')：使用BeautifulSoup解析 HTML 内容，response.text是响应的文本内容，'html.parser'是 Python 内置的 HTML 解析器。
提取数据：
- soup.find_all('title')：查找所有的<title>标签，并返回一个列表。
- soup.find_all('a')：查找所有的<a>标签，并返回一个列表。
- link.get('href')：获取<a>标签的href属性值。
处理异常：
- requests.RequestException：捕获请求过程中可能出现的异常，如网络连接错误、请求超时等。
- Exception：捕获其他未知异常。
主程序：
- 调用scrape_website函数，传入要爬取的网页 URL