当前位置：首页 > article >正文

Python 爬虫：获取网页数据的 5 种方法

article 2025/3/1 19:00:25

💖 欢迎来到我的博客！ 非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。

🔍 博客内容包括：

Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。
大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Flink、Kafka、Redis、ECharts、Zookeeper等相关技术。
开发工具：分享常用开发工具（IDEA、Git、Mac、Alfred、Typora等）的使用技巧，提升开发效率。
数据库与优化：总结MySQL及其他常用数据库技术，解决实际工作中的数据库问题。
Python与大数据：专注于Python编程语言的深度学习，数据分析工具（如Pandas、NumPy）和大数据处理技术，帮助您掌握数据分析、数据挖掘、机器学习等技术。
数据结构与算法：总结数据结构与算法的核心知识，提升编程思维，帮助您应对大厂面试挑战。

🌟 我的目标：持续学习与总结，分享技术心得与解决方案，和您一起探索技术的无限可能！在这里，我希望能与您共同进步，互相激励，成为更好的自己。

📣 欢迎订阅本专栏，与我一起在这个知识的海洋中不断学习、分享和成长！💻🚀

📍版权声明：本博客所有内容均为原创，遵循CC 4.0 BY-SA协议，转载请注明出处。

1. 使用 requests + BeautifulSoup

示例：获取并解析网页内容

2. 使用 requests + lxml

示例：使用 requests 和 lxml 获取数据

3. 使用 Selenium + BeautifulSoup

示例：使用 Selenium 和 BeautifulSoup 获取动态网页内容

4. 使用 Scrapy

示例：Scrapy 项目结构

5. 使用 PyQuery

示例：使用 PyQuery 获取数据

总结

在 Python 中，爬虫用于自动化获取网页数据。你可以使用多种方法来抓取网页内容，具体使用哪种方法取决于网页的结构、内容类型以及你所需的精确度。以下是常见的 5 种获取网页数据的方式：

1. 使用 `requests` + `BeautifulSoup`

requests 是一个非常流行的 HTTP 请求库，而 BeautifulSoup 是一个用于解析 HTML 和 XML 文档的库。通过结合这两个库，你可以非常方便地获取和解析网页内容。

示例：获取并解析网页内容

import requests
from bs4 import BeautifulSoup

# 发送 HTTP 请求
url = "https://example.com"
response = requests.get(url)

# 确保请求成功
if response.status_code == 200:
    # 使用 BeautifulSoup 解析网页
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # 提取网页中的标题
    title = soup.title.string
    print(f"网页标题：{title}")
    
    # 提取网页中的所有链接
    for link in soup.find_all('a'):
        print(f"链接：{link.get('href')}")
else:
    print("网页请求失败")

2. 使用 `requests` + `lxml`

lxml 是另一个强大的 HTML/XML 解析库，支持 XPath 和 CSS 选择器语法，解析速度较快，适合解析大规模的网页内容。

示例：使用 `requests` 和 `lxml` 获取数据

import requests
from lxml import html

# 发送 HTTP 请求
url = "https://example.com"
response = requests.get(url)

# 确保请求成功
if response.status_code == 200:
    # 使用 lxml 解析网页
    tree = html.fromstring(response.content)
    
    # 提取网页中的标题
    title = tree.xpath('//title/text()')
    print(f"网页标题：{title[0] if title else '无标题'}")
    
    # 提取所有链接
    links = tree.xpath('//a/@href')
    for link in links:
        print(f"链接：{link}")
else:
    print("网页请求失败")

3. 使用 `Selenium` + `BeautifulSoup`

当网页内容是通过 JavaScript 动态加载时，使用 requests 和 BeautifulSoup 等静态解析方法可能无法获取完整数据。这时可以使用 Selenium 来模拟浏览器行为，加载网页并获取动态生成的内容。Selenium 可以控制浏览器，执行 JavaScript 脚本并获取最终渲染的网页内容。

示例：使用 `Selenium` 和 `BeautifulSoup` 获取动态网页内容

from selenium import webdriver
from bs4 import BeautifulSoup
import time

# 启动 WebDriver
driver = webdriver.Chrome(executable_path="path/to/chromedriver")

# 访问网页
url = "https://example.com"
driver.get(url)

# 等待页面加载
time.sleep(3)

# 获取页面源代码
html = driver.page_source

# 使用 BeautifulSoup 解析网页
soup = BeautifulSoup(html, 'html.parser')

# 提取网页中的标题
title = soup.title.string
print(f"网页标题：{title}")

# 提取网页中的所有链接
for link in soup.find_all('a'):
    print(f"链接：{link.get('href')}")

# 关闭浏览器
driver.quit()

4. 使用 `Scrapy`

Scrapy 是一个功能强大的 Python 爬虫框架，专门设计用于抓取大量的网页数据。它支持异步请求，可以高效地处理多个请求，并且内建了很多爬虫功能，如请求调度、下载器中间件等。Scrapy 是处理大规模抓取任务时的首选工具。

示例：Scrapy 项目结构

创建 Scrapy 项目：

scrapy startproject myproject

2. 创建爬虫：

cd myproject
scrapy genspider example_spider example.com

3. 编写爬虫代码：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example_spider'
    start_urls = ['https://example.com']

    def parse(self, response):
        # 提取网页标题
        title = response.css('title::text').get()
        print(f"网页标题：{title}")

        # 提取所有链接
        links = response.css('a::attr(href)').getall()
        for link in links:
            print(f"链接：{link}")

4. 运行爬虫：

scrapy crawl example_spider

5. 使用 `PyQuery`

PyQuery 是一个类 jQuery 的库，它提供了与 jQuery 类似的语法，可以非常方便地使用 CSS 选择器来获取网页内容。PyQuery 使用的是 lxml 库，所以它的解析速度非常快。

示例：使用 `PyQuery` 获取数据

from pyquery import PyQuery as pq
import requests

# 发送 HTTP 请求
url = "https://example.com"
response = requests.get(url)

# 使用 PyQuery 解析网页
doc = pq(response.content)

# 提取网页标题
title = doc('title').text()
print(f"网页标题：{title}")

# 提取网页中的所有链接
for link in doc('a').items():
    print(f"链接：{link.attr('href')}")