当前位置: 首页 > article >正文

Python 网络爬虫进阶2:突破数据采集的边界

五、数据清洗与预处理

在成功采集到大量数据后,这些数据往往是原始而杂乱的,需要进行清洗和预处理,以便后续的分析与应用。

(一)数据去重

网络爬虫可能会在不同的页面或多次爬取过程中获取到重复的数据。为了保证数据的准确性和高效性,我们需要对数据进行去重操作。一种常见的方法是使用集合(set)数据结构,将数据项添加到集合中,由于集合的特性,重复的数据项将自动被排除。例如:

data_list = [1, 2, 2, 3, 4, 4, 5]
unique_data = list(set(data_list))
print(unique_data)  

对于复杂的数据对象,如字典或自定义类的实例,我们可以根据数据的关键标识来判断是否重复。例如,如果我们爬取了一系列文章信息,包含标题、作者和内容,可以根据标题和作者的组合来确定唯一性:

article_list = [
    {'title': 'Article 1', 'author': 'Author A', 'content': 'Content of Article 1'},
    {'title': 'Article 2', 'author': 'Author B', 'content': 'Content of Article 2'},
    {'title': 'Article 1', 'author': 'Author A', 'content': 'Another content of Article 1'}
]

unique_articles = []
seen_titles_authors = set()
for article in article_list:
    key = (article['title'], article['author'])
    if key not in seen_titles_authors:
        unique_articles.append(article)
        seen_titles_authors.add(key)

print(unique_articles)

(二)噪声数据处理

采集到的数据可能包含各种噪声,如 HTML 标签、特殊字符、空字符串等。对于 HTML 标签,我们可以在解析页面时就利用 BeautifulSoup 等库的功能将其去除。例如:

from bs4 import BeautifulSoup

html = '<p>Some text with <b>bold</b> tag.</p>'
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
print(text)  

 对于特殊字符和空字符串,我们可以使用字符串的处理方法进行过滤。例如,去除字符串中的所有非字母数字字符:

import re

text = "This is a!@#$%^&*()_+ text with special characters."
clean_text = re.sub(r'\W+', '', text)
print(clean_text)  

 同时,对于空字符串或仅包含空格的字符串,我们可以进行判断并排除:

data = ['', 'Some valid data ','   ', 'Another data']
filtered_data = [item.strip() for item in data if item.strip()]
print(filtered_data)  

(三)数据格式化

根据后续数据处理和分析的需求,我们可能需要对数据进行格式化。例如,将日期字符串转换为日期对象,以便进行日期相关的计算和比较:

from datetime import datetime

date_str = '2024-12-10 15:30:00'
date_obj = datetime.strptime(date_str, '%Y-%m-%d %H:%M:%S')
print(date_obj)  

 对于数值型数据,如果存在不同的格式,如字符串形式的数字带有货币符号或逗号分隔符,我们需要将其转换为合适的数值类型:

price_str = '$1,234.56'
price = float(price_str.replace('$', '').replace(',', ''))
print(price)  

六、多线程与多进程爬虫

为了进一步提高爬虫的效率,我们可以利用多线程和多进程技术,让爬虫能够同时处理多个任务。

(一)多线程爬虫

import threading
import requests

def crawl_page(url):
    response = requests.get(url)
    print(f'Crawled {url}, status code: {response.status_code}')

urls = ['https://www.example.com/page1', 'https://www.example.com/page2', 'https://www.example.com/page3']

threads = []
for url in urls:
    thread = threading.Thread(target=crawl_page, args=(url,))
    thread.start()
    threads.append(thread)

for thread in threads:
    thread.join()

Python 中的 threading 模块提供了多线程编程的支持。在网络爬虫中,我们可以创建多个线程,每个线程负责处理不同的网页爬取任务。例如:

然而,需要注意的是,由于 Python 的全局解释器锁(GIL)的存在,多线程在 CPU 密集型任务中的性能提升可能有限,但在网络 I/O 密集型的爬虫任务中,仍然可以显著提高效率,因为在等待网络响应时,线程可以切换执行其他任务。

(二)多进程爬虫

对于 CPU 密集型的爬虫任务,或者需要充分利用多核 CPU 的性能时,多进程爬虫是更好的选择。Python 的 multiprocessing 模块提供了多进程编程的功能。例如:

import multiprocessing
import requests

def crawl_page(url):
    response = requests.get(url)
    print(f'Crawled {url}, status code: {response.status_code}')

urls = ['https://www.example.com/page1', 'https://www.example.com/page2', 'https://www.example.com/page3']

processes = []
for url in urls:
    process = multiprocessing.Process(target=crawl_page, args=(url,))
    process.start()
    processes.append(process)

for process in processes:
    process.join()

使用多进程时,每个进程都有独立的内存空间和 Python 解释器,不受 GIL 的限制,能够充分利用多核 CPU 的计算资源。但多进程也有一些缺点,如进程间通信和资源共享相对复杂,需要更多的系统资源开销。

在实际应用中,我们可以根据爬虫任务的特点,合理选择多线程或多进程,或者结合使用两者,以达到最佳的性能效果。

七、基于 Scrapy 框架的深度应用

Scrapy 框架在 Python 网络爬虫中具有强大的功能和广泛的应用。除了前面提到的分布式爬虫构建,我们还可以深入探索其其他高级特性。

(一)中间件的使用

Scrapy 中的中间件可以在请求发送前和响应接收后对请求和响应进行处理。例如,我们可以编写自定义的中间件来设置随机的 User-Agent,以增强爬虫的伪装效果:

在 settings.py 文件中配置启用该中间件:

DOWNLOADER_MIDDLEWARES = {
   'myproject.middlewares.RandomUserAgentMiddleware': 543,
}

还可以编写中间件来处理代理 IP 的设置、处理 cookies 等,进一步优化爬虫的请求过程。

(二)管道的定制

管道(Pipeline)用于处理 Spider 提取到的数据。我们可以在管道中对数据进行存储、清洗、验证等操作。例如,将数据存储到数据库中并进行数据去重处理:

class MyPipeline:
    def __init__(self):
        self.ids_seen = set()

    def process_item(self, item, spider):
        if item['id'] in self.ids_seen:
            raise DropItem(f"Duplicate item found: {item}")
        self.ids_seen.add(item['id'])
        # 在这里进行数据存储操作,如插入到数据库
        return item

 在 settings.py 文件中启用管道:

ITEM_PIPELINES = {
   'myproject.pipelines.MyPipeline': 300,
}

通过定制中间件和管道,我们可以根据具体的爬虫需求,灵活地扩展和优化 Scrapy 爬虫的功能,使其更加高效、稳定和智能。

Python 网络爬虫的进阶之路充满了挑战与惊喜。从应对动态网页到高效的数据存储与管理,从突破反爬虫机制到分布式架构的搭建,再到数据的深度处理和框架的高级应用,每一步都需要我们深入学习和不断实践。只有不断探索和创新,我们才能在网络数据采集的领域中取得更大的突破,挖掘出更多有价值的信息宝藏,为数据分析、人工智能等领域提供坚实的数据基础。让我们继续在这条进阶之路上砥砺前行,成为网络爬虫领域的高手!

 


http://www.kler.cn/a/430291.html

相关文章:

  • 有关Redis的相关概述
  • 网络安全-web渗透环境搭建-BWAPP(基础篇)
  • Improving Language Understanding by Generative Pre-Training GPT-1详细讲解
  • GaussDB SQL调优之改写SQL消除子查询
  • php 多进程那点事,用 swoole 如何解决呢 ?
  • PySide6的样式表
  • Spring Boot 整合 Druid 并开启监控
  • 16 设计模式之适配器模式(充电器转换案例)
  • 使用PPT科研绘图导出PDF边缘留白问题解决方案
  • ElasticSearch常见的索引_集群的备份与恢复方案
  • MySql(笔记)
  • hbuilder uniapp 运行npm run serve 报错 pages.jsoncliShared.parsingFailed解决
  • 3D 生成重建025-CRM开源的3Dmesh生成大模型
  • Unity 的介绍
  • 《Python 基于 RSA 算法的数字签名生成软件》
  • Java中线程之间是如何通信的
  • WinForm(C/S)项目中使用矢量字体(FontAwsome、Elegant)图标
  • 使用Python实现科学计算工具:数据分析的利器
  • 论文阅读 - Context De-confounded Emotion Recognition
  • Java 创建图形用户界面(GUI)组件详解之下拉式菜单(JMenu、JMenuItem)、弹出式菜单(JPopupMenu)等
  • es字段修改
  • pytorch多GPU训练教程
  • 快速搭建SpringBoot3+Vue3+ElementPlus管理系统
  • C# 关于实现保存数据以及数据溯源推送
  • 传奇996_53——后端ui窗口局部刷新
  • 3D 生成重建022-GRM基于大模型和多视图扩散模的D生成模型