当前位置：首页 > article >正文

python爬虫系列课程1：初识爬虫

article 2025/2/21 7:31:02

一、爬虫的概念

网络爬虫（又被称为网页蜘蛛、网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动抓取互联网信息的程序。原则上，只要是浏览器（客户端）能做的事情，爬虫都能够做。

通用爬虫可以提取大多数网站的数据，但是对于网站中某些特殊数据的提取方式没有实现。自定义爬虫可以针对某一种网站自行开发符合要求的爬虫。

只要能够发送HTTP（S）请求的任何编程语言都是可以完成爬虫程序的，例如java、php、JavaScript等，但是论爬虫开发效率一般都指的是python语言。

数据库连接池与池化思想

文档检测校正的重要性

自制简单的图片查看器（python）

搜索旋转数组

Visual Studio Code的下载安装与汉化

Medians

Windows 环境下 Grafana 安装指南

现代卷积神经网络

Redis+Lua脚本实现限流

spark任务运行