当前位置：首页 > article >正文

爬虫的流程

article 2025/2/22 2:21:19

爬虫的流程

获取网页
提取信息
保存数据
自动化程序
能爬怎样的数据

获取网页

获取网页就是获取网页的源代码，源代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息
浏览器访问网页的本质：浏览器向服务器发送请求——>返回的响应体便是网页源代码——>浏览器解析源代码呈现页面
python访问网页的本质：python利用urllib、requests等库实现HTTP请求——>由response等库获取响应，得到响应之后需要解析数据结构中的 body 部分得到网页的源代码——>。。。

提取信息

由于网页的结构有一定的规则，所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
利用正则表达式来提取想要的数据

保存数据

提取信息后，我们一般会将提取到的数据保存到某处以便后续使用
保存形式：可以简单保存为 TXT 文本或 JSON 文本，也可以保存到数据库，如 MySQL

自动化程序

自动化程序：意思是说爬虫可以代替人来完成这些操作。（数量特别大时）

能爬怎样的数据

能对应URL，基于HTTP或HTTPS协议的，都可以抓取

http://www.kler.cn/a/317556.html

相关文章：

vulnhub（13）：Digitalworld.local JOY（ftp 的未授权文件读写漏洞、文件覆盖提权）

获取商品销量详情API：深入解析返回值，助力电商决策

hrm人力资源管理系统，绩效，考勤，薪酬，五险一金，等全面人力管理（源码+配套方案）

Java面试篇基础部分-ReentrantLock详解

应用密码学第一次作业（9.23）

油耳朵怎么清理干净？双十一可视挖耳勺排行榜

Python注释

gitlab默认克隆地址的修改

react-native和原生android的交互

Mysql 架构

武汉正向科技格雷母线检测方式：车检，地检

78、Python之函数式编程：funcy，功能更加齐全的函数式编程库

等位基因与碱基：异同点解析

MS SQL Server 实战排查多列之间的值是否重复

局域网中实现一对一视频聊天（附源码）

prober found high clock drift,Linux服务器时间不能自动同步，导致服务器时间漂移解决办法。

Maven的详细解读和配置

Linux 常用命令（待更新）

安卓学习资源推荐

Java-数据结构-优先级队列(堆)-(二) (ﾟ▽ﾟ*)