当前位置: 首页 > article >正文

爬虫的流程

爬虫的流程

  • 获取网页
  • 提取信息
  • 保存数据
  • 自动化程序
  • 能爬怎样的数据

获取网页

  • 获取网页就是获取网页的源代码,源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息
  • 浏览器访问网页的本质:浏览器向服务器发送请求——>返回的响应体便是网页源代码——>浏览器解析源代码呈现页面
  • python访问网页的本质:python利用urllib、requests等库实现HTTP请求——>由response等库获取响应,得到响应之后需要解析数据结构中的 body 部分得到网页的源代码——>。。。

提取信息

  • 由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
  • 利用正则表达式来提取想要的数据

保存数据

  • 提取信息后,我们一般会将提取到的数据保存到某处以便后续使用
  • 保存形式:可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库,如 MySQL

自动化程序

  • 自动化程序:意思是说爬虫可以代替人来完成这些操作。(数量特别大时)

能爬怎样的数据

能对应URL,基于HTTP或HTTPS协议的,都可以抓取


http://www.kler.cn/a/317556.html

相关文章:

  • docker构建jdk11
  • 基于标签相关性的多标签学习
  • 《ElementPlus 与 ElementUI 差异集合》Icon 图标 More 差异说明
  • 【云计算解决方案面试整理】1-2云计算基础概念及云计算技术原理
  • WPF学习之路,控件的只读、是否可以、是否可见属性控制
  • 【算法】——二分查找合集
  • vulnhub(13):Digitalworld.local JOY(ftp 的未授权文件读写漏洞、文件覆盖提权)
  • 获取商品销量详情API:深入解析返回值,助力电商决策
  • hrm人力资源管理系统,绩效,考勤,薪酬,五险一金,等全面人力管理(源码+配套方案)
  • Java面试篇基础部分-ReentrantLock详解
  • 应用密码学第一次作业(9.23)
  • 油耳朵怎么清理干净?双十一可视挖耳勺排行榜
  • Python注释
  • gitlab默认克隆地址的修改
  • react-native和原生android的交互
  • Mysql 架构
  • 武汉正向科技 格雷母线检测方式 :车检,地检
  • 78、Python之函数式编程:funcy,功能更加齐全的函数式编程库
  • 等位基因与碱基:异同点解析
  • MS SQL Server 实战 排查多列之间的值是否重复
  • 局域网中实现一对一视频聊天(附源码)
  • prober found high clock drift,Linux服务器时间不能自动同步,导致服务器时间漂移解决办法。
  • Maven的详细解读和配置
  • Linux 常用命令(待更新)
  • 安卓学习资源推荐
  • Java-数据结构-优先级队列(堆)-(二) (゚▽゚*)