当前位置: 首页 > article >正文

python爬虫解析工具BeautifulSoup(bs4)和CSS选择器——处理HTML和XML数据(7)

文章目录

  • 1、BeautifulSoup
    • 1.1 常用解析器
    • 1.2 安装解析库
    • 1.3 基础操作
      • 1.3.1 导入模块
      • 1.3.2 生成实例化对象
      • 1.3.3 标签选择器
      • 1.3.4 标签选择器常用方法
      • 1.3.5 实用:标准选择器(find_all和find)
    • 1.4 操作进阶
      • 1.4.1 CSS选择器
      • 1.4.2 使用方法:select()
        • 1.4.2.1 三种选择器的使用(id、class、标签)
        • 1.4.2.2 获取标签内属性的值
    • 1.5 总结

1、BeautifulSoup

beautifulsoup是一个高效的网页解析库,可以从HTML或XML文件中提取数据;支持不同的解析器,比如:对HTML解析,对XML解析,对HTML5解析,它是一个非常强大的工具,利用它可以非常方便的抓取网页数据

1.1 常用解析器

解析器 使用方法 优势 劣势
Python标准库 BeautifulSoup(markup, “html.parser”) Python的内置标准库、执行速度适中 、文档容错能力强 Python 2.7.3 or 3.2.2)前的版本中文容错能力差
lxml HTML 解析器 BeautifulSoup(markup, “lxml”) 速度快、文档容错能力强 需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup, “xml”) 速度快、唯一支持XML的解析器 需要安装C语言库
html5lib

http://www.kler.cn/a/320566.html

相关文章:

  • 【经典神经网络架构解析篇】【1】LeNet网络详解:模型结构解析、优点、实现代码
  • 实用操作系统学习笔记
  • 【机器学习:四、多输入变量的回归问题】
  • Qt官方下载地址
  • spring boot发送邮箱,java实现邮箱发送(邮件带附件)3中方式【保姆级教程一,代码直接用】
  • Autoencoder(李宏毅)机器学习 2023 Spring HW8 (Boss Baseline)
  • Windows系统修改Tomcat虚拟机内存参数
  • 《CUDA编程》3.简单CUDA程序的基本框架
  • 计算机毕业设计python+spark知识图谱房价预测系统 房源推荐系统 房源数据分析 房源可视化 房源大数据大屏 大数据毕业设计 机器学习
  • RuoYi-App根据不同角色权限实现功能按钮显隐
  • OpenHarmony(鸿蒙南向)——平台驱动指南【I2C】
  • 简易STL实现 | 红黑树的实现
  • SpringCloud-07 GateWay01 网关技术
  • 使用Okhttp-服务器不支持缓存的解决办法
  • C++之Person类
  • JavaScript中的无穷大
  • 华为静态路由(route-static)
  • 【Unity navigation面板】
  • 在 deepin 上除了 Steam,还能怎么玩游戏?
  • Python中性能优化与高级应用
  • Java律师法律咨询小程序
  • 卷轴模式商城APP开发搭建全流程解析
  • Pandas和Seaborn可视化详解
  • Spring Boot 学习之路 -- Service 层
  • elastic search 向量检索的过程包括数据写入与查询
  • 网络安全入门教程(非常详细)从零基础入门到精通,看完这一篇你就是网络安全高手了。