当前位置: 首页 > article >正文

python爬虫解析工具BeautifulSoup(bs4)和CSS选择器——处理HTML和XML数据(7)

文章目录

  • 1、BeautifulSoup
    • 1.1 常用解析器
    • 1.2 安装解析库
    • 1.3 基础操作
      • 1.3.1 导入模块
      • 1.3.2 生成实例化对象
      • 1.3.3 标签选择器
      • 1.3.4 标签选择器常用方法
      • 1.3.5 实用:标准选择器(find_all和find)
    • 1.4 操作进阶
      • 1.4.1 CSS选择器
      • 1.4.2 使用方法:select()
        • 1.4.2.1 三种选择器的使用(id、class、标签)
        • 1.4.2.2 获取标签内属性的值
    • 1.5 总结

1、BeautifulSoup

beautifulsoup是一个高效的网页解析库,可以从HTML或XML文件中提取数据;支持不同的解析器,比如:对HTML解析,对XML解析,对HTML5解析,它是一个非常强大的工具,利用它可以非常方便的抓取网页数据

1.1 常用解析器

解析器 使用方法 优势 劣势
Python标准库 BeautifulSoup(markup, “html.parser”) Python的内置标准库、执行速度适中 、文档容错能力强 Python 2.7.3 or 3.2.2)前的版本中文容错能力差
lxml HTML 解析器 BeautifulSoup(markup, “lxml”) 速度快、文档容错能力强 需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup, “xml”) 速度快、唯一支持XML的解析器 需要安装C语言库
html5lib

http://www.kler.cn/a/320566.html

相关文章:

  • 剧本杀门店预约小程序,解锁沉浸式推理体验
  • 智能指针原理、使用和实现——C++11新特性(三)
  • AWTK VSCode 实时预览插件端口冲突的解决办法
  • 【Nginx】反向代理Https时相关参数:
  • Ubuntu 22.04.4 LTS + certbot 做自动续签SSL证书(2024-11-14亲测)
  • Python 正则表达式使用指南
  • Windows系统修改Tomcat虚拟机内存参数
  • 《CUDA编程》3.简单CUDA程序的基本框架
  • 计算机毕业设计python+spark知识图谱房价预测系统 房源推荐系统 房源数据分析 房源可视化 房源大数据大屏 大数据毕业设计 机器学习
  • RuoYi-App根据不同角色权限实现功能按钮显隐
  • OpenHarmony(鸿蒙南向)——平台驱动指南【I2C】
  • 简易STL实现 | 红黑树的实现
  • SpringCloud-07 GateWay01 网关技术
  • 使用Okhttp-服务器不支持缓存的解决办法
  • C++之Person类
  • JavaScript中的无穷大
  • 华为静态路由(route-static)
  • 【Unity navigation面板】
  • 在 deepin 上除了 Steam,还能怎么玩游戏?
  • Python中性能优化与高级应用
  • Java律师法律咨询小程序
  • 卷轴模式商城APP开发搭建全流程解析
  • Pandas和Seaborn可视化详解
  • Spring Boot 学习之路 -- Service 层
  • elastic search 向量检索的过程包括数据写入与查询
  • 网络安全入门教程(非常详细)从零基础入门到精通,看完这一篇你就是网络安全高手了。