当前位置: 首页 > article >正文

Python爬虫基础——百度新闻页面结构剖析

        经过上一篇文章文章[Python爬虫基础——认识网页结构(各种标签的使用)]的介绍,我们对网页结构已经有了初步的认识,本篇文章针对百度新闻界界面结构进行剖析。

        在浏览器地址栏中输入https://news.baidu.com/,然后按住F12打开发这工具在“Elements”选项卡中可以看到网页的源代码,如下图1所示。其中<body>放的是该网页的主要内容,<body>标签下又包含4个<div>标签和一些<script>标签,<script>标签主要与JaveScript相关,这里不做具体介绍。

图1


1、<div id="header-wrapper">对应1,位于顶部的百度网站的菜单栏;

2、<div id="headerwrapper">对应2,百度新闻的搜索框;

3、<div id="body">对应3,新闻主要内容;

4、<div id="footerwrapper">对应4,网页底部区域

        单单击每个<div>标签前方的折叠/展开按钮,可以查看其下的每个标签。如图2所示:

图2

图3

图3中对应的代码标签极为百度新闻图片标签。


http://www.kler.cn/a/464196.html

相关文章:

  • 高等数学学习笔记 ☞ 无穷小比较与等价无穷小替换
  • 四、VSCODE 使用GIT插件
  • 【paddle】初次尝试
  • 25.1.3
  • STM32 和 ESP32
  • 【深度学习-降维篇】t-SNE:让高维数据“看得见”的降维利器
  • MySQL:安装配置(完整教程)
  • 散度与旋度的探讨
  • 《ChatGPT介绍》
  • TCP/IP 教程
  • Flink源码解析之:如何根据JobGraph生成ExecutionGraph
  • uniapp H5 对接 声网,截图
  • 【技术新浪潮】DeepSeek-V3:中国AI的开源巨浪,全球AI格局的破局者
  • C# 设计模式:装饰器模式与代理模式的区别
  • 力扣hot100——二叉树
  • 高效使用AI完成编程项目任务的指南:从需求分析到功能实现
  • 华为OD E卷(100分)45-喊7的次数重排
  • 【网站推荐】IP反查域名实战
  • leetcode 729. 我的日程安排表 I 中等
  • 小程序配置文件 —— 15 页面配置
  • 【2024美国数学建模AB题原文翻译】
  • 基于QT(C++)实现的坦克大战
  • 力扣刷题:栈和队列OJ篇(下)
  • 力扣-数据结构-10【算法学习day.81】
  • 浅谈Beam Search
  • “混合双打”二维数组展平的有效方案(Python)