当前位置：首页 > article >正文

Python爬虫基础——百度新闻页面结构剖析

article 2025/3/1 8:02:09

经过上一篇文章文章[Python爬虫基础——认识网页结构(各种标签的使用)]的介绍，我们对网页结构已经有了初步的认识，本篇文章针对百度新闻界界面结构进行剖析。

在浏览器地址栏中输入https://news.baidu.com/，然后按住F12打开发这工具在“Elements”选项卡中可以看到网页的源代码，如下图1所示。其中<body>放的是该网页的主要内容，<body>标签下又包含4个<div>标签和一些<script>标签，<script>标签主要与JaveScript相关，这里不做具体介绍。

图1

1、<div id="header-wrapper">对应1，位于顶部的百度网站的菜单栏；

2、<div id="headerwrapper">对应2，百度新闻的搜索框；

3、<div id="body">对应3，新闻主要内容；

4、<div id="footerwrapper">对应4，网页底部区域

单单击每个<div>标签前方的折叠/展开按钮，可以查看其下的每个标签。如图2所示：

图2

图3

图3中对应的代码标签极为百度新闻图片标签。

http://www.kler.cn/a/464196.html

相关文章：

MySQL：安装配置（完整教程）

散度与旋度的探讨

《ChatGPT介绍》

TCP/IP 教程

Flink源码解析之：如何根据JobGraph生成ExecutionGraph

uniapp H5 对接声网，截图

【技术新浪潮】DeepSeek-V3：中国AI的开源巨浪，全球AI格局的破局者

C# 设计模式：装饰器模式与代理模式的区别

力扣hot100——二叉树

高效使用AI完成编程项目任务的指南：从需求分析到功能实现

华为OD E卷（100分）45-喊7的次数重排

【网站推荐】IP反查域名实战

leetcode 729. 我的日程安排表 I 中等

小程序配置文件 —— 15 页面配置

【2024美国数学建模AB题原文翻译】

基于QT（C++）实现的坦克大战

力扣刷题：栈和队列OJ篇（下）

力扣-数据结构-10【算法学习day.81】

浅谈Beam Search

“混合双打”二维数组展平的有效方案（Python）