Python爬虫基础——百度新闻页面结构剖析
经过上一篇文章文章[Python爬虫基础——认识网页结构(各种标签的使用)]的介绍,我们对网页结构已经有了初步的认识,本篇文章针对百度新闻界界面结构进行剖析。
在浏览器地址栏中输入https://news.baidu.com/,然后按住F12打开发这工具在“Elements”选项卡中可以看到网页的源代码,如下图1所示。其中<body>放的是该网页的主要内容,<body>标签下又包含4个<div>标签和一些<script>标签,<script>标签主要与JaveScript相关,这里不做具体介绍。
图1
1、<div id="header-wrapper">对应1,位于顶部的百度网站的菜单栏;
2、<div id="headerwrapper">对应2,百度新闻的搜索框;
3、<div id="body">对应3,新闻主要内容;
4、<div id="footerwrapper">对应4,网页底部区域
单单击每个<div>标签前方的折叠/展开按钮,可以查看其下的每个标签。如图2所示:
图2
图3
图3中对应的代码标签极为百度新闻图片标签。