HTTP基本原理
响应:由服务器返回给客户端
响应状态码
- 可以根据状态码来判断服务器的响应状态
- 200代表服务器正常响应,404代表页面未找到,500代表服务器内部发生错误
响应头
- 包含了服务器对请求的应答信息,如contenttype,server,set-cookis等
响应体
- 爬虫请求后解析的内容就是响应体,响应的正文数据,比如请求网页时,响应体是html代码;请求一张图片时,响应体为图片的二进制数据;json数据等
网页基础
网页的组成
- HTML,CSS和JavaScript
- Html相当于骨架,JavaScript相当于肌肉,css相当于皮肤
- 三者结合起来形成完善的网页
HTML:超文本标记语言(hyper text markup language)
- 结构,决定网页的结构和内容(是什么),<‘head>元素标记头部文件,用<’title>元素标记网页名称,用<‘body>元素标记网页主体,用<‘table>元素标记表格等等,段落用p标签表示,布局通过布
局标签div嵌套组合合成
CSS:层叠样式表(cascading stytle sheets)
- 层叠指在html中引用了数个样式文件,并且样式发生冲突时候,浏览器能依据层叠顺序处理
- 设定网页的表现样式(什么样子)。将网页样式提取出来方便更改某一类元素的样式,通过‘<’style>元素插入CSS代码,<‘style>元素放在<’head>元素中。网页中文字的大小,颜色,元素间距,排列等
JavaScript(JS)
- Html和css只是实现静态信息,缺乏交互性。网页的交互和动画效果通过JavaScript实现
- JavaScript通过单独的文件形式加载,后缀为js
- Html中通过<’script>标签引入
我的第一个网页
<html>
<head>
<style>
ui{color:red}
li{color:blue}
hi{color:green}
</style>
<script>
function myf(){alert('还是学习吧')}
</script>
<title>我的第一个网页
</title>
</head>
<body>
<div>
<h1>
<ui>我的爱好</ui>
</h1>
<h2>
<li>学习</li>
</h2>
<h2>
<li>游戏</li>
</h2>
<h3>
<a href="javascript:myf()">
<hi>
开始游戏
</hi>
</a>
</h3>
</div>
</body>
</html>