当前位置: 首页 > article >正文

Python_爬虫2_爬虫引发的问题

目录

爬虫引发的问题

网络爬虫的尺寸

网络爬虫引发的问题

网络爬虫的限制

Robots协议

Robots协议的遵守方式

Robots的使用

对Robots协议的理解


爬虫引发的问题

网络爬虫的尺寸

  • 爬取网页,玩转网页:

小规模,数据量小,爬取速度不敏感。Requests库

  • 爬取网站,爬取系列网站:

中规模,数据规模较大,爬取速度敏感。Scrapy库

  • 爬取全网:

大规模,搜索引擎,爬取速度关键。定制开发

网络爬虫引发的问题

骚扰问题、法律风险、隐私泄露

网络爬虫的限制

  • 来源审查:判断User-Agent进行限制
    • 检查来访HTTP协议头的User-Agent域,之相应浏览器或友好爬虫的访问。
  • 发布公告:Robots协议
    • 告知所有爬虫网站的爬取策略,要求爬虫遵守。


Robots协议

Robots Exclusion Standard 网络爬虫排除标准

作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。

形式:在网站根目录下的robots.txt文件。

案例:京东的Robots协议

http://www.jd.com/robots.txt

# 对于任何的网络爬虫来源,遵守如下协议
User-agent: * 
# Disallow 表示不允许访问
Disallow: /?* 			
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
# 以下四个网络爬虫不允许爬取任何资源
User-agent: EtaoSpider 		
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

基本协议语法:

# 注释
* 代表所有
./代表根目录
User-agent: *		# 代表的是那些爬虫
Disallow: /			# 代表不允许爬虫访问的目录

其他网站的一些Robots协议(但并不是所有网站都有robots协议):

  • 百度:http://www.baidu.com/robots.txt
  • 新浪新闻:http://news.sina.com.cn/robots.txt
  • 腾讯:http://www.qq.com/robots.txt
  • 腾讯新闻:http://news.qq.com/robots.txt
  • 国家教育部:http://www.meo.edu.cn/robots.txt (注:无robots协议)


Robots协议的遵守方式

Robots的使用

网络爬虫:自动或人工识别robots.txt,再进行内容爬取。

约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险。

对Robots协议的理解

  • 爬取网页,玩转网页:

访问量很小:可以遵守

访问量较大:建议遵守

  • 爬取网站,爬取系列网站:

非商业且偶尔:建议遵守

商业利益:必须遵守

  • 爬取全网:

必须遵守


http://www.kler.cn/a/395872.html

相关文章:

  • 使用 Python 和 OpenCV 实现摄像头人脸检测并截图
  • 力扣 最长公共前缀-14
  • 云计算研究实训室建设方案
  • Javascript高级—常见算法
  • FBX福币交易所恒指收跌1.96% 半导体股继续回调
  • 【MYSQL】数据库日志 (了解即可)
  • 实习冲刺第二十二天
  • MySQL如何解决幻读?
  • 15分钟学 Go 第 54 天 :项目总结与经验分享
  • 基于微信小程序的药店管理系统+LW示例参考
  • 一道C语言关于距离的期末题及答案
  • 自然推理系统:的拒取式的解析
  • 数字IC后端低功耗设计实现案例分享(3个power domain,2个voltage domain)
  • 想要成为独立游戏作者 :通关!游戏设计之道 2-2 关卡设计
  • Unity图形学之Shader2.0 深度测试
  • 双指针优质算法题集
  • 基于STM32的智能语音识别饮水机系统设计
  • Ajax异步调用
  • css 溢出隐藏显示省略号
  • 地质旅游平台推动“旅游+地质”融合发展
  • Spring学习笔记_34——@Controller
  • 协方差矩阵及其计算方法
  • 动态规划 之 子数组 算法专题
  • Ceph 中PG与PGP的概述
  • Algen的跨链互操作性:增强区块链连接性
  • CSS Module:告别类名冲突,拥抱模块化样式(5)