当前位置: 首页 > article >正文

爬虫学习笔记之Robots协议相关整理

定义

Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。

robots.txt文件的样例

  • 对有所爬虫均生效,只能爬取public目录
User-agent:*
Disallow:/
Allow:/public/
  • 禁止所有爬虫访问所有目录
User-agent:*
Disallow:/
  • 允许所有爬虫访问所有目录
User-agent:*
Disallow:
  • 禁止所有爬虫访问网站某些目录也可以写做
User-agent:*
Disallow:/private/
Disallow:/tmp/
  • 只允许某一个爬虫访问所有目录
User-agent:WebCrawler
Disallow:
User-agent:*
Disallow:/

一些常见的爬虫名称

在这里插入图片描述

robotparser使用

该模块提供了一个类:RobotFileParser,它可以根据某网站的robots.txt文件判断一个爬虫是否有权限爬取这个网页。

RobotFileParser类的常用方法

  • set_url:用来设置robots.txt文件的链接。
  • read:读取robots.txt文件进行分析。
  • parse:用来解析robots.txt文件
  • can_fetch:该方法有两个参数,第一个是User-Agent,第二个是要抓取的URL。返回结果是True或者False,表示User-Agent指示的搜索引擎是否可以抓取这个URL。
  • mtime:返回上次抓取和分析robots.txt文件的时间。
  • modified:它对长时间分析和抓取的搜索爬虫很有帮助,可以将当前时间设置为上次抓取和分析robots.txt文件的时间

代码示例

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url("http://www.baidu.com/robots.txt")
rp.read()

print(rp.can_fetch("Baiduspider", "http://www.baidu.com"))
print(rp.can_fetch("Baiduspider", "http://www.baidu.com/homepage/"))
print(rp.can_fetch("Googlebot", "http://www.baidu.com/homepage/"))

在这里插入图片描述

  • 这里能看到,Googlebot是被严格禁止了的,所以为false
    在这里插入图片描述

以上,便是robots协议的学习笔记整理,来源于当前正在看的一本书–《Python3网络爬虫开发实战》。后面会持续学习并整理的。
感谢阅读~


http://www.kler.cn/a/532518.html

相关文章:

  • 如何生成强密码:提高网络安全性的全面指南
  • 在Mac mini M4上部署DeepSeek R1本地大模型
  • 执行策略更改
  • 【前端】ES6模块化
  • centos stream 9 安装 libstdc++-static静态库
  • DeepSeek超越ChatGPT的能力及部分核心原理
  • C++模板编程——可变参类模板
  • IOS开发日志-ios新建项目后-将storyboard去掉,版本调整为IOS13以下
  • 关于算尽圆周率
  • 使用 Go 语言调用 DeepSeek API:完整指南
  • 泰山派Linux环境下自动烧录脚本(EMMC 2+16G)
  • 手写MVVM框架-模板渲染1
  • 什么是REStful API,其设计核心原则(core principle)是什么
  • 深入解析 Redis AOF 机制:持久化原理、重写优化与 COW 影响
  • MyBatis 初级
  • 基于SpringBoot的物资管理系统
  • 面经--C语言——内存泄漏、malloc和new的区别 .c文件怎么转换为可执行程序 uart和usart的区别 继承的访问权限总结
  • 蓝桥杯python基础算法(2-2)——基础算法(F)——差分
  • 【CPP】异步操作的底层原理与应用举例
  • 一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答:包括671B满血版和各个蒸馏版的部署
  • 基于springboot+vue的中药实验管理系统(源码+数据库+文档)
  • LeetCode --- 434周赛
  • kubernetes学习-配置管理(九)
  • 【Linux探索学习】第二十八弹——信号(下):信号在内核中的处理及信号捕捉详解
  • vscode搭建git
  • 寒假(一)