当前位置: 首页 > article >正文

爬虫基础(六)代理简述

目录

一、什么是代理

二、基本原理

三、代理分类


一、什么是代理

爬虫一般是自动化的,当我们自动运行时

爬虫自动抓取数据,但一会就出现了错误:

如,您的访问频率过高

这是因为网站的反爬措施,如果频繁访问,则会被禁止,即封IP

为解决这种情况,我们需要把自己的IP伪装一下,即代理

所谓代理,就是代理服务器。

二、基本原理

正常来说:

客户发送请求给服务器

然后服务器将响应传给客户

而代理的话:

相当于在客户和服务器之间加一个代理服务器

就成了客户发送请求给代理服务器

代理服务器将请求传给服务器

服务器将响应传给代理服务器

代理服务器再传给客户

而使用代理服务器,则可以隐藏真实IP

我们只需要不断更换IP即可

三、代理分类

根据协议分类

  1. HTTP代理

    • 仅支持HTTP协议,适用于网页浏览。

    • 通常用于访问受限网站或匿名浏览。

  2. HTTPS代理

    • 支持HTTPS协议,提供加密传输,安全性更高。

    • 适用于需要加密的网页访问。

  3. SOCKS代理

    • 支持多种协议(如HTTP、FTP),灵活性高。

    • 常用于P2P文件共享或绕过防火墙。

  4. FTP代理

    • 专用于FTP协议,用于文件传输。

    • 适用于需要匿名上传或下载文件的场景。

  5. SSL/TLS代理

    • 支持SSL/TLS加密,安全性强。

    • 适用于需要高安全性的数据传输。

根据匿名程度分类

  1. 透明代理(Transparent Proxy)

    • 不隐藏用户IP,服务器知道请求经过代理。

    • 常用于内容过滤或缓存。

  2. 普通匿名代理(Anonymous Proxy)

    • 隐藏用户IP,但服务器知道请求来自代理。

    • 提供一定匿名性,但无法完全隐藏代理身份。

  3. 高匿名代理(Elite Proxy)

    • 完全隐藏用户IP和代理信息,服务器无法识别请求是否通过代理。

    • 提供最高匿名性,适用于高隐私需求。


http://www.kler.cn/a/526903.html

相关文章:

  • electron 应用开发实践
  • 计算机网络一点事(22)
  • 数据结构-Stack和栈
  • 14-8C++STL的queue容器
  • WGCLOUD服务器资源监控软件使用笔记 - Token is error是什么错误
  • AI大模型开发原理篇-6:Seq2Seq编码器-解码器架构
  • jvisualvm工具使用
  • 哈工大:屏蔽LLM检索头训练忠实性
  • 158页精品PPT | 机械行业数字化生产供应链产品解决方案
  • 讯飞星火大模型API使用Python调用
  • 深入理解MySQL 的 索引
  • java的Stream流
  • Redis入门概述
  • 嵌入式知识点总结 Linux驱动 (七)-Linux驱动常用函数 uboot命令 bootcmd bootargs get_part env_get
  • 计算机图形学 通过叉乘判断一个点是否在三角形内
  • Java进阶six junit单元测试,反射,注解,动态代理
  • OVS-DPDK
  • 具身智能体空间感知基础!ROBOSPATIAL:评测并增强2D和3D视觉语言模型空间理解水平
  • 低代码产品表单渲染架构
  • 【计算机网络】设备更换地区后无法访问云服务器问题
  • 【华为OD-E卷 - 数组二叉树 100分(python、java、c++、js、c)】
  • Mybatis框架中的foreach标签解析
  • 【4Day创客实践入门教程】Day2 探秘微控制器——单片机与MicroPython初步
  • SQL进阶实战技巧:如何分析浏览到下单各步骤转化率及流失用户数?
  • 【C++语言】卡码网语言基础课系列----7. 摆平积木
  • Learning Vue 读书笔记 Chapter 4