当前位置: 首页 > article >正文

爬虫与反爬虫实现全流程

我选取的网页爬取的是ppt nba版

需要的工具:pycharm,浏览器

爬虫需要观察它的网页信息,然后开始首先爬取它的html,可以看到有人气,标题,日期,咨询

可以看到用get方法

import requests
url="https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fwww.ptt.cc%2Fbbs%2FNBA%2Findex.html&pos_id=lJ5YB9Tu"
respone=requests.get(url)
print(respone.text)

接下来把它下载下来

with open('output.html','w',encoding='utf-8')as f:
    f.write(respone.text)

反爬虫使用header方法,观察User-Agent: AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36

放入header

import requests
url="https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fwww.ptt.cc%2Fbbs%2FNBA%2Findex.html&pos_id=lJ5YB9Tu"
headers={'User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36'}
respone=requests.get(headers=headers)
# print(respone.text)
with open('output.html','w',encoding='utf-8')as f:
    f.write(respone.text)

接下来正式开始爬取自己想要的资料

 去终端机安一下beautifulsoup

pip install beautifulsoup4

 解析获得文章列表parser

soup beautifulSoup(respone.text,"html.parser" )

接下来把我们需要的值一个一个取出来

标题: div  a  title.text

人气:div class=nrec span

日期:div date


http://www.kler.cn/a/463691.html

相关文章:

  • matlab时频分析库
  • java实验4 反射机制
  • 自组织映射 (Self-Organizing Map, SOM) 算法详解与PyTorch实现
  • 深入解析爬虫中的算法设计:提升效率与准确度
  • 多文件比对
  • Flash Attention V3使用
  • STM32-I2C通信
  • 安装PostgreSQL后的初始化操作
  • 浏览器--解决页面没刷新的问题(清除所有缓存)
  • 【从零开始入门unity游戏开发之——C#篇35】C#自定义类实现Sort自定义排序
  • net core程序部署到 iis 出现跨域问题
  • Spring Boot JPA Oracle 最佳实践 20 条
  • 《迁移学习与联邦学习:推动人工智能发展的关键力量》
  • APP怎么抓取原生日志 - Android篇
  • springboot3.X 无法解析parameter参数问题
  • vue.js scoped样式冲突
  • 【mediapipe】实现卷腹运动识别(视频或摄像头)并计数
  • html 音频和视频组件
  • Kubernetes Gateway API-3-TLS配置
  • CES Asia 2025:助力新型城市基础设施建设,展现智慧城市科技魅力
  • Modbus知识详解
  • 单片机--51- RAM
  • @colyseus/loadtest 插件详解
  • 代码随想录算法训练营第十七天-二叉树-654.最大二叉树
  • STM32-笔记19-串口打印功能
  • arm rk3588 升级glibc2.31到2.33