当前位置: 首页 > article >正文

1.简单的爬虫

1.数据在哪里?

  1. 在页面源码里
    1. 直接获取数据
  2. 不在页面源码里
    1. 找到真正获取数据的URL,再获取数据

2.requests模块

  1. 安装

    pip install requests
    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests
    
  2. 抓网站文字数据

    import requests
    
    url = "https://gaze.run/"
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
    }
    
    resp = requests.get(url)
    
    # 检查响应状态码
    if resp.status_code == 200:
        # 检查响应内容是否包含特定字符串
        if "斗破苍穹" in resp.text:
            print("Website is up!")
    else:
        print("Website is down!")   
    
  3. 抓网站图片、视频、音频

    import requests
    
    url = "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2578474613.jpg"
    resp = requests.get(url)
    file_name = url.split("/")[-1]
    with open(file_name, mode="wb") as f:
        f.write(resp.content)  # resp.content得到的是bytes(字节)
    
  4. 知识点汇总

    1. 请求
      1. requests.get(),发送get请求,请求的参数可以放在url里面,也可以传递给params
      2. requestes.post(),发送post请求,请求参数放在字典里,再传递给data
    2. 响应
      1. resp.text接收文本
      2. resp.json()接收json字符串
      3. resp.content接收字节

http://www.kler.cn/a/511774.html

相关文章:

  • 【数学建模美赛速成系列】O奖论文绘图复现代码
  • wireshark工具简介
  • 基于SpringBoot+Vue的智慧动物园管理系统的设计与实现
  • 线上工单引发的思考:Spring Boot 中 @Autowired 与 @Resource 的区别
  • 八大排序--冒泡排序
  • Java 8 Optional类
  • LeetCode 第2815题:数组中的最大数对和
  • 有效的数独
  • 基于深度学习的微出血自动检测及解剖尺度定位|文献速递-视觉大模型医疗图像应用
  • 《鸿蒙Next应用商店:人工智能开启智能推荐与运营新时代》
  • 学习记录之原型,原型链
  • SDL2:PC端编译使用 -- SDL2多媒体库使用音频实例
  • 【Vscode】Vscode不能执行vue脚本的原因及解决方法
  • 2024年度数据科学与机器学习技术总结
  • Java 中求两个 List集合的交集元素
  • MECD+: 视频推理中事件级因果图推理--VLM长视频因果推理
  • Windows11电脑总是一闪一闪的,黑一下亮一些怎么解决
  • node.js 文件操作
  • 解决MAC安装软件时提示“xxx.app 显示已损坏”的方法
  • 抽奖系统(4——活动模块)
  • 网页固件升级界面设计
  • 【Maven】resources-plugin
  • vue3-sfc-loader 加载远程.vue文件(sfc)案例
  • React总结
  • 合合信息DocFlow产品解析与体验:人人可搭建的AI自动化单据处理工作流
  • UE虚幻引擎No Google Play Store Key:No OBB found报错如何处理?