当前位置: 首页 > article >正文

python 爬虫学习

目录

  • requst库访问
  • HTML语言
    • 常用 HTML 标签
      • 结构性标签
      • 文本格式化标签
      • 超链接与图像
      • 列表标签
    • HTML练习
  • BeautifulSoup处理数据

requst库访问

from requests import *
response=get("https://19j.tv/")
print(response)

若访问成功,状态码为200,访问失败,则查询状态码,http和https的状态码是一样的
http状态码
可以采取伪造请求头的方式绕过,右键检查元素,随便找个user-agent
在这里插入图片描述

from requests import *
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36'
}
response=get("https://19j.tv/",headers=headers)
print(response)

HTML语言

常用 HTML 标签

结构性标签

  • <html>: 定义整个 HTML 文档的根元素。
  • <head>: 包含文档的元数据(如字符集、标题、链接等)。
  • <body>: 包含文档的主要内容。
  • <title>: 定义文档的标题,显示在浏览器标签栏中。
  • <header>: 定义页面头部区域,通常用于放置导航、标题等内容。
  • <footer>: 定义页面底部区域,通常用于放置版权信息、联系方式等。
  • <nav>: 定义导航链接区域。
  • <section>: 定义文档中的一个节(例如章节、区域等)。
  • <article>: 定义独立的内容单元,可以是博客文章、新闻条目等。
  • <aside>: 定义页面的侧边栏,通常包含与主要内容相关的辅助信息。

文本格式化标签

  • <h1><h6>: 定义标题标签,<h1> 是最大标题,<h6> 是最小标题。
  • <p>: 定义段落。
  • <br>: 插入换行符。
  • <b>: 加粗文本(已被 <strong> 替代)。
  • <i>: 斜体文本(已被 <em> 替代)。
  • <strong>: 定义重要的文本,通常表现为加粗。
  • <em>: 定义强调文本,通常表现为斜体。
  • <u>: 下划线文本。
  • <mark>: 标记文本(高亮显示)。
  • <del>: 删除线文本。
  • <ins>: 插入文本。

超链接与图像

  • <a>: 定义超链接,href 属性指定链接目标。
    • 示例: <a href="https://www.example.com">点击这里</a>
  • <img>: 插入图像,src 属性指定图片路径,alt 属性指定替代文本。
    • 示例: <img src="image.jpg" alt="示例图片">

列表标签

  • <ul>: 定义无序列表。
  • <ol>: 定义有序列表。
  • <li>: 定义列表项。
  • 示例:
    <ul>
      <li>第一项</li>
      <li>第二项</li>
    </ul>
    

HTML练习

照着敲一敲咯

<!DOCTYPE html>
<html>
    <head>
      <title>lally home</title>
    </head>
    <body>
      <h1>
      这是一级标题    
      </h1>
      <h2>
        这是二级标题
      </h2>
      <h3>
        这是三级标题
      </h3>
      <p>this is txt <br>this is txt</p>
      <img src="">
      <a href="https:www.baidu,com">百度链接</a>
      <a href="https:www.baidu,com" target="_blank">百度链接(在新标签页中打开)</a>
    </body>
</html>

BeautifulSoup处理数据

pip install bs4
在这里插入图片描述

findall函数负责筛选出所有的p元素,而attrs则是通过键值对进一步筛选,通过筛选就可以爬取大部分的信息了,学爬虫本意是想免费看片,但是爬取视频部分没搞会,干脆先放一放,哪天想起来了再深造


http://www.kler.cn/a/505369.html

相关文章:

  • 近红外简单ROI分析matlab(NIRS_SPM)
  • shell脚本回顾1
  • 本地用docker装mysql
  • STM32特殊功能引脚详解文章·STM32特殊功能引脚能当作GPIO使用嘛详解!!!
  • 计算机网络(五)——传输层
  • Linux(Centos7)安装Mysql/Redis/MinIO
  • 学习第六十八行
  • 稳定144帧!云游戏体验,ToDesk搭载独立满血显卡
  • MyBatis-XML映射配置
  • Vue.js组件开发-如何实现路由懒加载
  • 代码随想录算法【Day21】
  • 【C++】B2112 石头剪子布
  • OpenStack 网络服务的插件架构
  • 诡异的Spring @RequestBody驼峰命名字段映射失败为null问题记录
  • Android Studio 警告信息:Use start instead of left to ensure...
  • 基于阿里云容器服务Kubernetes版(ACK)| 容器化管理云上应用
  • 非PHP开源内容管理系统(CMS)一览
  • 【ArcGIS技巧】如何给CAD里的面注记导入GIS属性表中
  • 解锁C++性能密码:TCMalloc深度剖析
  • 麒麟操作系统服务架构保姆级教程(十)rewrite跳转
  • linux环境使用docker部署多个war项目
  • rtthread学习笔记系列--24 waitqueue
  • 在 Docker 中安装并运行三个 MySQL 数据库
  • 快速上手 HarmonyOS 应用开发
  • np.gradient() 获取单个,一维,二维坐标点的梯度值
  • Oracle分析工具-Logminer手动指定归档文件