当前位置：首页 > article >正文

python 爬虫学习

article 2025/2/28 23:21:39

requst库访问

from requests import *
response=get("https://19j.tv/")
print(response)

若访问成功，状态码为200，访问失败，则查询状态码，http和https的状态码是一样的
http状态码
可以采取伪造请求头的方式绕过，右键检查元素，随便找个user-agent
在这里插入图片描述

from requests import *
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36'
}
response=get("https://19j.tv/",headers=headers)
print(response)

HTML语言

常用 HTML 标签

结构性标签

<html>: 定义整个 HTML 文档的根元素。
<head>: 包含文档的元数据（如字符集、标题、链接等）。
<body>: 包含文档的主要内容。
<title>: 定义文档的标题，显示在浏览器标签栏中。
<header>: 定义页面头部区域，通常用于放置导航、标题等内容。
<footer>: 定义页面底部区域，通常用于放置版权信息、联系方式等。
<nav>: 定义导航链接区域。
<section>: 定义文档中的一个节（例如章节、区域等）。
<article>: 定义独立的内容单元，可以是博客文章、新闻条目等。
<aside>: 定义页面的侧边栏，通常包含与主要内容相关的辅助信息。

文本格式化标签

<h1> 至 <h6>: 定义标题标签，<h1> 是最大标题，<h6> 是最小标题。
<p>: 定义段落。
<br>: 插入换行符。
<b>: 加粗文本（已被 <strong> 替代）。
<i>: 斜体文本（已被 <em> 替代）。
<strong>: 定义重要的文本，通常表现为加粗。
<em>: 定义强调文本，通常表现为斜体。
<u>: 下划线文本。
<mark>: 标记文本（高亮显示）。
<del>: 删除线文本。
<ins>: 插入文本。

超链接与图像

<a>: 定义超链接，href 属性指定链接目标。
- 示例: <a href="https://www.example.com">点击这里</a>
<img>: 插入图像，src 属性指定图片路径，alt 属性指定替代文本。
- 示例: <img src="image.jpg" alt="示例图片">

列表标签

<ul>: 定义无序列表。
<ol>: 定义有序列表。
<li>: 定义列表项。

示例:

<ul>
  <li>第一项</li>
  <li>第二项</li>
</ul>

HTML练习

照着敲一敲咯

<!DOCTYPE html>
<html>
    <head>
      <title>lally home</title>
    </head>
    <body>
      <h1>
      这是一级标题    
      </h1>
      <h2>
        这是二级标题
      </h2>
      <h3>
        这是三级标题
      </h3>
      <p>this is txt <br>this is txt</p>
      <img src="">
      <a href="https:www.baidu,com">百度链接</a>
      <a href="https:www.baidu,com" target="_blank">百度链接(在新标签页中打开)</a>
    </body>
</html>