python 爬虫学习
目录
- requst库访问
- HTML语言
- 常用 HTML 标签
- 结构性标签
- 文本格式化标签
- 超链接与图像
- 列表标签
- HTML练习
- BeautifulSoup处理数据
requst库访问
from requests import *
response=get("https://19j.tv/")
print(response)
若访问成功,状态码为200,访问失败,则查询状态码,http和https的状态码是一样的
http状态码
可以采取伪造请求头的方式绕过,右键检查元素,随便找个user-agent
from requests import *
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36'
}
response=get("https://19j.tv/",headers=headers)
print(response)
HTML语言
常用 HTML 标签
结构性标签
<html>
: 定义整个 HTML 文档的根元素。<head>
: 包含文档的元数据(如字符集、标题、链接等)。<body>
: 包含文档的主要内容。<title>
: 定义文档的标题,显示在浏览器标签栏中。<header>
: 定义页面头部区域,通常用于放置导航、标题等内容。<footer>
: 定义页面底部区域,通常用于放置版权信息、联系方式等。<nav>
: 定义导航链接区域。<section>
: 定义文档中的一个节(例如章节、区域等)。<article>
: 定义独立的内容单元,可以是博客文章、新闻条目等。<aside>
: 定义页面的侧边栏,通常包含与主要内容相关的辅助信息。
文本格式化标签
<h1>
至<h6>
: 定义标题标签,<h1>
是最大标题,<h6>
是最小标题。<p>
: 定义段落。<br>
: 插入换行符。<b>
: 加粗文本(已被<strong>
替代)。<i>
: 斜体文本(已被<em>
替代)。<strong>
: 定义重要的文本,通常表现为加粗。<em>
: 定义强调文本,通常表现为斜体。<u>
: 下划线文本。<mark>
: 标记文本(高亮显示)。<del>
: 删除线文本。<ins>
: 插入文本。
超链接与图像
<a>
: 定义超链接,href
属性指定链接目标。- 示例:
<a href="https://www.example.com">点击这里</a>
- 示例:
<img>
: 插入图像,src
属性指定图片路径,alt
属性指定替代文本。- 示例:
<img src="image.jpg" alt="示例图片">
- 示例:
列表标签
<ul>
: 定义无序列表。<ol>
: 定义有序列表。<li>
: 定义列表项。- 示例:
<ul> <li>第一项</li> <li>第二项</li> </ul>
HTML练习
照着敲一敲咯
<!DOCTYPE html>
<html>
<head>
<title>lally home</title>
</head>
<body>
<h1>
这是一级标题
</h1>
<h2>
这是二级标题
</h2>
<h3>
这是三级标题
</h3>
<p>this is txt <br>this is txt</p>
<img src="">
<a href="https:www.baidu,com">百度链接</a>
<a href="https:www.baidu,com" target="_blank">百度链接(在新标签页中打开)</a>
</body>
</html>
BeautifulSoup处理数据
pip install bs4
findall函数负责筛选出所有的p元素,而attrs则是通过键值对进一步筛选,通过筛选就可以爬取大部分的信息了,学爬虫本意是想免费看片,但是爬取视频部分没搞会,干脆先放一放,哪天想起来了再深造