当前位置: 首页 > article >正文

简单爬虫--框架

简单爬虫

import requests
import re
import chardet

# 模拟浏览器的请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 发送 HTTP 请求获取百度首页内容
url = "https://www.163.com"
response = requests.get(url, headers=headers)

# 自动检测编码
encoding = chardet.detect(response.content)["encoding"]
response.encoding = encoding

# 检查请求是否成功
if response.status_code == 200:
    # 获取网页内容
    html_content = response.text
    # print(html_content)

    # 使用正则表达式提取标题
    title_match = re.search(r"<title>(.*?)</title>", html_content, re.IGNORECASE)
    if title_match:
        title = title_match.group(1)
        print(f"网页标题: {title}")
    else:
        print("未找到标题")
else:
    print(f"请求失败,状态码: {response.status_code}")

http://www.kler.cn/a/588788.html

相关文章:

  • 用户身份认证与令牌管理全解析:从原理到分布式实践
  • 每日Attention学习26——Dynamic Weighted Feature Fusion
  • 泽众TestOne推出快速测试用例设计,让自动化更快捷
  • Keytool常见问题全解析:从环境配置到公钥提取
  • Advanced Intelligent Systems 软体机器手助力截肢者玩转鼠标
  • DeepSeek-R1思路训练多模态大模型-Vision-R1开源及实现方法思路
  • JavaScript相关面试题
  • 前端面试题---vue项目打包时, 内存不足了怎么办 为什么会出现这样的情况
  • Web开发-PHP应用文件操作安全上传下载任意读取删除目录遍历文件包含
  • 深入解析工厂模式及其C#实现
  • 【k8s002】k8s健康检查与故障诊断
  • Ubuntu下安装后anaconda出现conda:command not found
  • 使用 WebP 优化 GPU 纹理占用
  • 初阶数据结构--复杂度
  • Flutter桌面开发(三、widget布局与表单)
  • Python手写机器学习的“线性回归”算法
  • 深度学习CNN特征提取与匹配
  • 【AWS入门】AWS云计算简介
  • 机器学习 [白板推导](三)[线性分类]
  • 【C++】一文吃透STL容器——list