当前位置: 首页 > article >正文

简单的Python爬虫实例

下面是一个简单的Python爬虫实例,用于抓取一个网页的标题。我们将使用requests库来发送HTTP请求,使用BeautifulSoup库来解析HTML。

首先,你需要安装这两个库。如果你还没有安装,可以使用以下命令:

pip install requests
pip install beautifulsoup4

接下来是一个简单的爬虫代码示例:

import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = 'http://example.com'
# 发送HTTP GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    # 查找并打印网页的标题
    title = soup.find('title').text
    print(f'网页标题是: {title}')
else:
    print(f'请求失败,状态码: {response.status_code}')

代码解释

‌导入库‌:

import requests

from bs4 import BeautifulSoup

‌定义目标网页的URL‌:

url = 'http://example.com'

‌发送HTTP GET请求‌:

response = requests.get(url)

‌检查请求是否成功‌:

if response.status_code == 200:

这里我们检查返回的状态码是否为200,表示请求成功。

‌解析HTML内容‌:

soup = BeautifulSoup(response.text, 'html.parser')

使用BeautifulSoup解析获取的HTML内容。

‌查找并打印网页的标题‌:

title = soup.find('title').text

print(f'网页标题是: {title}')

查找HTML中的<title>标签,并打印其文本内容。

‌处理请求失败的情况‌:

else:

print(f'请求失败,状态码: {response.status_code}')

注意事项

‌爬取频率‌:请不要频繁地爬取同一个网站,以免给网站服务器带来负担。遵守网站的robots.txt规则(通常位于http://example.com/robots.txt),了解允许爬取的内容和频率。

‌法律与道德‌:确保你的爬虫行为符合法律法规和网站的条款与条件。不要爬取敏感信息或侵犯他人隐私。

‌错误处理‌:在实际应用中,添加更多的错误处理机制,例如处理网络异常、超时等。

希望这个简单的示例能帮助你入门Python爬虫开发!


http://www.kler.cn/a/370252.html

相关文章:

  • 项目中使用的是 FastJSON(com.alibaba:fastjson)JSON库
  • 【Pandas】pandas Series groupby
  • TiDB与Oracle:数据库之争,谁能更胜一筹?
  • 《目标检测数据集下载地址》
  • C语言内存之旅:从静态到动态的跨越
  • 免费为企业IT规划WSUS:Windows Server 更新服务 (WSUS) 之快速入门教程(一)
  • Qt example---40000 Chips
  • XCode16中c++头文件找不到解决办法
  • 007:无人机遥控器功能介绍
  • 鼠标事件与webGl坐标系
  • RayLink为企业提供高效安全的远程办公环境
  • 架构师备考-非关系型数据库
  • 贵州鑫宏远农业-始终致力于推动现代农业的科技创新与发展
  • 使用 FastGPT + Ollama 搭建本地 AI 客服小助手
  • 【封装小程序log,设定层级】
  • opencv - py_ml - py_kmeans
  • Vue.js从入门到精通 — 基础知识
  • 医学影像基础:常见的医学影像学术语和概念
  • 商场应急管理:SpringBoot技术解决方案
  • 后端:Spring-1
  • 智能EDA小白从0开始 —— DAY30 冉谱微RFIC-GPT
  • canvas基础学习(鼠标点位拖拽)
  • 为什么有的说法是STM32有60个外部中断,有的说法是有23个中断
  • vscode中提升效率的插件扩展——待更新
  • 基于Distil-Whisper的实时ASR【自动语音识别】
  • python实战项目47:Selenium采集百度股市通数据