当前位置: 首页 > article >正文

如何运用python爬虫爬取百度贴吧的静态图片?

爬取百度贴吧图片的详细步骤和代码实现

爬取百度贴吧图片的过程可以分为以下几个步骤:

  1. 分析网页结构:了解百度贴吧页面的HTML结构,找到图片的URL。
  2. 发送HTTP请求:使用requests库获取网页内容。
  3. 解析HTML内容:使用BeautifulSoup库解析HTML,提取图片URL。
  4. 下载并保存图片:将图片下载并保存到本地。

以下是一个完整的代码实现过程:

1. 分析网页结构

首先,打开百度贴吧的某个帖子页面,查看其HTML结构。图片通常嵌入在<img>标签中,需要提取src属性。

2. 发送HTTP请求

使用requests库发送HTTP请求,获取网页内容。为了防止被反爬虫机制拦截,可以设置User-Agent

3. 解析HTML内容

使用BeautifulSoup库解析HTML内容,提取图片URL。

4. 下载并保存图片

将图片下载并保存到本地。为了避免重复下载,可以检查文件是否已存在。

完整代码实现

Python复制

import requests
from bs4 import BeautifulSoup
import os
import random
import time

# 获取网页内容
def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print(f"Failed to retrieve the webpage: {url}")
        return None

# 解析HTML内容,提取图片URL
def extract_image_urls(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    images = soup.find_all('img')  # 查找所有图片标签
    image_urls = []
    for img in images:
        img_url = img.get('src')  # 获取图片的src属性
        if img_url and img_url.startswith('http'):  # 确保是完整的URL
            image_urls.append(img_url)
    return image_urls

# 下载并保存图片
def download_images(image_urls, save_dir='images'):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)  # 创建保存图片的文件夹
    for i, img_url in enumerate(image_urls):
        img_name = os.path.basename(img_url)  # 从URL中提取文件名
        save_path = os.path.join(save_dir, img_name)
        if os.path.exists(save_path):
            print(f"{img_name} already exists. Skipping...")
            continue
        try:
            response = requests.get(img_url, timeout=10)
            response.raise_for_status()  # 确保请求成功
            with open(save_path, 'wb') as img_file:
                img_file.write(response.content)  # 保存图片
            print(f"Downloaded {img_name}")
        except requests.RequestException as e:
            print(f"Failed to download {img_url}. Error: {e}")
        time.sleep(random.uniform(1, 3))  # 随机延时,避免被封禁

# 主函数
def main():
    url = 'https://tieba.baidu.com/p/1234567890'  # 替换为目标帖子的URL
    html_content = get_html(url)
    if html_content:
        image_urls = extract_image_urls(html_content)
        download_images(image_urls)

if __name__ == "__main__":
    main()

注意事项

  1. 遵守法律法规:在爬取网站内容时,务必遵守相关法律法规和网站的使用条款。
  2. 合理设置爬取频率:过于频繁的爬取请求可能会对目标网站造成压力,甚至导致你的IP被封禁。请合理设置爬取频率。
  3. 处理反爬虫机制:如果遇到反爬虫机制(如验证码、IP封禁等),可以尝试设置请求头、使用代理IP等方法。

通过上述步骤和代码,你可以成功爬取百度贴吧的图片,并解决一些常见的反爬虫问题。希望这些内容对你有所帮助。


http://www.kler.cn/a/523712.html

相关文章:

  • Kiwi 安卓浏览器本月停止维护,扩展功能迁移至 Edge Canary
  • 护眼好帮手:Windows显示器调节工具
  • 深度学习中常用的评价指标方法
  • vue和reacts数据响应式的差异
  • 算法12(力扣739)-每日温度
  • WPF常见面试题解答
  • 懂球短视频微信小程序SpringBoot+论文源码调试讲解
  • 06-AD向导自动创建P封装(以STM32-LQFP48格式为例)
  • Linux 基础1
  • 【C++题解】1393. 与7无关的数?
  • centos7搭建flink1.18并以 standalone模式启动
  • 前端UI组件库的打包与发布
  • 网站服务器出现延迟的原因是什么?
  • 使用 lock4j-redis-template-spring-boot-starter 实现 Redis 分布式锁
  • EtherCAT主站IGH-- 54 -- IGH之控制电机旋转周期同步位置模式(CSP模式)
  • Java阶段四06
  • 【452. 用最少数量的箭引爆气球 中等】
  • 使用iis服务器模拟本地资源服务器unityaddressables热更新出错记录
  • C++11中array容器的常见用法
  • fpga系列 HDL:XILINX Vivado Vitis 高层次综合(HLS) 实现 EBAZ板LED控制(上)
  • Unity游戏(Assault空对地打击)开发(3) 摄像机跟随
  • 卡通圣诞节404动画页面模板
  • Spring Security(maven项目) 3.0.2.8版本
  • 17.Word:李楠-学术期刊❗【29】
  • C语言中string.h头文件功能介绍
  • Vscode的AI插件 —— Cline