当前位置: 首页 > article >正文

Python抓取豆瓣电影Top250

文章简介

在本篇文章中,我们将探讨如何利用Python编程语言中的requests库和BeautifulSoup库来抓取豆瓣网站上电影Top250的数据信息。通过本文的学习,读者将掌握基本的网络爬虫技巧,了解如何解析HTML文档,以及怎样高效地处理和存储抓取到的数据。

1. 前言

简要介绍为什么选择豆瓣Top250作为抓取目标,以及这项任务可能带来的价值或学习点。

2. 准备工作

安装必要的库

pip install requests beautifulsoup4

3. 详细代码

import requests
from bs4 import BeautifulSoup
import time

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}

# 定义函数来获取并解析单页内容
def fetch_page(start):
    url = f'https://movie.douban.com/top250?start={start}'
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # 如果响应状态码不是200,抛出HTTPError
        return response.text
    except requests.RequestException as e:
        print(f"An error occurred: {e}")
        return None

# 定义函数来解析HTML并提取电影信息
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    movies = []
    for item in soup.select('div.item'):
        title = item.find('span', class_='title').get_text()
        link = item.find('a')['href']
        movies.append((title, link))
    return movies

# 主程序逻辑
with open('豆瓣电影T250.txt', 'w', encoding='utf-8') as fp:
    for start in range(0, 250, 25):
        html = fetch_page(start)
        if html:
            movies = parse_html(html)
            for title, link in movies:
                fp.write(f'{link}\t{title}\n')  # 写入链接和标题,并添加换行符
        time.sleep(1)  # 每次请求后等待一秒,以减轻服务器负担

print("数据抓取完成")

 


http://www.kler.cn/a/469054.html

相关文章:

  • 2025工作管理综合指南:Jira、Confluence等Atlassian工具套件在工作管理中的应用
  • graylog配置日志关键字邮件Email告警
  • 区块链:四大方面引领数字革命新篇章
  • 力扣hot100——栈
  • 在科技查新中怎样判定其项目的新颖性?
  • 单片机复位电路基本理解教程文章·含上拉电阻理解电容开路理解!!!
  • Python中对象序列化以及反序列化的方法
  • Day 22:数据库与 Spring Data JPA
  • Unity3D仿星露谷物语开发17之空库存栏UI
  • vue3如何实现防抖?
  • atrust异常导致ERR_NETWORK_CHANGED
  • 2025-01-04 Unity插件 YodaSheet2 —— 基础用法
  • vscode中设置默认格式化工具pretter
  • 【图像处理】数据集合集!
  • 【软考网工笔记】计算机基础理论与安全——网络安全
  • 借助提示词工程,解锁高效应用开发之道
  • 计算机网络--UDP和TCP课后习题
  • 限时特惠,香港服务器,低至53元/年
  • 数据结构漫游记:初识栈(stack)
  • 探秘 AI Agent 之 Coze 智能体:从简介到搭建全攻略(4/30)