当前位置: 首页 > article >正文

利用Python爬虫爬取豆瓣电影排名信息

可以使用第三方库Beautiful Soup和Requests来编写一个简单的爬虫,从豆瓣电影Top100页面获取信息

import requests
from bs4 import BeautifulSoup


def get_douban_top100():
    url = 'https://movie.douban.com/top250'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}

    response = requests.get(url, headers=headers)

    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        movies = soup.find_all('div', class_='item')

        for movie in movies:
            title = movie.find('span', class_='title').get_text()
            ranking = movie.find('em').get_text()
            rating = movie.find('span', class_='rating_num').get_text()
            theme = movie.find('span', class_='inq').get_text()
            print(f'{ranking}. {title} - 评分: {rating} - 主题:{theme}')

    else:
        print('Failed to retrieve the page.')


if __name__ == '__main__':
    get_douban_top100()

这段代码发送一个HTTP请求获取豆瓣电影Top250的页面,然后使用Beautiful Soup解析HTML内容提取电影信息,包括电影名称、排名、评分和电影主题。请注意,这只是一个简单的例子,实际的爬虫可能需要处理更多的异常情况和反爬虫策略,以确保爬取的可靠性和合法性。

1. 肖申克的救赎 - 评分: 9.7 - 主题:希望让人自由。
2. 霸王别姬 - 评分: 9.6 - 主题:风华绝代。
3. 阿甘正传 - 评分: 9.5 - 主题:一部美国近现代史。
4. 泰坦尼克号 - 评分: 9.5 - 主题:失去的才是永恒的。 
5. 这个杀手不太冷 - 评分: 9.4 - 主题:怪蜀黍和小萝莉不得不说的故事。
6. 千与千寻 - 评分: 9.4 - 主题:最好的宫崎骏,最好的久石让。 
7. 美丽人生 - 评分: 9.5 - 主题:最美的谎言。
8. 星际穿越 - 评分: 9.4 - 主题:爱是一种力量,让我们超越时空感知它的存在。
9. 盗梦空间 - 评分: 9.4 - 主题:诺兰给了我们一场无法盗取的梦。
10. 辛德勒的名单 - 评分: 9.5 - 主题:拯救一个人,就是拯救整个世界。
11. 楚门的世界 - 评分: 9.4 - 主题:如果再也不能见到你,祝你早安,午安,晚安。
12. 忠犬八公的故事 - 评分: 9.4 - 主题:永远都不能忘记你所爱的人。
13. 海上钢琴师 - 评分: 9.3 - 主题:每个人都要走一条自己坚定了的路,就算是粉身碎骨。 
14. 三傻大闹宝莱坞 - 评分: 9.2 - 主题:英俊版憨豆,高情商版谢耳朵。
15. 放牛班的春天 - 评分: 9.3 - 主题:天籁一般的童声,是最接近上帝的存在。 
16. 机器人总动员 - 评分: 9.3 - 主题:小瓦力,大人生。
17. 疯狂动物城 - 评分: 9.2 - 主题:迪士尼给我们营造的乌托邦就是这样,永远善良勇敢,永远出乎意料。
18. 无间道 - 评分: 9.3 - 主题:香港电影史上永不过时的杰作。
19. 控方证人 - 评分: 9.6 - 主题:比利·怀德满分作品。
20. 大话西游之大圣娶亲 - 评分: 9.2 - 主题:一生所爱。
21. 熔炉 - 评分: 9.4 - 主题:我们一路奋战不是为了改变世界,而是为了不让世界改变我们。
22. 教父 - 评分: 9.3 - 主题:千万不要记恨你的对手,这样会让你失去理智。
23. 触不可及 - 评分: 9.3 - 主题:满满温情的高雅喜剧。
24. 当幸福来敲门 - 评分: 9.2 - 主题:平民励志片。 
25. 末代皇帝 - 评分: 9.3 - 主题:“不要跟我比惨,我比你更惨”再适合这部电影不过了。



http://www.kler.cn/a/154680.html

相关文章:

  • Electron 沙盒模式与预加载脚本:保障桌面应用安全的关键机制
  • springboot004基于springboot004网页时装购物系统(源码+包运行+LW+技术指导)
  • 0 -vscode搭建python环境教程参考(windows)
  • 『VUE』27. 透传属性与inheritAttrs(详细图文注释)
  • Flutter:input输入框
  • 深入探索 TypeScript:从基础到高级特性
  • 阶段三:Web开发(如何部署和优化Web应用)
  • 传纸条(算法题)
  • 开关电源的电感选择和布局布线
  • 面试--各种场景问题总结
  • 图论|684.冗余连接 685. 冗余连接 II
  • c语言练习13周(6~10)
  • 汇编语言实现音乐播放器
  • 计算机网络——传输层
  • 实用工具网站合集值得收藏![搜嗖工具箱]
  • CAPL通过在函数内改变全局变量的值
  • 【MySQL】-日志系统
  • Charles下载安装及配置之Mac
  • 计算机导论——第37章 磁盘驱动器
  • 2022年高校大数据挑战赛A题工业机械设备故障预测求解全过程论文及程序
  • Python程序员入门指南:学习时间和方法
  • OpenCV-Python:计算机视觉框架
  • 交换综合实验
  • Redis hash表源码解析
  • 物联网开发(一)新版Onenet 基础配置
  • Hdoop学习笔记(HDP)-Part.16 安装HBase