Python爬虫 | 爬取豆瓣电影Top250的数据
简单记录一下,实现爬取豆瓣电影Top 250的数据。
这里我使用requests
库来发送HTTP请求,以及BeautifulSoup
库来解析HTML页面。
1.安装requests
和BeautifulSoup
库。
如果没有安装,可以通过以下命令安装:
pip install requests beautifulsoup4
2.具体实现代码
import requests
from bs4 import BeautifulSoup
# 豆瓣电影Top 250的URL
base_url = "https://movie.douban.com/top250"
# 存储电影信息的列表
movies = []
# 豆瓣电影Top 250有10页,每页25部电影
for i in range(10):
# 构造每一页的URL
url = f"{base_url}{i * 25}"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有电影的容器
items = soup.find_all('div', class_='item')
for item in items:
# 电影名
title = item.find('span', class_='title').get_text()
# 评分
rating_num = item.find('span', class_='rating_num').get_text()
# 评价人数
rating_people = item.find('div', class_='star').find_all('span')[-1].get_text().strip('人评价')
# 将电影信息存储为字典
movie = {
'title': title,
'rating_num': rating_num,
'rating_people': rating_people
}
movies.append(movie)
# 打印电影信息
for movie in movies:
print(f"电影名: {movie['title']}, 评分: {movie['rating_num']}, 评价人数: {movie['rating_people']}")
3.注意事项
请遵守豆瓣的使用条款和条件,不要过度请求豆瓣的服务器,以免给豆瓣造成不必要的负担。