当前位置：首页 > article >正文

python 爬虫抓取百度热搜

article 2024/10/24 7:16:45

实现思路：

第1步、在百度热搜页获取热搜元素

元素类名为category-wrap_iQLoo 即我们只需要获取类名category-wrap_为前缀的元素

第2步、编写python脚本实现爬虫

import requests
from bs4 import BeautifulSoup

url = 'https://top.baidu.com/board?tab=realtime'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
hot_searches = []
# 使用CSS选择器匹配类名前缀为'category-wrap_'的元素
category_wrap_prefix_elements = soup.select('[class^="category-wrap_"]')
# 遍历并打印这些元素
for element in category_wrap_prefix_elements:
    title = element.find('div', class_='c-single-text-ellipsis').get_text().strip()
    link = element.find('a')['href']
    print(title, link)
    hot_searches.append({title, link})
print(hot_searches)

控制台打印

http://www.kler.cn/news/362676.html

相关文章：

TMGM平台可靠么？交易是否安全？

DPDK如何提高网络性能

MongoDB Shell 基本命令(三）生成学生脚本信息和简单查询

[云] 创建 Docker 镜像，将其推送到 Amazon Elastic Container Registry (ECR)，并对已部署的应用程序进行负载测试

【KEIL那些事 4】CMSIS缺失！！！！导致不能编译！！！！软件自带芯片下载缓慢！！！！！！快速下载芯片包！！！！！

Safari 中 filter: blur() 高斯模糊引发的性能问题及解决方案

什么是机器人流量？如何识别和预防有害机器人流量？

企业数字化转型的战略指南：物联网与微服务架构的深度融合及应用解析

单片机运行死机快速排查方式记录

小程序无法获取头像昵称以及手机号码

DDD重构-实体与限界上下文重构

人工智能的未来：变革生活与工作的新篇章

UV灯 VS LED灯，LED美甲灯是紫外线灯吗？

网站漏扫：守护网络安全的关键防线

【Go语言】Gin框架的简单基本文档

MFC工控项目实例二十四模拟量校正值输入

深入探索ReentrantLock(一)：入门与实战应用

Vim：从入门到精通

sprint-test和junit的区别

[实时计算flink]数据摄入YAML作业快速入门

Linux-基础命令及相关知识2

当AI直播和抖音搬砖小程序变现项目相互碰撞，会擦出什么样的火花？

vue将table转换为pdf导出

python基础综合案例（数据可视化—折线图可视化）

重构长方法之分解条件表达式

网站内容怎样快速被百度收录和排名?