当前位置: 首页 > article >正文

python 爬虫抓取百度热搜

实现思路:

第1步、在百度热搜页获取热搜元素

元素类名为category-wrap_iQLoo 即我们只需要获取类名category-wrap_为前缀的元素

第2步、编写python脚本实现爬虫

import requests
from bs4 import BeautifulSoup

url = 'https://top.baidu.com/board?tab=realtime'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
hot_searches = []
# 使用CSS选择器匹配类名前缀为'category-wrap_'的元素
category_wrap_prefix_elements = soup.select('[class^="category-wrap_"]')
# 遍历并打印这些元素
for element in category_wrap_prefix_elements:
    title = element.find('div', class_='c-single-text-ellipsis').get_text().strip()
    link = element.find('a')['href']
    print(title, link)
    hot_searches.append({title, link})
print(hot_searches)

控制台打印


http://www.kler.cn/news/362676.html

相关文章:

  • TMGM平台可靠么?交易是否安全?
  • DPDK如何提高网络性能
  • MongoDB Shell 基本命令(三)生成学生脚本信息和简单查询
  • [云] 创建 Docker 镜像,将其推送到 Amazon Elastic Container Registry (ECR),并对已部署的应用程序进行负载测试
  • 【KEIL那些事 4】CMSIS缺失!!!!导致不能编译!!!!软件自带芯片下载缓慢!!!!!!快速下载芯片包!!!!!
  • Safari 中 filter: blur() 高斯模糊引发的性能问题及解决方案
  • 什么是机器人流量?如何识别和预防有害机器人流量?
  • 企业数字化转型的战略指南:物联网与微服务架构的深度融合及应用解析
  • 单片机运行死机快速排查方式记录
  • 小程序无法获取头像昵称以及手机号码
  • DDD重构-实体与限界上下文重构
  • 人工智能的未来:变革生活与工作的新篇章
  • UV灯 VS LED灯,LED美甲灯是紫外线灯吗?
  • 网站漏扫:守护网络安全的关键防线
  • 【Go语言】Gin框架的简单基本文档
  • MFC工控项目实例二十四模拟量校正值输入
  • 深入探索ReentrantLock(一):入门与实战应用
  • Vim:从入门到精通
  • sprint-test和junit的区别
  • [实时计算flink]数据摄入YAML作业快速入门
  • Linux-基础命令及相关知识2
  • 当AI直播和抖音搬砖小程序变现项目相互碰撞,会擦出什么样的火花?
  • vue将table转换为pdf导出
  • python基础综合案例(数据可视化—折线图可视化)
  • 重构长方法之分解条件表达式
  • 网站内容怎样快速被百度收录和排名?