当前位置: 首页 > article >正文

11爬虫:使用requests和selenium分别抓取4399网页游戏名称

我们分别通过requests和selenium抓取4399网页中的游戏名称,作为对前面知识的复习。

使用requests抓取

使用lxml.etree方法解析网页数据

import requests
from lxml import etree

url = 'https://www.4399.com/'
response = requests.get(url=url)
response.encoding = 'gb2312' # 设置网页的解码方式

html = etree.HTML(response.text)
names = html.xpath('//ul[@class="tm_list "]/li/a/img/@alt')
print(names)

使用parsel.Selector解析网页数据

import requests
from parsel import Selector

url = 'https://www.4399.com/'
response = requests.get(url=url)
response.encoding = 'gb2312' # 设置网页的解码方式

selector = Selector(text=response.text)
names = selector.xpath('//ul[@class="tm_list "]/li/a/img/@alt').getall() # 返回的是一个列表
for name in names:
    print(name)

使用selenium抓取

# selenium爬取游戏信息
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By

web = Chrome() # 创建浏览器对象
web.get('https://www.4399.com/') # 访问4399网页
lis = web.find_element(By.XPATH,'//*[@id="skinbody"]/div[10]/div[1]/div[1]/ul').text
print(lis)
web.close()

输出的结果


http://www.kler.cn/a/448649.html

相关文章:

  • 砂轮磨料基础知识及发展学习笔记
  • MacOS 命令行详解使用教程
  • 探索 Seaborn Palette 的奥秘:为数据可视化增色添彩
  • Elasticsearch-分词器详解
  • 分布式协同 - 分布式事务_TCC解决方案
  • LabVIEW伸缩臂参数监控系统
  • LeetCode 35. 搜索插入位置 (C++实现)
  • 12.18 web后端开发——数据库
  • 【代码随想录】刷题记录(61)-二叉搜索树中的众数
  • 【Java入门指南 Day12:Java集合框架】
  • PostgreSQL和Postgis安装
  • 正反向代理 Nginx简单使用
  • 麒麟操作系统服务架构保姆级教程(三)ssh远程连接
  • 【从零开始的LeetCode-算法】3285. 找到稳定山的下标
  • LeetCode:1387. 将整数按权重排序(记忆化搜索 Java)
  • 【漏洞复现】CVE-2023-29944 Expression Injection
  • React:闭包陷阱产生和解决
  • 前端面经每日一题Day18
  • 八字精批API接口PHP实现返回json数据
  • GESP CCF C++一级编程等级考试认证真题 2024年12月
  • 银行转账虚拟生成器app银行转账模拟器银行模拟器 手机银行模拟器
  • 【Redis经典面试题六】Redis的持久化机制是怎样的?
  • Anaconda使用手册
  • yolov5 yolov6 yolov7 yolov8 yolov9目标检测、目标分类 目标切割 性能对比
  • 简单介绍一下Linux的常用命令
  • 【docker】列出与特定镜像名相关的镜像