当前位置: 首页 > article >正文

在python爬虫中xpath方式提取lxml.etree._ElementUnicodeResult转化为字符串str类型

简单提取网页中的数据时发现的

当通过xpath方式提取出需要的数据的text文本后想要转为字符串,但出现lxml.etree._ElementUnicodeResult的数据类型不能序列化,在网上查找到很多说是编码问题Unicode编码然后解码什么的;有些是(导入的xml库而不是lmxl库)[https://blog.51cto.com/u_16213415/11531934],后来在(一个博文)[https://www.cnblogs.com/biyeee/p/9429392.html]中,作者直接把数据转为浮点flaot型的数据,那么直接强制转换为string应该也是没问题的。

代码中可以看出

import requests

import json
from lxml import etree

# from jsonpath import jsonpath
url = ''   # 需要写入自己的url
headers = {
"user-agent":""   ##填写自己的浏览器代理
 }
ret = requests.get(url,headers=headers)

rel_html = etree.HTML(ret.text)
# print(ret.text)
# 选择合适的xpath条件
end = rel_html.xpath('//*[@id="userSkin"]/div[1]/div[2]/div[1]/div/div[2]/div[2]/ul/li[4]/a/div[1]/text()')
print(end)      
print(type(end[0]))
xml_str = str(end[0])
print(xml_str.replace(',',''))


在这里插入图片描述

xpath中的语法导致最终获取对象不同

一个是标签节点,一个是节点下的文本,导致最终结果的数据类型不同
在这里插入图片描述


http://www.kler.cn/a/314328.html

相关文章:

  • 嵌入式硬件实战提升篇(一)-泰山派RK3566制作多功能小手机
  • 前缀和技巧解析
  • 云运维基础
  • StructuredStreaming (一)
  • 844.比较含退格的字符串
  • 01:(手撸HAL+CubeMX)时钟篇
  • RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
  • 演示jvm锁存在的问题
  • Java集合(三)
  • Centos7安装chrome的问题
  • WebApi开发中依赖注入和RESTful 详解
  • OceanBase 的并发简述笔记
  • Navicate 链接Oracle 提示 Oracle Library is not loaded ,账号密码都正确地址端口也对
  • 【变化检测】基于ChangeStar建筑物(LEVIR-CD)变化检测实战及ONNX推理
  • php变量赋值javascipt变量
  • 13.面试算法-字符串常见算法题(二)
  • 【论文阅读】3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
  • 人工智能与机器学习原理精解【25】
  • 【电路笔记】-运算放大器积分器
  • 数模方法论-整数规划
  • Python类及元类的创建流程
  • C#进阶-基于雪花算法的订单号设计与实现
  • [Python数据可视化] Plotly:交互式数据可视化的强大工具
  • 15.9 grafana-deployment-yaml讲解
  • 掌上高考爬虫逆向分析
  • [Python数据可视化]探讨数据可视化的实际应用:三个案例分析