当前位置: 首页 > article >正文

lxml 解析xml\html

from lxml import etree

# XML文档示例
xml_doc = """
<root>
    <book>
        <title>Python编程指南</title>
        <author>张三</author>
    </book>
    <book>
        <title>Python高级编程</title>
        <author>李四</author>
    </book>
</root>
"""

# 创建ElementTree对象并解析XML文档
root = etree.fromstring(xml_doc)

# 使用XPath定位元素并打印内容
books = root.xpath('//book')
for book in books:
    title = book.xpath('title/text()')[0]
    author = book.xpath('author/text()')[0]
    print(f"书名:{title},作者:{author}")

# HTML文档示例
html_doc = """
<html>
<body>
    <h1>标题</h1>
    <p>段落1</p>
    <p>段落2</p>
</body>
</html>
"""

# 创建HTML解析器并解析HTML文档
parser = etree.HTMLParser()
root = etree.fromstring(html_doc, parser)

# 遍历HTML元素并打印内容
for element in root.iter():
    print(element.tag, element.text)

 

from lxml import html
import requests
 
# 发送HTTP请求获取网页内容
response = requests.get('https://example.com')
html_content = response.content
 
# 使用lxml解析HTML内容并提取信息
tree = html.fromstring(html_content)
title = tree.xpath('//title/text()')[0]
paragraphs = tree.xpath('//p/text()')
print('标题:', title)
print('段落:')
for p in paragraphs:
    print(p)


http://www.kler.cn/a/453169.html

相关文章:

  • NLP 中文拼写检测纠正论文 C-LLM Learn to CSC Errors Character by Character
  • 【星海随笔】删除ceph
  • python通过正则匹配SQL
  • 观察者模式和发布-订阅模式有什么异同?它们在哪些情况下会被使用?
  • 选择FPGA开发,学历是硬性要求吗?
  • Spring常见面试题总结
  • Day50 图论part01
  • Virtualbox硬盘扩容
  • python爬虫----爬取视频实战
  • <数据集>风力发电机损伤识别数据集<目标检测>
  • 基于 LMS 算法的离散傅里叶分析器
  • 2024年12月26日Github流行趋势
  • 以太坊的演变:二层扩容的无限潜力和一键多链
  • 2023 年 12 月青少年软编等考 C 语言四级真题解析
  • git--批量修改本地用户名和邮箱
  • ovirt-engine登录报错
  • Lazydocker:高效便捷的Docker管理工具
  • Linux编程中的性能优化方法和工具
  • 精准识别花生豆:基于EfficientNetB0的深度学习检测与分类项目
  • @RequestParam和@PathVariable的解释与区别
  • 从自动驾驶到具身智能漫谈
  • 正则表达式(三剑客之sed)
  • HarmonyOS NEXT 实战之元服务:静态案例效果---每日玩机技巧
  • 跨境电商培训:云手机的新舞台
  • 某车之家appso层签名逆向
  • 2024楚慧杯WP