当前位置: 首页 > article >正文

Python如何从HTML提取img标签下的src属性

目录

  • 前提准备
  • 步骤
    • 1. 解析HTML内容
    • 2. 查找所有的`img`标签
    • 3. 提取`src`属性
  • 完整代码

请添加图片描述

前提准备

在处理网页数据时,我们经常需要从HTML中提取特定的信息,比如图片的URL。
这通常通过获取img标签的src属性来实现。

在开始之前,你需要确保已经安装了BeautifulSoup

pip install beautifulsoup4

步骤

1. 解析HTML内容

from bs4 import BeautifulSoup # 导入BeautifulSoup库
html_content = """
<html>
<head><title>Test Page</title></head>
<body>
<img src="image1.jpg" alt="Image 1">
<img src="image2.png" alt="Image 2">
</body>
</html>
"""
soup = BeautifulSoup(html_content, 'html.parser') # 使用BeautifulSoup解析HTML内容

2. 查找所有的img标签

使用find_all方法查找所有的img标签。

img_tags = soup.find_all('img')

3. 提取src属性

遍历所有的img标签,并提取它们的src属性。

src_urls = [img['src'] for img in img_tags if img.has_attr('src')]

使用列表推导式来创建一个包含所有src属性值的列表。
img.has_attr('src')确保我们只处理那些实际包含src属性的img标签。


完整代码

from bs4 import BeautifulSoup

html_content = """
<html>
<head><title>Test Page</title></head>
<body>
<img src="image1.jpg" alt="Image 1">
<img src="image2.png" alt="Image 2">
</body>
</html>
"""

# 解析HTML内容
soup = BeautifulSoup(html_content, 'html.parser')

# 查找所有的img标签
img_tags = soup.find_all('img')

# 提取src属性
src_urls = [img['src'] for img in img_tags if img.has_attr('src')]

# 打印结果
print(src_urls)

运行这段代码,你将得到一个包含所有图片URL的列表,例如:['image1.jpg', 'image2.png']
请添加图片描述


http://www.kler.cn/a/391821.html

相关文章:

  • 【软件工程】一篇入门UML建模图(类图)
  • nginx配置负载均衡详解
  • Unity3D实现视频和模型融合效果
  • 【 ElementUI 组件Steps 步骤条使用新手详细教程】
  • 数据结构与算法-前缀和数组
  • 【金融风控】特征评估与筛选详解
  • 太速科技-440-基于XCVU440的多核处理器多输入芯片验证板卡
  • uniapp使用uni-tooltip自定义多行
  • hive中数据的粒度级别有哪些?
  • 视频智能分析平台LiteAIServer算法定制未戴安全帽检测技术:智能安防领域的新篇章
  • 2024最新版JavaScript逆向爬虫教程-------基础篇之面向对象
  • AI养宠:如何重塑宠物照护的未来
  • vue+vite前端项目ci过程中遇到的问题
  • 为什么你总是被割韭菜?揭秘币圈五大操控手段,教你如何避开“割韭菜”陷阱
  • 算力100问☞第1问:算力为什么重要?
  • JavaScript面向对象笔记(4)
  • 【LeetCode】每日一题 2024_11_12 统计满足 K 约束的子字符串数量 I(滑动窗口)
  • 【JAVA毕业设计】基于Vue和SpringBoot的微服务在线教育系统
  • 什么是 DAPP?它能解决什么问题?
  • pinia-plugin-persistedstate包安装失败解决办法
  • 推动企业数字化转型的三驾马车:DataOps与DevOps、MLOps的关系及其重要性
  • 数字后端教程之Innovus report_property和get_property使用方法及应用案例
  • 关于Flutter空安全升级方案整理
  • 基于Spring Boot的瑜伽馆管理系统设计与实现,LW+源码+讲解
  • Javascript 笔记(二):闭包(2)与map知识点
  • 如何对PHP的API接口权限认证