当前位置: 首页 > article >正文

火语言RPA--网址/图片地址获取

🚩【组件功能】:根据配置获取源HTML代码中a标签、img标签内的链接或图片地址

配置预览

alt 网址/图片地址获取

配置说明

源HTML文本 支持T或# 默认FLOW输入项

提取处理的对象,若为空,以上一个组件的输出做为源HTML文本,支持文本或表达式输入。

提取方式

支持“自动识别、通配符参数组合、正则匹配”3种提取方式。

提取规则 支持T或#

使用[参数]代表最终所需的指定结果字符串,用指定结果字符串的前后字符来定位参数。若前后字符串中包含可能变化的字符串,使用通配符[*]替代。

拼接地址 支持T或#

[参数1] [参数2] [参数N]等参数中对应的值是按照提取规则中的[参数]的位置顺序来匹配。

匹配正则 支持T或#

使用正则表达式匹配最终所需的指定结果字符串,匹配的内容用分组模式匹配,以便对匹配结果进行分组组合。

组合结果 支持T或#

$1、$2、$N替代正则分组来组合匹配结果。

网址补全

支持“不补全、相对网址补全、base href补全”3种方式。

当前源码URL 支持T或#

填写源HTML文本所属页面URL,用于分析自动补全网址所需的网址前缀。

base href地址 支持T或#

填写base href地址。

忽略大小写

在执行提取方式时,通过此项确定是否忽略大小写。

示例

base href补全

描述

通过http请求组件获取https://www.huoyuyan.com/help/demo-pages/spider/demo.html的源码html,自动识别网址并以base href补全,base href地址:https://www.huoyuyan.com/help/demo-pages/spider/demo.html

配置

alt 网址/图片地址获取

输出结果

alt 网址/图片地址获取

通配符参数组合

描述

通过http请求组件获取https://www.huoyuyan.com/help/demo-pages/spider/demo.html的源码html,以“通配符参数组合”方式获取网址且不补全,提取规则:img src=".[参数]",拼接地址:[参数1]

配置

alt 网址/图片地址获取

输出结果

因为未补全,所以获取的是源码中的地址

alt 网址/图片地址获取


http://www.kler.cn/a/539404.html

相关文章:

  • 数字电路-基础逻辑门实验
  • 【redis】数据类型之list
  • 轻松理解CSS中的float浮动元素
  • k8s部署elasticsearch
  • CodeGPT + IDEA + DeepSeek,在IDEA中引入DeepSeek实现AI智能开发
  • 【大数据技术】Spark分布式实现词频统计(hadoop+python+spark)
  • 生成式聊天机器人 -- 基于Pytorch + Global Attention + 双向 GRU 实现的SeqToSeq模型 -- 上
  • CodeReview-checkList-Java版
  • GOland的context的使用
  • MYSQL 创建索引
  • 集成学习(二):从理论到实战(附代码)
  • CSGHub高效管理|解锁DeepSeek R1蒸馏模型 :高效推理的新选择
  • 【stm32学习】STM32F103实操primary2(FlyMCU)
  • 【图像处理】- 基本图像操作
  • Linux网络之http协议
  • Docker安装pypiserver私服
  • Jupyter Notebook 6/7 设置代码补全
  • Windows图形界面(GUI)-QT-C/C++ - QT 文本编辑控件详解
  • 旋转位置编码(RoPE)讲解和代码实现
  • < OS 有关 > Ubuntu 版本升级 实践 24.04 -> 24.10, 安装 .NET
  • Ranger 2.1.0 Admin安装
  • 处理数据及其选择关键列进行一次聚类
  • 【前端基础】深入解析JavaScript中的编译原理、内存管理、垃圾回收机制和正则表达式
  • 深度学习中的Checkpoint是什么?
  • 软件工程与土木工程的不同
  • uniapp访问django目录中的图片和视频,2025[最新]中间件访问方式