当前位置：首页 > article >正文

火语言RPA--网址/图片地址获取

article 2025/2/10 15:11:55

🚩【组件功能】：根据配置获取源HTML代码中a标签、img标签内的链接或图片地址

配置预览

alt 网址/图片地址获取

配置说明

源HTML文本支持T或# 默认FLOW输入项

提取处理的对象，若为空，以上一个组件的输出做为源HTML文本，支持文本或表达式输入。

提取方式

支持“自动识别、通配符参数组合、正则匹配”3种提取方式。

提取规则支持T或#

使用[参数]代表最终所需的指定结果字符串，用指定结果字符串的前后字符来定位参数。若前后字符串中包含可能变化的字符串，使用通配符[*]替代。

拼接地址支持T或#

[参数1] [参数2] [参数N]等参数中对应的值是按照提取规则中的[参数]的位置顺序来匹配。

匹配正则支持T或#

使用正则表达式匹配最终所需的指定结果字符串，匹配的内容用分组模式匹配，以便对匹配结果进行分组组合。

组合结果支持T或#

用$1、$2、$N替代正则分组来组合匹配结果。

网址补全

支持“不补全、相对网址补全、base href补全”3种方式。

当前源码URL 支持T或#

填写源HTML文本所属页面URL,用于分析自动补全网址所需的网址前缀。

base href地址支持T或#

填写base href地址。

忽略大小写

在执行提取方式时，通过此项确定是否忽略大小写。

示例

base href补全

描述

通过http请求组件获取https://www.huoyuyan.com/help/demo-pages/spider/demo.html的源码html，自动识别网址并以base href补全，base href地址：https://www.huoyuyan.com/help/demo-pages/spider/demo.html。

配置

alt 网址/图片地址获取

输出结果

alt 网址/图片地址获取

通配符参数组合

描述

通过http请求组件获取https://www.huoyuyan.com/help/demo-pages/spider/demo.html的源码html，以“通配符参数组合”方式获取网址且不补全，提取规则：img src=".[参数]"，拼接地址：[参数1]

配置

alt 网址/图片地址获取

输出结果

因为未补全，所以获取的是源码中的地址

alt 网址/图片地址获取

查看全文

http://www.kler.cn/a/539404.html

CodeGPT + IDEA + DeepSeek，在IDEA中引入DeepSeek实现AI智能开发

【大数据技术】Spark分布式实现词频统计（hadoop+python+spark）

生成式聊天机器人 -- 基于Pytorch + Global Attention + 双向 GRU 实现的SeqToSeq模型 -- 上

CodeReview-checkList-Java版

GOland的context的使用

MYSQL 创建索引

集成学习（二）：从理论到实战(附代码)

CSGHub高效管理｜解锁DeepSeek R1蒸馏模型：高效推理的新选择

【stm32学习】STM32F103实操primary2（FlyMCU）

【图像处理】- 基本图像操作

Linux网络之http协议

Docker安装pypiserver私服

Jupyter Notebook 6/7 设置代码补全

Windows图形界面(GUI)-QT-C/C++ - QT 文本编辑控件详解

旋转位置编码(RoPE)讲解和代码实现

＜ OS 有关＞ Ubuntu 版本升级实践 24.04 -＞ 24.10，安装 .NET

Ranger 2.1.0 Admin安装

处理数据及其选择关键列进行一次聚类

【前端基础】深入解析JavaScript中的编译原理、内存管理、垃圾回收机制和正则表达式

深度学习中的Checkpoint是什么？

软件工程与土木工程的不同

uniapp访问django目录中的图片和视频,2025[最新]中间件访问方式

配置预览

配置说明

源HTML文本 支持T或# 默认FLOW输入项

提取方式

提取规则 支持T或#

拼接地址 支持T或#

匹配正则 支持T或#

组合结果 支持T或#

网址补全

当前源码URL 支持T或#

base href地址 支持T或#

忽略大小写

示例

base href补全

描述

配置

输出结果

通配符参数组合

描述

配置

输出结果

相关文章：

源HTML文本支持T或# 默认FLOW输入项

提取规则支持T或#

拼接地址支持T或#

匹配正则支持T或#

组合结果支持T或#

base href地址支持T或#