火语言RPA--网址/图片地址获取
🚩【组件功能】:根据配置获取源HTML代码中a标签、img标签内的链接或图片地址
配置预览
配置说明
源HTML文本 支持T或# 默认FLOW输入项
提取处理的对象,若为空,以上一个组件的输出做为源HTML文本,支持文本或表达式输入。
提取方式
支持“自动识别、通配符参数组合、正则匹配”3种提取方式。
提取规则 支持T或#
使用[参数]
代表最终所需的指定结果字符串,用指定结果字符串的前后字符来定位参数。若前后字符串中包含可能变化的字符串,使用通配符[*]替代。
拼接地址 支持T或#
[参数1]
[参数2]
[参数N]
等参数中对应的值是按照提取规则
中的[参数]的位置顺序来匹配。
匹配正则 支持T或#
使用正则表达式匹配最终所需的指定结果字符串,匹配的内容用分组模式匹配,以便对匹配结果进行分组组合。
组合结果 支持T或#
用$1、$2、$N
替代正则分组来组合匹配结果。
网址补全
支持“不补全、相对网址补全、base href补全”3种方式。
当前源码URL 支持T或#
填写源HTML文本所属页面URL,用于分析自动补全网址所需的网址前缀。
base href地址 支持T或#
填写base href地址。
忽略大小写
在执行提取方式时,通过此项确定是否忽略大小写。
示例
base href补全
描述
通过http请求组件获取https://www.huoyuyan.com/help/demo-pages/spider/demo.html
的源码html,自动识别网址并以base href补全,base href地址:https://www.huoyuyan.com/help/demo-pages/spider/demo.html
。
配置
输出结果
通配符参数组合
描述
通过http请求组件获取https://www.huoyuyan.com/help/demo-pages/spider/demo.html
的源码html,以“通配符参数组合”方式获取网址且不补全,提取规则:img src=".[参数]"
,拼接地址:[参数1]
配置
输出结果
因为未补全,所以获取的是源码中的地址