一文掌握python中正则表达式的各种使用
文章目录
-
- 1. 正则表达式基础
-
- 1.1 常用元字符
- 1.2 基本用法
- 2. 正则表达式高级功能
-
- 2.1 分组捕获
- 2.2 命名分组
- 2.3 非贪婪匹配
- 2.4 零宽断言
- 2.5 编译正则表达式
- 2.6 转义字符
- 3. 常见应用场景
-
- 3.1 验证邮箱格式
- 3.2 提取 URL
- 3.3 提取日期
- 3.4 提取HTML中的链接
- 3.5 提取HTML中的图片链接
- 3.6 提取JSON中的特定字段
- 4. 总结
在Python爬虫中,
正则表达式
(
Regular Expression,简称Regex
)是一种强大的工具,用于从文本中提取、匹配和替换特定的字符串模式。正则表达式可以帮助我们从HTML、JSON等格式的文本中提取所需的数据。
1. 正则表达式基础
1.1 常用元字符
正则表达式由一系列字符和特殊符号组成,用于定义匹配模式。以下是一些常用的正则表达式元字符:
.
匹配任意字符(除了换行符 \n)^
匹配字符串的开头$
匹配字符串的结尾*
匹配前面的字符 0 次或多次+
匹配前面的字符 1 次或多次?
匹配前面的字符 0 次或 1 次{n}
匹配前面的字符恰好 n 次{n,}
匹配前面的字符至少 n 次{n,m}
匹配前面的字符至少 n 次,至多 m 次\d
匹配数字(等价于 [0-9])\D