当前位置：首页 > article >正文

Python (十八) 正则表达式

article 2025/4/2 4:36:42

程序员的公众号：源1024，获取更多资料，无加密无套路！

最近整理了一份大厂面试资料《史上最全大厂面试题》，Springboot、微服务、算法、数据结构、Zookeeper、Mybatis、Dubbo、linux、Kafka、Elasticsearch、数据库等等
获取方式: 关注公众号并回复 666 领取，更多内容持续奉上

正则

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

re 模块使 Python 语言拥有全部的正则表达式功能。

re.match

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match() 就返回 none。

语法

re.match(pattern, string, flags=0)

参数

pattern：匹配的正则表达式
string ：要匹配的字符串。
flags ：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等

import re
#span()  返回匹配的起始和结束位置
print(re.match('com','com.cn').span())
print(re.match('cn','com.cn'))

#输出
(0, 3)
None

re.search

re.search 扫描整个字符串并返回第一个成功的匹配。

语法

re.search(pattern, string, flags=0)

参数

pattern：匹配的正则表达式
string：要匹配的字符串。
flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

print(re.search('com','com.cn').span())
print(re.search('cn','com.cn').span())

#输出
(0, 3)
(4, 6)

注意：re.match、re.search区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；

re.search匹配整个字符串，直到找到一个匹配。

re.sub

替换字符串中的匹配项

语法

re.sub(pattern, repl, string, count=0, flags=0)

参数

pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

str = "abc-string-sadf-waer-sdfa"
str1 = re.sub('a','A',str)
print(str1)

#最多替换两次
str2 = re.sub('a','A',str,2)
print(str2)


#输出
str1: Abc-string-sAdf-wAer-sdfA
str2: Abc-string-sAdf-waer-sdfa

re.compile

ompile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

语法

re.compile(pattern[, flags])

参数

pattern : 一个字符串形式的正则表达式
flags : 可选，表示匹配模式，比如忽略大小写，多行模式等
具体参数为

re.I	忽略大小写
re.L	表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M	多行模式
re.S	即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
re.U	表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X	为了增加可读性，忽略空格和 # 后面的注释

匹配对象方法

group(num=0) ：匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。

groups() ：返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I) 
print(pattern.match('Hel lo World'))
print(pattern.match('Hel lo World').group(0))
print(pattern.match('Hel lo World').groups())

#输出
<re.Match object; span=(0, 6), match='Hel lo'>
Hel lo
('Hel', 'lo')

findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果有多个匹配模式，则返回元组列表，如果没有找到匹配的，则返回空列表。

语法

findall(string[, pos[, endpos]])

参数

string : 待匹配的字符串。
pos : 可选参数，指定字符串的起始位置，默认为 0。
endpos : 可选参数，指定字符串的结束位置，默认为字符串的长度。

pattern = re.compile(r'\d+')
r1 = pattern.findall('hello 123 world 456!')
r2 = pattern.findall('hello 123 world 456!', 0, 10)
 
print(r1)
print(r2)

#输出
['123', '456']
['123']

re.finditer

在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

语法

re.finditer(pattern, string, flags=0)

参数

pattern：匹配的正则表达式
string：要匹配的字符串。
flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等

iter = re.finditer(r"\d+","he1r33 45j6h7b8b9") 
for match in iter: 
    print (match.group())

#输出
1
33
45
6
7
8
9

re.split

按照能够匹配的子串将字符串分割后返回列表

语法

re.split(pattern, string[, maxsplit=0, flags=0])

参数

pattern：匹配的正则表达式
string ：要匹配的字符串。
maxsplit：分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。
flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等

print(re.split('\W+', 'runoob, runoob, runoob.'))

#输出
['runoob', 'runoob', 'runoob', '']

^	匹配字符串的开头
$	匹配字符串的末尾
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0个或多个的表达式
re+	匹配1个或多个的表达式
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}	精确匹配 n 个前面表达式。例如， o{2} 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的两个 o。
re{ n,}	匹配 n 个前面表达式
a \| b	匹配a或b
(re)	对正则表达式分组并记住匹配的文本
(?imx)	正则表达式包含三种可选标志：i, m, 或 x
\w	匹配字母数字及下划线
\W	匹配非字母数字及下划线
\s	匹配任意空白字符，等价于 [ \t\n\r\f]
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9]
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
\z	匹配字符串结束
\G	匹配最后匹配完成的位置
\b	匹配一个单词边界，也就是指单词和空格间的位置
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'
\10	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。