正则表达式
1. 定义和作用
- 正则表达式是什么?
- 正则表达式有什么用?
- 检测某个字符串是否符合规则.比如:判断手机号,身份证号是否合法
- 提取网页字符串中想要的数据.比如:爬虫中,提取网站天气,信息,股票代码,星座运势等具体关键字
- 在线测试工具 http://tool.chinaz.com/regex/
2. 正则表达式所包含的元素种类
- 正则表达式由一些 [普通字符] 和一些 [元字符] 组成:
- (1)普通字符包括大小写字母和数字
- (2)元字符具有特殊含义,大体种类分为如下:
- 预定义字符集,字符组
- 量词
- 边界符
- 分组
(一) 匹配单个字符 => [元字符] 预定义字符集
预定义字符集 | 匹配内容 |
---|
. | 匹配任意字符,除了换行符\n |
\d | 匹配数字 |
\D | 匹配非数字 |
\w | 匹配字母或数字或下划线 (正则函数中,支持中文的匹配) |
\W | 匹配非字母或数字或下划线 |
\s | 匹配任意的空白符 |
\S | 匹配任意非空白符 |
\n | 匹配一个换行符 |
\t | 匹配一个制表符 |
[] | 匹配中括号内列举的字符 |
字符组格式 | 说明 [默认必须从字符组中选一个] |
---|
[...] | 匹配字符组中的字符 |
[^...] | 匹配除了字符组内所有内容,之外的所有字符 |
字符组内容 | 待匹配字符 | 匹配结果 | 说明 |
---|
[0123456789] | 8 | True | 字符组里枚举的各种字符,必须满足一个,否则返回假,不匹配 |
[abcdefg] | 9 | False | 由于字符组中没有"9"字符,所以不匹配 |
[0-9] | 7 | True | 可用 - 表示范围,[0-9] 和 [0123456789] 是一个意思 |
[a-z] | s | True | [a-z] 匹配所有的小写字母 |
[A-Z] | B | True | [A-Z] 就表示所有的大写字母 |
[0-9a-fA-F] | e | True | 可以匹配数字,大小写形式的a-f . 该正则可验证十六进制 |
import re
"""lst = re.findall(正则表达式,字符串)"""
strvar = "sdjfklj234&*(&1"
lst = re.findall("\d",strvar)
print(lst)
strvar = "YWERsdf78_&"
lst = re.findall("\D",strvar)
print(lst)
strvar = "sadf234_^&*%$^$%你好"
lst = re.findall("\w",strvar)
print(lst)
strvar = "sadf234_^&*%$^$%你好"
lst = re.findall("\W",strvar)
print(lst)
strvar = " \r "
lst = re.findall("\s",strvar)
print(lst)
strvar = " \r 123_*("
lst = re.findall("\S",strvar)
print(lst)
strvar = """
今天国庆假期结束了,兄弟们满载 而归,玩的 很困,尽 快调 整.
"""
lst = re.findall(r"\n",strvar)
print(lst)
lst = re.findall(r"\t",strvar)
print(lst)
print(re.findall('a[abc]b','aab abb acb adb'))
print(re.findall('a[0123456789]b','a1b a2b a3b acb ayb'))
print(re.findall('a[0-9]b','a1b a2b a3b acb ayb'))
print(re.findall('a[abcdefg]b','a1b a2b a3b acb ayb adb'))
print(re.findall('a[a-g]b','a1b a2b a3b acb ayb adb'))
print(re.findall('a[a-z]b','a1b a2b a3b acb ayb adb'))
print(re.findall('a[ABCDEFG]b','a1b a2b a3b aAb aDb aYb'))
print(re.findall('a[A-G]b','a1b a2b a3b aAb aDb aYb'))
print(re.findall('a[A-Z]b','a1b a2b a3b aAb aDb aYb'))
print(re.findall('a[A-z]b','a1b a2b a3b acb ayb adb a[b'))
print(re.findall('a[a-zA-Z0-9]b','a1b a2b a3b acb ayb adb a[b'))
print(re.findall('a[0-9a-zA-Z]b','a-b aab aAb aWb aqba1b'))
print(re.findall('a[0-9][*#/]b','a1/b a2b a29b a56b a456b'))
print(re.findall('a[^-+*/]b',"a%b ccaa*bda&bd"))
lst = re.findall(r"a[\^\-\\]c","a^c a-c a\c")
print(lst)
print(lst[-1])
strvar = r"a\b"
lst = re.findall(r"a\\b",strvar)
print(lst[0])
(二) 匹配多个字符 => [元字符] 量词符号
量词 | 用法说明 |
---|
? | 重复0次或1次 |
+ | 重复1次或多次 (至少1次) |
* | 重复0次或多次 (任意次) |
{n} | 重复n次 |
{n,} | 重复n次或更多次 (至少n次) |
{n,m} | 重复n到m次 |
.* .+ | 贪婪模式匹配 |
.*? .+? | 非贪婪模式匹配 |
- 贪婪匹配: 默认向更多次数匹配 (底层用的是回溯算法)
- 非贪婪匹配: 默认向更少次数匹配 (量词的后面加?号)
- (1)量词(
* ? + {}
)加上问号?
表示非贪婪 惰性匹配 - (2)例:
.*?w
表示匹配任意长度任意字符遇到一个w
就立即停止
import re
'''1) ? 匹配0个或者1个a '''
print(re.findall('a?b','abbzab abb aab'))
'''2) + 匹配1个或者多个a '''
print(re.findall('a+b','b ab aaaaaab abb'))
'''3) * 匹配0个或者多个a '''
print(re.findall('a*b','b ab aaaaaab abbbbbbb'))
'''4) {m,n} 匹配m个至n个a '''
print(re.findall('a{1,3}b','aaab ab aab abbb aaz aabb'))
print(re.findall('a{2}b','aaab ab aab abbb aaz aabb'))
print(re.findall('a{2,}b','aaab ab aab abbb aaz aabb'))
"""
贪婪匹配 : 默认向更多次匹配 (回溯算法)
非贪婪匹配: 默认向更少次匹配 (配合?号使用)
回溯算法 : 从左向右进行匹配,直到找到最后一个,再也没有了,回头,返回上一个找到的内容
. 除了\n,匹配所有字符
非贪婪写法: 量词 + ?
"""
strvar = "刘能和刘老根和刘罗锅111子222子"
lst = re.findall("刘.",strvar)
print(lst)
lst = re.findall("刘.?",strvar)
print(lst)
lst = re.findall("刘.+",strvar)
print(lst)
lst = re.findall("刘.*",strvar)
print(lst)
lst = re.findall("刘.{1,20}",strvar)
print(lst)
lst = re.findall("刘.*子",strvar)
print(lst)
lst = re.findall("刘.??",strvar)
print(lst)
lst = re.findall("刘.+?",strvar)
print(lst)
lst = re.findall("刘.*?",strvar)
print(lst)
lst = re.findall("刘.{1,20}?",strvar)
print(lst)
lst = re.findall("刘.*?子",strvar)
print(lst)
(三) 匹配开头结尾 => [元字符] 边界符号
边界符 | 说明 |
---|
\b | 匹配一个字符的边界 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结尾 |
"""
\b 本身是转义字符 退格,退到光标上一位
\b 在正则中还有边界符的意思
"word"
卡主左边界:\bw
卡主右边界:d\b
"""
strvar = "word old fuck"
lst = re.findall(r"d\b",strvar)
lst = re.findall(r".*d\b",strvar)
lst = re.findall(r".*?d\b",strvar)
print(lst)
lst = re.findall(r"\bw",strvar)
lst = re.findall(r"\bw.*",strvar)
lst = re.findall(r"\bw.*?",strvar)
lst = re.findall(r"\bw.*? ",strvar)
lst = re.findall(r"\bw\S*",strvar)
"""
^ 写在在字符串的开头,表达必须以某个字符开头
$ 写在在字符串的结尾,表达必须以某个字符结尾
当使用了^ $ 代表要把该字符串看成一个整体
"""
strvar = "大哥大嫂大爷"
print(re.findall('大.',strvar))
print(re.findall('^大.',strvar))
print(re.findall('大.$',strvar))
print(re.findall('^大.$',strvar))
print(re.findall('^大.*?$',strvar))
print(re.findall('^大.*?大$',strvar))
print(re.findall('^大.*?爷$',strvar))
print(re.findall('^g.*? ' , 'giveme 1gfive gay'))
print(re.findall('five$' , 'aassfive'))
print(re.findall('^giveme$' , 'giveme'))
print(re.findall('^giveme$' , 'giveme giveme'))
print(re.findall('giveme' , 'giveme giveme'))
print(re.findall("^g.*e",'giveme 1gfive gay'))
(四) 匹配分组 => [元字符] 分组符号
分组 | 用法说明 |
---|
a|b | 匹配字符a 或 字符b (如果两个当中有重合部分,把更长的那个放前面) |
(ab) | 匹配括号内的表达式 ,将()作为一个分组 |
\num | 引用分组num匹配到的字符串 |
(?P<name>) | 给分组命名 |
(?P=name) | 引用别名: 把name分组所匹配到的内容引用到这里 |
- 分组
-
正常分组()
a. 正常情况下用()
圆括号进行分组 可以用 \1
反向引用第一个圆括号匹配的内容。
b. (?:正则表达式)
表示取消优先显示的功能
(正则表达式)
代表分组 findall 把所有分组的内容显示到列表里
(?:正则表达式)
代表分组 findall 把所有分组的内容不显示到列表里
-
命名分组
c. (?P<组名>正则表达式)
给这个组起一个名字
d. (?P=组名)
引用之前组的名字,把该组名匹配到的内容放到当前位置
import re
print(re.findall('.*?_good','wusir_good alex_good secret男_good'))
print(re.findall('(.*?)_good','wusir_good alex_good secret男_good'))
print(re.findall('(?:.*?)_good','wusir_good alex_good secret男_good'))
strvar = "abceab"
lst = re.findall("a|b",strvar)
print(lst)
strvar = "abcdeabc234f"
lst = re.findall("abcd|abc",strvar)
print(lst)
"""
. 可以匹配任意的字符,除了\n
\. 对.进行转义,表达.这个字符本身.
"""
strvar = "3.... ....4 .3 ...3 1.3 9.89 10"
lst = re.findall(r"\d+\.\d+",strvar)
print(lst)
lst = re.findall(r"\d+\.\d+|\d+",strvar)
print(lst)
'''findall优先显示括号里的内容,需要加上?:取消优先显示,按照匹配到的内容显示'''
lst = re.findall(r"\d+(?:\.\d+)?",strvar)
print(lst)
strvar = "13566668888 17366669999 17135178392"
lst = re.findall(r"(?:135|171)\d{8}",strvar)
print(lst)
strvar = "13566668888"
lst = re.findall(r"^(?:135|171)\d{8}$",strvar)
print(lst)
obj = re.search(r"^(135|171)\d{8}$",strvar)
print(obj)
print(obj.group())
print(obj.groups())
"""
findall : 从左到右,匹配出所有的内容,返回到列表
问题是: 匹配到的字符串和分组的内容不能同时显示;
search : 从左到右,匹配到一组内容就直接返回,返回的是对象
优点是: 可以让匹配到的内容和分组里的内容同时显示;
匹配不到内容时,返回的是None
obj.group() : 获取匹配到的内容
obj.groups(): 获取分组里面的内容
"""
strvar = "www.baidu.com www.google.com www.taobao.com"
lst = re.findall(r"(?:www)\.(?:baidu|google)\.(?:com)",strvar)
print(lst)
strvar = "www.baidu.com www.google.com www.taobao.com"
obj = re.search(r"(www)\.(baidu|google)\.(com)",strvar)
print(obj)
print(obj.group())
print(obj.groups())
print(obj.group(1))
print(obj.group(2))
print(obj.group(3))
strvar = "5*6-7/3"
obj = re.search(r"\d+[*/]\d+",strvar)
res1 = obj.group()
print(res1 , type(res1))
a,b = res1.split("*")
res2 = int(a) * int(b)
print(res2)
strvar = strvar.replace(res1,str(res2))
print(strvar)
命名分组与反向引用
import re
strvar = "<div>明天又要休息了</div>"
obj = re.search("<(.*?)>(.*?)<(.*?)>",strvar)
print(obj)
res1 = obj.group()
print(res1)
res2 = obj.groups()
print(res2)
obj = re.search(r"<(.*?)>(.*?)</\1>",strvar)
print(obj)
print(obj.group())
print(obj.groups())
strvar = " z3d4pzd a1b2cab "
obj = re.search(r"(.*?)\d(.*?)\d(.*?)\1\2",strvar)
print(obj)
print(obj.group())
print(obj.groups())
"""
(?P<组名>正则表达式) 给这个组起一个名字
(?P=组名) 引用之前组的名字,把该组名匹配到的内容放到当前位置
"""
strvar = " z3d4pzd a1b2cab "
obj = re.search(r"(?P<tag1>.*?)\d(?P<tag2>.*?)\d(?P<tag3>.*?)\1\2",strvar)
print(obj)
print(obj.group())
strvar = " z3d4pzd a1b2cab "
obj = re.search(r"(?P<tag1>.*?)\d(?P<tag2>.*?)\d(?P<tag3>.*?)(?P=tag1)(?P=tag2)",strvar)
print(obj)
print(obj.group())
(五) 正则表达式修饰符
compile
函数处使用
常用修饰符 | 说明 |
---|
re.I | 使匹配对大小写不敏感 |
re.M | 使每一行都能够单独匹配(多行匹配),影响 ^ 和 $ |
re.S | 使 . 匹配包括换行在内的所有字符 |
3. 正则函数
1. findall
匹配字符串中相应内容,返回列表
"""用法: findall("正则表达式","要匹配的字符串")"""
2. search
通过正则匹配出第一个对象返回,通过group
取出对象中的值
import re
strvar = "3+4 6*4"
obj = re.search(r"(\d+[+*]\d+)",strvar)
print(obj)
print(obj.group())
print(obj.groups())
3. match
验证用户输入内容 (了解)
"""search在正则表达式的前面加上^ 等价于 match ,其他用法上一模一样"""
strvar = "a17366668888"
strvar = "17366668888"
obj = re.search(r"\d+",strvar)
obj = re.match(r"\d+",strvar)
obj = re.search(r"^\d+",strvar)
print(obj.group())
4. split
切割 ***
strvar = "alex|wusir_xboyww@risky"
lst = re.split("[|_@]",strvar)
print(lst)
strvar = "alex2341273894wusir234234xboyww11111risky"
lst = re.split("\d+",strvar)
print(lst)
5. sub
替换 ***
strvar = "alex|wusir_xboyww@risky"
"""
strvar = strvar.replace("|","&").replace("_","&").replace("@","&")
print(strvar) # alex&wusir&xboyww&risky
"""
res = re.sub("[|_@]","&",strvar)
res = re.sub("[|_@]","&",strvar,1)
print(res)
6. subn
替换 (用法上与sub相同,只是返回值不同)
res = re.subn("[|_@]","&",strvar)
res = re.subn("[|_@]","&",strvar,2)
print(res)
7. finditer
匹配字符串中相应内容,返回迭代器
"""返回的是迭代器,迭代器中包含了对象 对象.group来获取匹配到的值"""
from collections import Iterator, Iterable
strvar = "sdf23647fdgdfg()*()*23423423"
it = re.finditer("\d+",strvar)
print(isinstance(it,Iterator))
for obj in it:
print(obj.group())
8. compile
指定一个统一的匹配规则
"""
正常情况下,正则表达式编译一次,执行一次
为了避免反复编译,节省时间空间,可以使用compile统一规则
编译一次,终身受益
"""
strvar = "asdfs234sdf234"
pattern = re.compile("\d+")
obj = pattern.search(strvar)
print(obj.group())
lst = pattern.findall(strvar)
print(lst)
使用修饰符
strvar = "<h1>大标题</H1>"
pattern = re.compile("<h1>(.*?)</h1>" , flags=re.I)
obj = pattern.search(strvar)
print(obj.group())
"""单行独立匹配,而不是整体匹配"""
strvar = """
<p>111</p>
<a>222</a>
<strong>333</strong>
"""
pattern = re.compile("^<.*?>(?:.*?)<.*?>$" , flags=re.M)
lst = pattern.findall(strvar)
print(lst)
strvar = """
give
sdfsdfmefive
"""
pattern = re.compile(".*?mefive" , flags = re.S|re.I|re.M )
obj = pattern.search(strvar)
print(obj.group())