当前位置：首页 > article >正文

正则表达式使用举例一（Python下）

article 2024/10/27 11:29:11

1 问题描述

有下面所述的字符串，

’ 你好左,QTZ(Ap^max)，右边’
‘左边描述，QT2(xx1/xx2^ out^ on)QT2(xx2/xx2^out)，右边描述’
‘左边描述，%QT2(xx1/xx2 ^ out^ on)QT2(xx2/xx2^out)，右边描述’

问题1：编写代码将上面三种情况的字符串中的“QTZ(Ap^max)”、“QT2(xx1/xx2 ^ out^ on)QT2(xx2/xx2^out)”、“%QT2(xx1/xx2 ^ out ^ on)QT2(xx2/xx2 ^out)”查询匹配出来？
问题2：写代码，将上面字符串分别分成三部分，第一部分是要匹配的字符串的左边部分子字符串，第二部分是问题1要匹配的字符串，第三部分是要匹配的字符串的右边部分子字符串。

2 解决

2.1 问题1的解决

在Python语言环境下，写如下的字符串表达式：

r"%?QT\w\(.*\)"

上面字符串表达式的含义解释如下：

r是Python语言中的机制，表示后面所跟的字符串保持原样，亦即Python中的转义字符机制不发生作用；
%，表示匹配该字符；
?，表示其前面的字符%可以出现1次，也可以出现0次（不出现）；
QT，原样匹配；
\w，是正则表达式中预先定义的字符类¹，表示匹配一个字母字符或数字字符，等价于[a-zA-Z0-9]；
\(，表示匹配一个(，因为(在正则表达式中是元字符，启指令作用，所以要匹配字符(需要正则表达式中的转义字符\；
.，表示匹配任何一个字符；
*，表示对前面出现的一个字符重复多次；
\)，与\(同义。

上面所写的正则表达式刚好能匹配小节1里面的三种情况的字符串中要匹配的子字符串，即：“QTZ(Ap^max)”、“QT2(xx1/xx2 ^ out^ on)QT2(xx2/xx2^out)”、“%QT2(xx1/xx2 ^ out ^ on)QT2(xx2/xx2 ^out)”。

在Python语言中，编写解决问题1的代码，并运行，如下：

>>> import re
>>> s = ' 你好左,QTZ(Ap^max)，右边'
>>> s2 = '左边描述，QT2(xx1/xx2^out^on)QT2(xx2/xx2^out)，右边描述'
>>> s3 = '左边描述，%QT2(xx1/xx2^out^on)QT2(xx2/xx2^out)，右边描述'
>>> pat = re.compile(r"%?QT\w\(.*\)")
>>> pat.search(s)
<re.Match object; span=(5, 16), match='QTZ(Ap^max)'>
>>> pat.search(s2)
<re.Match object; span=(5, 40), match='QT2(xx1/xx2^out^on)QT2(xx2/xx2^out)'>
>>> pat.search(s3)
<re.Match object; span=(5, 41), match='%QT2(xx1/xx2^out^on)QT2(xx2/xx2^out)'>
>>>

从上面代码的运行结果可以看出，Python中re的正则表达式匹配默认启用贪婪模式（greedy），因为能匹配出'QT2(xx1/xx2^out^on)QT2(xx2/xx2^out)'。如果是非贪婪模式的话，则能匹配出两个结果'QT2(xx1/xx2^out^on)'和'QT2(xx2/xx2^out)'。

2.2 问题2的解决

以问题小节中描述的第三个字符串为例，从中提取出三部分代码如下：

>>> s3 = '左边描述，%QT2(xx1/xx2^out^on)QT2(xx2/xx2^out)，右边描述'
>>> pat = re.compile(r"%?QT\w\(.*\)")
>>> searchResult = pat.search(s3)
>>> m,n = searchResult.span()
>>> m
5
>>> n
41
>>> s3[0:m]
'左边描述，'
>>> s3[m:n]
'%QT2(xx1/xx2^out^on)QT2(xx2/xx2^out)'
>>> s3[n:]
'，右边描述'
>>>