python3正则模块re的使用方法详解

2023-08-01 18:02:04 430

一、正则

1.正则表达式定义

正则就是用一些具有特殊含义的符号组合到一起（称为正则表达式）来描述字符或者字符串的方法。或者说：正则就是用来描述一类事物的规则。（在Python中）它内嵌在Python中，并通过re模块实现。正则表达式模式被编译成一系列的字节码，然后由用C编写的匹配引擎执行。

2.目的和特点

给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

给定的字符串是否符合正则表达式的过滤逻辑（称作“匹配”）：

可以通过正则表达式，从字符串中获取我们想要的特定部分。

正则表达式的特点是：

灵活性、逻辑性和功能性非常强；

可以迅速地用极简单的方式达到字符串的复杂控制。

由于正则表达式主要应用对象是文本，因此它在各种文本编辑器场合都有应用，小到著名编辑器EditPlus，大到MicrosoftWord、VisualStudio等大型编辑器，都可以使用正则表达式来处理文本内容。

3.常用的正则表达式

4.贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式"ab*“如果用于查找"abbbc”，将找到"abbb"。而如果使用非贪婪的数量词"ab*?"，将找到"a"。

5.反斜杠

与大多数编程语言相同，正则表达式里使用"“作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符”"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\“表示。同样，匹配一个数字的”\d"可以写成r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

二、python3正则模块re

1.match

match(string[,pos[,endpos]])|re.match(pattern,string[,flags]):

Match对象是一次匹配的结果，包含了很多关于此次匹配的信息，可以使用Match提供的可读属性或方法来获取这些信息。

属性：

string:匹配时使用的文本。

re:匹配时使用的Pattern对象。

pos:文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。

endpos:文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。

lastindex:最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None。

lastgroup:最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None。

方法：

group([group1,…])

获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。

groups([default])

以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代，默认为None。

groupdict([default])

返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。

start([group])

返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。

end([group])

返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。

span([group])

返回(start(group),end(group))。

expand(template)

将匹配到的分组代入template中然后返回。template中可以使用\id或\g、\g引用分组，但不能使用编号0。\id与\g是等价的；但\10将被认为是第10个分组，如果你想表达\1之后是字符'0'，只能使用\g<1>0。

importre
ret1=re.match('t.{6}w','taaa333w123')
try:
print('匹配到的数据是：',ret1.group())#匹配的是一个group
except:
print('没有匹配到数据')

2.search

search(string[,pos[,endpos]])|re.search(pattern,string[,flags])

这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern，如果pattern结束时仍可匹配，则返回一个Match对象；若无法匹配，则将pos加1后重新尝试匹配；直到pos=endpos时仍无法匹配则返回None。

pos和endpos的默认值分别为0和len(string))；re.search()无法指定这两个参数，参数flags用于编译pattern时指定匹配模式。

ret5=re.search('^[0-9].*','1hellopython')#^代表以什么开头
print(ret5.group())

3.split,findall,finditer三个方法

split(string[,maxsplit])|re.split(pattern,string[,maxsplit])
findall(string[,pos[,endpos]])|re.findall(pattern,string[,flags])
finditer(string[,pos[,endpos]])|re.finditer(pattern,string[,flags])

split类似string中的split方法，不多解释

findall()方法搜索string，以列表形式返回全部能匹配的子串。实例：

importre
p=re.compile(r'\d+')
print(p.findall('one1two2three3four4'))

输出

['1','2','3','4']

finditer()方法搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。实例：

importre
p=re.compile(r'\d+')
forminp.finditer('one1two2three3four4'):
print(m.group(),)

输出

4.sub

sub(repl,string[,count])|re.sub(pattern,repl,string[,count])

使用repl替换string中每一个匹配的子串后返回替换后的字符串。

当repl是一个字符串时，可以使用\id或\g、\g引用分组，但不能使用编号0。

当repl是一个方法时，这个方法应当只接受一个参数（Match对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。

count用于指定最多替换次数，不指定时全部替换。

importre
p=re.compile(r'(\w+)(\w+)')
s='isay,helloworld!'
print(p.sub(r'\2\1',s))
deffunc(m):
returnm.group(1).title()+''+m.group(2).title()
print(p.sub(func,s))

输出

sayi,worldhello!

更多关于python3正则模块re的使用方法请查看下面的相关链接

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。