regexp学习笔记

regex常用匹配规则

模式	描述
\w	匹配字母、数字及下划线
\W	匹配不是字母、数字及下划线
\s	匹配任意空白字符，等价于[\t\n\r\f]
\S	匹配任意非空白字符
\d	匹配任意数字，等价于[0-9]
\D	匹配任意非数字字符
\A	匹配字符串开头
\Z	匹配字符串结尾，如果存在换行，只匹配换行前的结束字符串
\z	匹配字符串结尾，如果存在换行，同时匹配换行符
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表位
^	匹配一行字符的开头
$	匹配一行字符串的结尾
.	匹配任意字符，除了换行符，当re.DOTALL被指定时可以匹配换行符
[…]	用来表示一组字符，单独列出，比如[amk]匹配a、m或k
[^…]	不在[]中的字符，如[^a]匹配除了a之外的字符
*	匹配0个或多个表达式
+	匹配1个或多个表达式
?	匹配0个或一个前面的正则表达式定义的片段（非贪婪方式）
{n}	匹配n个前面的表达式
{n,m}	匹配n到m次由前面正则表达式定义的片段（贪婪方式）
a\|b	匹配a或者b
( )	匹配括号内的表达式，也表示一个组

re库的常用方法

match()

从字符串起始位置匹配正则表达式，如果匹配，就返回匹配成功的结果，如果不匹配，就返回None

示例：

import re 
content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match(r'^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
#使用正则表达式时记得在字符串前面加r，以免出错
print(result)
print(result.group())#输出匹配内容
print(result.span())#输出匹配的范围

常用修饰符：

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别(local-aware)匹配
re.M	多行匹配，影响^和$
re.S	使.匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。(影响\w、\W,\b和\B)
re.X	该标志通过给予你更灵活的格式以便你将regex写得更易于理解

search()

匹配时扫描整个字符串，然后返回第一个成功匹配的结果，即正则表达式可以是字符串的一部分，不必从头开始匹配。

由于绝大多数html文本都包含换行符，匹配时尽量都加上re.S修饰符
findall()

该方法会搜索整个字符串，然后返回匹配正则表达式的所有内容

sub()

可由于修改文本

示例：

import re
content = 'sjdowo23-958utuo0eut'
content = re.sub('\d+',content)#除去文本中的数字
print(content)

compile()

该方法可以将正则字符串编译成正则表达式对象，以便在后面的匹配中复用。

示例：

import re
content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')#匹配时间
#使用compile方法将正则表达式编译成一个正则表达对象
result1 = re.sub(pattern,'',content1)
result2 = re.sub(pattern,'',content2)
result3 = re.sub(pattern,'',content3)
print(result1,result2,result3,sep='\n')