regexp

regexp学习笔记

regex常用匹配规则

模式 描述
\w 匹配字母、数字及下划线
\W 匹配不是字母、数字及下划线
\s 匹配任意空白字符,等价于[\t\n\r\f]
\S 匹配任意非空白字符
\d 匹配任意数字,等价于[0-9]
\D 匹配任意非数字字符
\A 匹配字符串开头
\Z 匹配字符串结尾,如果存在换行,只匹配换行前的结束字符串
\z 匹配字符串结尾,如果存在换行,同时匹配换行符
\G 匹配最后匹配完成的位置
\n 匹配一个换行符
\t 匹配一个制表位
^ 匹配一行字符的开头
$ 匹配一行字符串的结尾
. 匹配任意字符,除了换行符,当re.DOTALL被指定时可以匹配换行符
[…] 用来表示一组字符,单独列出,比如[amk]匹配a、m或k
[^…] 不在[]中的字符,如[^a]匹配除了a之外的字符
* 匹配0个或多个表达式
+ 匹配1个或多个表达式
? 匹配0个或一个前面的正则表达式定义的片段(非贪婪方式
{n} 匹配n个前面的表达式
{n,m} 匹配n到m次由前面正则表达式定义的片段(贪婪方式
a|b 匹配a或者b
( ) 匹配括号内的表达式,也表示一个组

re库的常用方法

  • match()

    从字符串起始位置匹配正则表达式,如果匹配,就返回匹配成功的结果,如果不匹配,就返回None

    示例:

    1
    2
    3
    4
    5
    6
    7
    8
    import re 
    content = 'Hello 123 4567 World_This is a Regex Demo'
    print(len(content))
    result = re.match(r'^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
    #使用正则表达式时记得在字符串前面加r,以免出错
    print(result)
    print(result.group())#输出匹配内容
    print(result.span())#输出匹配的范围

    常用修饰符:

    修饰符 描述
    re.I 使匹配对大小写不敏感
    re.L 做本地化识别(local-aware)匹配
    re.M 多行匹配,影响^和$
    re.S 使.匹配包括换行在内的所有字符
    re.U 根据Unicode字符集解析字符。(影响\w、\W,\b和\B)
    re.X 该标志通过给予你更灵活的格式以便你将regex写得更易于理解
  • search()

    匹配时扫描整个字符串,然后返回第一个成功匹配的结果,即正则表达式可以是字符串的一部分,不必从头开始匹配。

    由于绝大多数html文本都包含换行符,匹配时尽量都加上re.S修饰符

  • findall()

    该方法会搜索整个字符串,然后返回匹配正则表达式的所有内容

  • sub()

    可由于修改文本

    示例:

    1
    2
    3
    4
    import re
    content = 'sjdowo23-958utuo0eut'
    content = re.sub('\d+',content)#除去文本中的数字
    print(content)
  • compile()

    该方法可以将正则字符串编译成正则表达式对象,以便在后面的匹配中复用。

    示例:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    import re
    content1 = '2016-12-15 12:00'
    content2 = '2016-12-17 12:55'
    content3 = '2016-12-22 13:21'
    pattern = re.compile('\d{2}:\d{2}')#匹配时间
    #使用compile方法将正则表达式编译成一个正则表达对象
    result1 = re.sub(pattern,'',content1)
    result2 = re.sub(pattern,'',content2)
    result3 = re.sub(pattern,'',content3)
    print(result1,result2,result3,sep='\n')