正则表达式
介绍
正则表达式(regular expression),常简写为regex,用简单字符串来描述、匹配文中全部匹配指定格式的字符串。人话讲就是根据一些规则制定一个字符串,然后你可以用这个字符串来筛选满足规则的字符串。许多程序设计语言都支持用正则表达式操作字符串,这里主要介绍正则表达式在Java中的运用。
不同编程语言的正则表达式引擎有所不同,这里提供一个链接,里面详细介绍了不同语言对各种特性的支持程度。
快速使用
先说明一下\
的使用。
在Java普通字符串中,反斜杠\
本身就是转义字符,比如\n
被转义为”换行符”,又比如\\
被转义为\
。而正则表达式也有自己的语法,它也使用反斜杠作为转义字符,比如\d
表示“匹配一个数字”。
那么二者结合起来呢🧐。以"\\d"
为例。编译器看到字符串"\\d"
会根据字符串规则将其转换为两个字符,一个\
,一个d
。接下来正则表达式引擎会对其进行解析,最终生效的正则模式就是\d
。可以这样理解:正则表达式需要 \d
来匹配数字。但在Java字符串里,一个 \
需要写成 \\
。所以,要把正则的 \d
放到Java字符串里,就变成了 \\d
。
到底需不需要两个\\
,idea会给你答案。
java.util.regex
包是Java标准库中用于支持正则表达式操作的包,主要涉及到Pattern
和Matcher
这两个类的操作。这里有个简单的例子:
1 | String pattern = "java\\d"; |
先调用Pattern
类的静态方法compile
(参数为正则表达式)生成一个实例对象,通过调用该对象的matcher
方法(参数为待匹配文本)生成一个Matcher
实例。接下来就有很多方法供你选择,这里我调用的是matches
方法来输出布尔值,在例子中体现为字符串Java后面能否匹配上数字。Matcher
类里还有个find
方法也很常见,下文会提到。
匹配规则详解
简单匹配
为方便演示,接下来的示例代码使用String
类的matches
方法,该方法底层原理仍然是Pattern
和Matcher
这两个类的使用,后面有详细说明。下面示例参考廖雪峰和菜鸟教程。
匹配任意字符:.
可以匹配除\r\n
之外的任何单个字符。如a.c
可以匹配abc
但不能匹配abbc
和ac
匹配数字:\d
匹配 0~9 的数字,同样只匹配一个字符。匹配非数字:\D
匹配非数字。
匹配常用字符:\w
可以匹配一个字母、数字或下划线
匹配空格字符:\s
可以匹配任何空白字符,包括空格、制表符、换页符等。与[\f\n\r\t\v]
等效。\W
和\S
和\D
同样是反着来的。
重复匹配:
*
可以匹配任意个字符,包括0个字符。
+
可以匹配至少一个字符。比如A\d+
可以匹配A11111
和A0
。但不能匹配A
,因为至少一个字符。
?
可以匹配0个或一个字符。
如果想精确指定n个字符,使用{n}
,比如A\d{3}
可以匹配到A123
。指定匹配n~m个字符,用{n,m}
, 例如A\d{3,5}
可以精确匹配A123
A1234
A12345
。{n,}
表示可以匹配至少n个字符。m和n为非负整数,其中n <= m。再举一个例子:o{2}
和Bob中的一个o不匹配,而匹配food中的两个o。不同表达式可能是等效的,比如o{0,1}
和o?
来个综合点的例子:假如电话号码规则如下:34位数字表示区位,78位数字表示电话,中间用-
连接。答案:\\d{3,4}-\\d{7,8}
。对于连字符-
,一般情况下只是一个普通字符,不需要进行转义,当然写上两个反斜杠也是对的,idea会给出提示移除多余的反斜杠。
1 | String pattern = "\\d{3,4}-\\d{7,8}";//不知道需不需要写\?idea会给你的答案 |
复杂匹配:
匹配开头和结尾:^
匹配输入字符串开始的位置,$
匹配输入字符串结束的位置。他们俩的作用是将匹配过程限制在整个字符串上,避免了在子串中成功匹配的情况。其实matches()
方法的行为已经隐含了^...$
锚点的效果,而find()
方法则没有。matches方法尝试将整个输入序列与模式匹配,而find方法会在输入序列中查找下一个与模式匹配的子序列。仔细品味这两个方法的名字,你也许会理解。
匹配指定范围:[xyz]
匹配包含的任一字符,比如[abc]
匹配plain
中的 a。[a-z]
匹配 a 到 z 范围内的任何小写字母。[^a-z]
匹配任何不在 a 到 z 范围内的字符,取补集的意思,和前面的\b
,\B
类似。[0-9]
和[A-Z]
同样理解。
如果要匹配6位十六进制数,可以这样写:[0-9a-fA-F]{6}
或规则匹配:AB|CD
表示可以匹配 AB 或 CD。(z|f)ood
匹配 zood 或 food,当然这个正则表达式也可以写成[zf]ood
。
**分组匹配:**字面意思,通过()将表达式分组处理,可以配合Matcher
类的group
方法使用。
1 | Pattern p = Pattern.compile("(\\d{3,4})\\-(\\d{7,8})"); |
非贪婪匹配:
1 | Pattern pattern = Pattern.compile("(\\d+)(0*)"); |
观察这个例子,第二个输出空字符串,输出没问题,因为\d+
可以匹配到后面的数字。正则表达式默认使用贪婪匹配,以\d+
为例,后面有多少数字就匹配多少(只要连续),这样0*
就匹配到空字符串。如果想让\d+
少匹配,可以写成(\\d+?)(0*)
,?
表示非贪婪匹配,这样输出就变成了"123" "0000"
。
不能简单的把非贪婪匹配认为最少匹配,觉得输出应该是1
和230000
。非贪婪匹配是在保证后面表达式都能匹配上的前提下尽量少匹配。引擎保证的是整体成功优先,我认为可以是一种平衡吧,这里不做过多解释,因为更深层的原理我也不懂。
这里的?
和前面提到的?
不一样。(\d??)(9*)
,\d?
表示匹配0个或1个数字,后面的?
表示非贪婪匹配。如果给定字符串"9999"
,匹配到的两个子串分别为""
"9999"
实战演练
**匹配邮箱:**这里假设字符@前可以出现数字、英文字母、下划线和中划线,字符@后是域名格式,长度不限。
先分析邮箱名称部分,只能出现数字、英文字母和下划线、中划线,那么可以这样写[0-9a-zA-Z_-]
,也可以选择\w
,这里我选择第二种。又因为不止一个字符,所以加个+
。变成\w+
然后分析域名部分,域名一般是weixin.qq.com
这种类型,也就是**.**.**
。可以以第一个英文句点为分界线将其拆解为两部分。一部分是**
一部分是.**
的复制粘贴。第一部分依然可以这样写\w+
,一个.**
这样写\.\w+
,多个.**
这样写(.\w+)+
。
经过分析,答案就是\w+@\w+(.\w+)+
,放到java中,需要写成\\w+@\\w+(.\\w+)+
,还是那句话:到底需不需要写反斜杠,idea会给你答案。
如果你在浏览器搜索“正则表达式邮箱匹配”,你可能会得到很多答案,当你不确定时,多去尝试。
拓展
Matcher
类除了提到的matches
方法和find
方法,还有start``replaceAll
等,可以点击链接了解更多。这里我想介绍一下Pattern
和Matcher
这两个类出现的其他地方,比如上文提到的String.matches()
方法。
为什么说String.matches()
方法底层原理仍然是Pattern
和Matcher
这两个类的使用。ctrl+鼠标左键点开方法源码即可发现:
1 | public boolean matches(String regex) { |
发现调用的是Pattern
类的静态方法matches
,同时传进去两个参数,一个正则表达式,一个待匹配字符串。接着点进去matches方法
1 | public static boolean matches(String regex, CharSequence input) { |
然后就会发现这跟之前的示例代码没啥两样,只是compile
和matcher
这两个方法的参数不再是字符串常量,而是传进来的参数regex
和input
。
再说一个例子,就是String.split()
方法。简单说一下:这个方法最终调用的是String
类的private String[] split(String regex, int limit, boolean withDelimiters) {...}
这个方法,可以看到传进去一个正则表达式作为参数,这个方法的最后几行代码是这样的
1 | Pattern pattern = Pattern.compile(regex); |
根据参数withDelimiters
的布尔值来确定调用对象pattern的哪个方法,其实这两个方法最终调用的还是一个方法,兜兜转转还是回到了Pattern
类和Matcher
类。
这篇博客就到这里,错误不可避免,欢迎指正。我会持续更新,欢迎收藏我的网站。
参考文章: