Cave:Java: 规则表达一些概念

星期三, 十一月 07, 2012

规则表达一些概念

正则表达式中的贪婪(greedy)、勉强(reluctant)和侵占(possessive)

贪婪(greedy)

一般默认情况下，正则的量词是贪婪的，也就是“尽可能多地匹配”，符号通常是：* + ? {num,num}
举个例子说，比如"a+"这个正则，对于"aaaaaab"这个字符串，它就会匹配到6个a，这是最常见的情况

勉强(reluctant)[也叫懒惰(lazy)]

勉强与贪婪正好是相对的，它“尽可能少地匹配”，它会用最小的努力，去完成（应付）正则的匹配要求，所以很懒。符号是贪婪量词后面加上问号：*? +? ?? {num,num}?
回到前面的那个例子，如果正则换成了“勉强”的，"a+?"，对于目标字符串还是"aaaaaab"，那么这个正则就只会匹配一个a，因为"+"量词的意思是“一个或一个以上”，匹配一个a就能满足要求，它就不再去尝试了（不像贪婪的"a+"那样，不遗余力将所有符合要求的都匹配了）

“勉强”的量词在实际的使用中也是比较常见的，例如引号配对之类的问题，例如有这么一个字符串，"A says, 'bb'."，想要用正则将单引号里面的bb匹配出来，可以用正则'.*'，这种情况下默认的贪婪量词也是能适用的，但如果这个字符串变成了 "A says, 'bb', and C says, 'ddddd'."，如果还是用'.*'，由于贪婪，它匹配到的并不是你想要的'bb', and C says, 'ddddd'，中间的.（点元字符）代表任何字符，当然也包括单引号，所以'.*'会将两个单引号中间的所有内容都匹配，不管是不是含有单引号。显然这不是我们想要的结果。如果用“勉强”的量词，'.*?'，加一个问号，那么它就会尽最小的能力去完成，只要下一个字符是单引号，.*?就停止尝试，结果它就只会匹配'bb'，不会将后面的, and ....那些都纳进来。

侵占(possessive)

这个用得很少，侵占量词在很多语言的正则中都没有被支持，它的符号是在贪婪量词后面加上一个加号：*+ ++ ?+ {num,num}+
侵占量词有个特点，它前面的子表达式作为一个整体，不记录回溯点（关于回溯方面的问题，建议你去看一看《精通正则表达式》这本书，讲得比较详细），通常是可以利用这个特点，对正则的匹配效率进行优化。其实它是和固化分组等价的，不支持侵占量词的语言中可以用固化分组的形式来代替。固化分组的写法：(?>)
有个例子可以帮助理解侵占量词的特点，但这个例子并不实用：
对于字符串"abbbbbbc"，如果用普通的（贪婪）正则"a.*c"来匹配的话，它可以匹配整个字符串，因为.*可以匹配任何数量的任何字符，它是可以匹配bbbbbbc的，但它会发现正则后面还有一个c需要匹配，否则不能匹配成功，所以.*就“退回”一个字符c，使得整个正则能够成功匹配（回溯），所以贪婪即使是“贪”，它还是会顾全大局，退回一些必要的字符。
换侵占量词就不同了，"a.*+c"是一个侵占式的，它并不能成功匹配，因为.*+太霸道，占着最后的那个c不肯放回（不回溯），所以a.*+前面就已经匹配了整个字符串abbbbbbc，a.*+正则后面的c发现没有字符可以匹配了，前面的又不肯吐出一个来，所以整个正则以匹配失败结束。（这个"a.*+c"可以用固化分组改写成："a(?>.*)c"）

Cave:Java

星期三, 十一月 07, 2012

规则表达一些概念

博客归档

我的简介