JavaScript正则表达式的分组匹配详解
分组
下面的正则表达式可以匹配kidkidkid:
/kidkidkid/
而另一种更优雅的写法是:
/(kid){3}/
这里由圆括号包裹的一个小整体称为分组。
候选
一个分组中,可以有多个候选表达式,用|分隔:
varreg=/Ilove(him|her|it)/; reg.test('Ilovehim')//true reg.test('Iloveher')//true reg.test('Iloveit')//true reg.test('Ilovethem')//false
这里的|相当于“或”的意思。
捕获与引用
被正则表达式匹配(捕获)到的字符串会被暂存起来。其中,由分组捕获的串会从1开始编号,于是我们可以引用这些串:
varreg=/(\d{4})-(\d{2})-(\d{2})/ vardate='2010-04-12' reg.test(date) RegExp.$1//2010 RegExp.$2//04 RegExp.$3//12
$1引用了第一个被捕获的串,$2是第二个,依次类推。
与replace配合
String.prototype.replace方法的传参中可以直接引用被捕获的串。比如我们想将日期12.21/2012改为2012-12-21:
varreg=/(\d{2}).(\d{2})\/(\d{4})/ vardate='12.21/2012' date=date.replace(reg,'$3-$1-$2')//date=2012-12-21
顺道一提,给replace传迭代函数,有时能优雅地解决一些问题。
将违禁词转换为等字数的星号是一个常见功能。比如文本是kidisadoubi,其中kid与doubi是违禁词,那么转换后应该为***isa*****。我们可以这么写:
varreg=/(kid|doubi)/g varstr='kidisadoubi' str=str.replace(reg,function(word){ returnword.replace(/./g,'*') })
嵌套分组的捕获
如果碰到类似/((kid)is(a(doubi)))/的嵌套分组,捕获的顺序是什么?来试试:
varreg=/((kid)is(a(doubi)))/ varstr="kidisadoubi" reg.test(str)//true RegExp.$1//kidisadoubi RegExp.$2//kid RegExp.$3//adoubi RegExp.$4//doubi
规则是以左括号出现的顺序进行捕获。
反向引用
正则表达式里也能进行引用,这称为反向引用:
varreg=/(\w{3})is\1/ reg.test('kidiskid')//true reg.test('dikisdik')//true reg.test('kidisdik')//false reg.test('dikiskid')//false
\1引用了第一个被分组所捕获的串,换言之,表达式是动态决定的。
注意,如果编号越界了,则会被当成普通的表达式:
varreg=/(\w{3})is\6/; reg.test('kidiskid');//false reg.test('kidis\6');//true
分组的类型
分组有四种类型:
捕获型-()
非捕获型-(?:)
正向前瞻型-(?=)
反向前瞻型-(?!)
我们之前说的都是捕获型分组,只有这种分组会暂存匹配到的串。
非捕获型分组
有时候,我们只是想分个组,而没有捕获的需求,则可以使用非捕获型分组,语法为左括号后紧跟?::
varreg=/(?:\d{4})-(\d{2})-(\d{2})/ vardate='2012-12-21' reg.test(date) RegExp.$1//12 RegExp.$2//21
这个例子中,(?:\d{4})分组不会捕获任何串,所以$1为(\d{2})捕获的串。
正向与反向前瞻型分组
就好像你站在原地,向前眺望:
正向前瞻型分组-你前方是什么东西吗?
负向前瞻型分组-你前方不是什么东西吗?
太拗口了,我喜欢称之为肯定表达式与否定表达式。先举个正向前瞻的例子:
varreg=/kidisa(?=doubi)/ reg.test('kidisadoubi')//true reg.test('kidisashabi')//false
kidisa后面跟着什么?如果是doubi才能匹配成功。
而负向前瞻则刚好相反:
varreg=/kidisa(?!doubi)/ reg.test('kidisadoubi')//false reg.test('kidisashabi')//true
如果前瞻型分组也不会捕获值。那么它与非捕获型的区别是什么?看例子:
varreg,str="kidisadoubi" reg=/(kidisa(?:doubi))/ reg.test(str) RegExp.$1//kidisadoubi reg=/(kidisa(?=doubi))/ reg.test(str) RegExp.$1//kisisa
可见,非捕获型分组匹配到的串,仍会被外层的捕获型分组捕获到,但前瞻型却不会。当你需要参考后面的值,又不想连它一起捕获时,前瞻型分组就派上用场了。
最后,JS不支持后瞻型分组。