正規表示式之固化分組

2022-03-10 23:18:18 字數 2109 閱讀 1441

用(?>…)實現固化分組(成功匹配後,回簌時不會考慮這個匹配的字元)

具體來說,使用「(?>…)」的匹配與正常的匹配並無差別,但是如果匹配進行到此結構之後(也就是,進行到閉括號之後),那麼此結構體中的所有備用狀態都會被放棄(不能被回溯)

也就是說,在固化分組匹配結束時,它已經匹配的文字已經固化為乙個單元,只能作為整體而保留或放棄。括號內的子表示式中未嘗試過的備用狀態都不復存在了,所以回溯永遠也不能選擇其中的狀態(至少是,當此結構匹配完成時,「鎖定(locked in)」在其中的狀態)。

例子:比如要處理一批資料,原來格式為123.456,後來因為浮點數顯示問題,部分資料格式變為123.456000000789這種,,要求做到只保留小數點後面2-3位,但是,最後一位不能為0,這個正則如何寫呢?(下面直接考慮小數點後面的數字),寫出正則之後,我們還要用這個正則去匹配資料,把原來的資料替換成匹配的結果。 

(1)  

$str = preg_replace('\.(\d\d[1-9]?)\d*','\\1',$str);//匹配結果的group1進行反向引用 

很明顯,這種寫法,對於部分資料格式為123.456的這種格式,白白的處理了一遍,為了提高效率,我們還要對這個正則進行處理。從123.456這個字串跟其他的比較一下,我們發現,是疑問123.456這個資料後面沒數字了,所以,白白處理一遍。那好辦,我們對這個正則改造一下,把後面的量詞*改成+,這樣對於123.45 小數點後面1,2位數字的,不會去白白處理,而且,對三位以上數字的,處理正常。其php**為 

(2) $str = preg_replace('\.(\d\d[1-9]?)\d+','\\1',$str);

字串"123.456",正規表示式為【\.(\d\d[1-9]?)\d+】,我們來看下 

首先(小數點前123不說了),

【\.】匹配".",匹配成功,把控制權給下乙個【\d】,【\d】匹配「4」成功,把控制權給第二個【\d】,這個【\d】匹配「5」成功,然後,把控制權給了【[1-9]?】,由於量詞是【?】,正規表示式遵循「量詞優先匹配」,而且,此處是【?】,還會留下乙個回溯點。然後匹配"6"成功,然後把控制權給【\d+】,【\d+】發現後面沒字元了,最遵循「後進先出」規則,回到上乙個回溯點,進行匹配,這時,【[1-9]?】會交還出其匹配的字元「6」,【[1-9]?】匹配「6」成功。匹配完成了。大家發現【(\d\d[1-9]?)】匹配的結果確是"45",並不是我們想要的「456」,「6」被【\d+】匹配去了。那麼,我們該如何辦呢?能否讓【[1-9]?】匹配一旦成功,不進行回溯呢?這就用到了我們上面說的"固化分組", php(preg_replace函式)中使用的正則引擎支援固化分組,我們根據固化分組的寫法,可以把**改成如下方式 

$str = preg_replace('\.(\d\d(?>[1-9]?))\d+','\\1',$str); 

改成這樣的話,那字串「123.456「是不符合要求,不會被匹配的。那我們就可以實現我們的要求了。 

所以,讓我們來看(\.\d\d(?>[1-9]?))\d+。

在固化分組內,量詞能夠正常工作,所以如果[1-9]不能匹配,正規表示式會返回? 留下的備用狀態。然後匹配脫離固化分組,繼續前進到「\d+」。在這種情況下,當控制權離開固化分組時,沒有備用狀態需要放棄因為在固化分組中沒有建立任何備用狀態)。

如果[1-9] 能夠匹配,匹配脫離固化分組之後,「? 」儲存的備用狀態仍然存在。但是,因為它屬於已經結束的固化分組,所以會被拋棄。

匹配『.625』或者『.625000』時就會發生這種情況。在後一種情況下,放棄那些狀態不會帶來任何麻煩,因為「\d+」匹配的是『.625000』,到這裡正規表示式已經完成匹配。但是對於『.625』來說,因為「\d+」無法匹配,正則引擎需要回溯,但回溯又無法進行,因為備用狀態已經不存在了。既然沒有能夠回溯的備用狀態,整體匹配也就失敗,『.625』不需要處理,而這正是我們期望的。

正規表示式 分組

正規表示式對於單個字元的重複,非常方便。比如 d 表示1個或多個數字,表示重複0次或多次 重複1次或多次 重複0次或1次 重複n次 重複n次或多次 重複n次到m次 指定的字元後加特定的限定符,即可實現單字元的重複,那麼,對於一組字串的重複,正規表示式該如何操作?用小括號來指定子表示式 或稱分組 對指...

分組 正規表示式

在正規表示式中,可以用小括號將一些規則括起來當作分組,分組可以作為乙個元字元來看待。d d這是乙個簡單的且不完善的匹配 ip 位址的正規表示式,因為它除了能匹配正確的 ip 位址外,還能匹配如 322.197.578.888 這種不存在的 ip 位址。當然,用這個表示式簡單匹配成功後可以在利用 ph...

正規表示式 分組

group 分組 分了幾組就看分了幾個小括號 分了幾對小括號 當有巢狀的小括號時,怎麼區分那個是第一組那個是第二組呢?只需要數小括號邊的左小括號,看到第乙個左小括號就是第一組,第二個左小括號就是第二組 group 分組 public class test8 3到5位的數字 a z 2位的字母 a z...