寫出高效率的正規表示式技巧總結

2022-10-04 05:42:09 字數 2484 閱讀 7538

如果純粹是為了挑戰自己的正則水平,用來實現一些特效(例如使用正規表示式計算質數、解線性方程),效率不是問題;如果所寫的正規表示式只是為了滿足一兩次、幾十次的執行,優化與否區別也不太大。但是,如果所寫的正規表示式會百萬次、千萬次地執行,效率就是很大的問題了。

為行文方便,先定義兩個概念。

誤匹配:指正規表示式所匹配的內容範圍超出了所需要範圍,有些文字明明不符合要求,但是被所寫的正則式「擊中了」。例如,如果使用\d來匹配11位的手機號,\d不單能匹配正確的手機號,它還會匹配98765432100這樣的明顯不是手機號的字串。我們把這樣的匹配稱之為誤匹配。

漏匹配:指正規表示式所匹配的內容所規定的範圍太狹窄,有些文字確實是所需要的,但是所寫的正則沒有將這種情況囊括在內。例如,使用\d來匹配18位的身份證號碼,就會漏掉結尾是字母x的情況。

寫出一條正規表示式,既可能只出現誤匹配(條件寫得極寬鬆,其範圍大於目標文字),也可能只出現漏匹配(只描述了目標文字中多種情況種的一種),還可能既有誤匹配又有漏匹配。例如,使用\w+\.com來匹配.com結尾的網域名稱,既會誤匹配abc_.com這樣的字串(合法的網域名稱中不含下劃線,\w包含了下劃線這種情況),又會漏掉ab-c.com這樣的網域名稱(合法網域名稱中可以含中劃線,但是\w不匹配中劃線)。

精準的正規表示式意味著既無誤匹配且無漏匹配。當然,現實中存在這樣的情況:只能看到有限數量的文字,根據這些文字寫規則,但是這些規則將會用到海量的文字中。這種情況下,盡可能地(如果不是完全地)消除誤匹配以及漏程式設計客棧匹配,並提公升執行效率,就是我們的目標。本文所提出的經驗,主要是針對這種情況。

掌握語法細節。正規表示式在各種語言中,其語法大致相同,細節各有千秋。明確所使用語言的正則的語法的細節,是寫出正確、高效正規表示式的基礎。例如,perl中與\w等效的匹配範圍是[a-za-z0-9_];perl正則式不支援肯定逆序環視中使用可變的重複(variable repetition inside lookbehind,例如(?<=.*)abc),但是.net語法是支援這一特性的;又如,j**ascript連逆序環視(lookbehind,如(?<=ab)c)都不支援,而perl和python是www.cppcns.com支援的。《精通正規表示式》第3章《正規表示式的特性和流派概覽》明確地列出了各大派系正則的異同,這篇文章也簡要地列出了幾種常用語言、工具中正則的比較。對於具體使用者而言,至少應該詳細了解正在使用的那種工作語言裡正則的語法細節。

先粗後精,先加後減。使用正規表示式語法對於目標文字進行描述和界定,可以像像素描一樣,先大致勾勒出框架,再逐步在局步實現細節。仍舉剛才的手機號的例子,先界定\d,總不會錯;再細化為1[358]\d,就向前邁了一大步(至於第二位是不是3、5、8,這裡無意深究,只舉這樣乙個例子,說明逐步細化的過程)。這樣做的目的是先消除漏匹配(剛開始先盡可能多地匹配,做加法),然後再一點一點地消除誤匹配(做減法)。這樣有先有後,在考慮時才不易出錯,從而向「不誤不漏」這個目標邁進。

留有餘地。所能看到的文字sample是有限的,而待匹配檢驗的文字是海量的,暫時不可見的。對於這樣的情況,在寫正規表示式時要跳出所能見到的文字的圈子,開拓思路,作出「戰略性前瞻」。例如,經常收到這樣的垃圾簡訊:「發*票」、「發#漂」。如果要寫規則遮蔽這樣煩人的垃圾簡訊,不但要能寫出可以匹配當前文字的正規表示式 發[*#](?:票|漂),還要能夠想到 發.(?:票|漂|飄)之類可能出現的「變種」。這在具體的領域或許會有針對性的規則,不多言。這樣做的目的是消除漏匹配,延長正規表示式的生命週期。

明確。具體說來,就是謹慎用點號這樣的元字元,盡可能不用星號和加號這樣的任意量詞。只要能確定範圍的,例如\w,就不要用點號;只要能夠**重複次數的,就不要用任意量詞。例如,寫析取twitter訊息的指令碼,假設一條訊息的xml正文部分結構是…且正文中無尖括號,那麼[^這種寫法的思路要好於.*,原因有二:一是使用[^程式設計客棧但是這種思路是值得借鑑的。說得狠一點,「濫用點號、星號和加號是不環保、不負責任的做法」。

不要讓稻草壓死駱駝。每使用乙個普通括號()而不是非捕獲型括號(?:…),就會保留一部分記憶體等著你再次訪問。這樣的正規表示式、無限次地執行次數,無異於一根根稻草的堆加,終於能將駱駝壓死。養成合理使用(?:…)括號的習慣。

寧簡勿繁。將一條複雜的正規表示式拆分為兩條或多條簡單的正規表示式,程式設計難度會降低,執行效率會提公升。例如用來消除行首和行尾空白字元的正規表示式s/^\s+|\s+$//g;,其執行效率理論上要低於s/^\s+//g; s/\s+$//g; 。這個例子出自《精通正規表示式》第五章,書中對它的評論是「它幾乎總是最快的,而且顯然最容易理解」。既快又容易理解,何樂而不為?工作中我們還有其它的理由要將c==(a|b)這樣的正規表示式拆為a和b兩條表示式分別執行。例如,雖然a和b這兩種情況只要有一種能夠擊中所需要的文字模式就會成功匹配,但是如果只要有一條子表示式(例如a)會產生誤匹配,那麼不論其它的子表示式(例如b)效率如何之高,範圍如何精準,c的總體精準度也會因a而受到影響。

程式設計客棧巧妙定位。有時候,我們程式設計客棧需要匹配的the,是作為單詞的the(兩邊有空格),而不是作為單詞一部分的t-h-e的有序排列(例如together中的the)。在適當的時候用上^,$,\b等等定位錨點,能有效提公升找到成功匹配、淘汰不成功匹配的效率。

本文標題: 寫出高效率的正規表示式技巧總結

本文位址:

正規表示式的效率

判斷航空公司二字碼是否正確的方法 普通的判斷 private boolean strmatch string str if str.length 2 if abcdefghijklmnopqrstuvwxyz contains str.substring 0,1 if abcdefghijklmno...

正規表示式 正規表示式 總結

非負整數 d 正整數 0 9 1 9 0 9 非正整數 d 0 負整數 0 9 1 9 0 9 整數 d 非負浮點數 d d 正浮點數 0 9 0 9 1 9 0 9 0 9 1 9 0 9 0 9 0 9 1 9 0 9 非正浮點數 d d 0 0 負浮點數 正浮點數正則式 英文本串 a za z...

正規表示式技巧

正規表示式 貪婪與懶惰 當正規表示式中包含能接受重複的限定符時,通常的行為是 在使整個表示式能得到匹配的前提下 匹配盡可能多的字元。考慮這個表示式 a.b,它將會匹配最長的以a開始,以b結束的字串。如果用它來搜尋aabab的話,它會匹配整個字串aabab。這被稱為貪婪匹配。有時,我們更需要懶惰匹配,...