正規表示式學習筆記

最近在學正規表示式，記錄一下。

學習博文：以下是對該篇博文總結。

\b　　：是正規表示式規定的乙個特殊**（好吧，某些人叫它元字元，metacharacter），代表著單詞的開頭或結尾，也就是單詞的分界處。雖然通常英文的單詞是由空格，標點符號或者換行來分隔的，但是\b並不匹配這些單詞分隔字元中的任何乙個，它只匹配乙個位置。

. 　　：是另乙個元字元，匹配除了換行符以外的任意字元。

*　　：同樣是元字元，不過它代表的不是字元，也不是位置，而是數量——它指定*前邊的內容可以連續重複使用任意次以使整個表示式得到匹配。

.*　　：連在一起就意味著任意數量的不包含換行的字元。

\d　　：是個新的元字元，匹配一位數字(0，或1，或2，或……)

\s　　：匹配任意的空白符，包括空格，製表符(tab)，換行符，中文全形空格等。

\w　　：匹配字母或數字或下劃線或漢字等。

^$　　：元字元^（和數字6在同乙個鍵位上的符號）和$都匹配乙個位置，這和\b有點類似。^匹配你要用來查詢的字串的開頭，$匹配結尾。

如果你想查詢元字元本身的話，比如你查詢.,或者*,就出現了問題：你沒辦法指定它們，因為它們會被解釋成別的意思。這時你就得使用\來取消這些字元的特殊意義。因此，你應該使用\.和\*。當然，要查詢\本身，你也得用\\.

例如：deerchao\.cn匹配deerchao.cn，c:\\windows匹配c:\windows。

+　　：是和*類似的元字元，不同的是*匹配重複任意次(可能是0次)，而+則匹配重複1次或更多次。

和前面介紹過的是類似的，只不過匹配只能不多不少重複2次，則是重複的次數不能少於5次，不能多於12次，否則都不匹配。

其實就是表示乙個集合，然後是in運算。

要想查詢數字，字母或數字，空白是很簡單的，因為已經有了對應這些字元集合的元字元，但是如果你想匹配沒有預定義元字元的字元集合(比如母音字母a,e,i,o,u）你只需要在方括號裡列出它們就行了，像[aeiou]就匹配任何乙個英文母音字母，[.?!]匹配標點符號(.或?或!)。

也可以輕鬆地指定乙個字元範圍，像[0-9]代表的含意與\d就是完全一致的：一位數字；同理[a-z0-9a-z_]也完全等同於\w（如果只考慮英文的話）。

其實就是or邏輯。

正規表示式裡的分枝條件指的是有幾種規則，如果滿足其中任意一種規則都應該當成匹配，具體方法是用|把不同的規則分隔開。

0\d-\d|0\d-\d這個表示式能匹配兩種以連字型大小分隔的**號碼：一種是三位區號，8位本地號(如010-12345678)，一種是4位區號，7位本地號(0376-2233445)。

$0\d$[- ]?\d|0\d[- ]?\d這個表示式匹配3位區號的**號碼，其中區號可以用小括號括起來，也可以不用，區號與本地號間可以用連字型大小或空格間隔，也可以沒有間隔。你可以試試用分枝條件把這個表示式擴充套件成也支援4位區號的。

查詢不屬於某個能簡單定義的字元類的字元。例子：①\s+匹配不包含空白符的字串。②

]+>匹配用尖括號括起來的以a開頭的字串。

其實就是將以前的匹配表示式儲存了起來，以後就可以懶得寫。

使用小括號指定乙個子表示式後，匹配這個子表示式的文字(也就是此分組捕獲的內容)可以在表示式或其它程式中作進一步的處理。預設情況下，每個分組會自動擁有乙個組號，規則是：從左向右，以分組的左括號為標誌，第乙個出現的分組的組號為1，第二個為2，以此類推。

後向引用用於重複搜尋前面某個分組匹配的文字。例如，\1代表分組1匹配的文字。

例如：\b(\w+)\b\s+\1\b可以用來匹配重複的單詞，像go go, 或者kitty kitty。這個表示式首先是乙個單詞，也就是單詞開始處和結束處之間的多於乙個的字母或數字(\b(\w+)\b)，這個單詞會**獲到編號為1的分組中，然後是1個或幾個空白符(\s+)，最後是分組1中捕獲的內容（也就是前面匹配的那個單詞）(\1)。

斷言斷言，人如其名就是當滿足條件是為真，帶條件的匹配。

查詢在某些內容(但並不包括這些內容)之前或之後的東西，也就是說它們像\b,^,$那樣用於指定乙個位置，這個位置應該滿足一定的條件(即斷言)，因此它們也被稱為零寬斷言。

(?=exp)也叫零寬度正**先行斷言，它斷言自身出現的位置的後面能匹配表示式exp。比如\b\w+(?=ing\b)，匹配以ing結尾的單詞的前面部分(除了ing以外的部分)，如查詢i'm singing while you're dancing.時，它會匹配sing和danc。

(?<=exp)也叫零寬度正回顧後發斷言，它斷言自身出現的位置的前面能匹配表示式exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re以外的部分)，例如在查詢reading a book時，它匹配ading。

解決問題：想要確保某個字元沒有出現，但並不想去匹配它時怎麼辦？例如，如果我們想查詢這樣的單詞--它裡面出現了字母q,但是q後面跟的不是字母u,我們可以嘗試這樣：

匹配預設是貪婪原則，即最多最遠。但有時我們需要懶惰原則，即最少最近。

a.*?b匹配最短的，以a開始，以b結束的字串。如果把它應用於aabab的話，它會匹配aab（第一到第三個字元）和ab（第四到第五個字元）。

解決問題：如何把xx aa> yy這樣的字串裡，最長的配對的尖括號內的內容捕獲出來？

這裡需要用到以下的語法構造：

正規表示式學習筆記

正規表示式學習筆記

正規表示式學習筆記

正規表示式學習筆記

相關推薦