正規表示式入門

常用的元字元**說明

**說明

.匹配除換行符以外的任意字元

\w匹配字母或數字或下劃線或漢字

\s匹配任意的空白符

\d匹配數字

\b匹配單詞的開始或結束

^匹配字串的開始

$匹配字串的結束

如果你想查詢元字元本身的話，比如你查詢.,或者*,就出現了問題：你沒辦法指定它們，因為它們會被解釋成別的意思。這時你就得使用\來取消這些字元的特殊意義。因此，你應該使用\.和\*。當然，要查詢\本身，你也得用\\

**/語法說明*

重複零次或更多次

+重複一次或更多次

?重複零次或一次

重複n次

重複n次或更多次

重複n到m次

像[aeiou]就匹配任何乙個英文母音字母，[.?!]匹配標點符號(.或?或!)。

下面是乙個更複雜的表示式：\(?0\d[) -]?\d。

這個表示式可以匹配幾種格式的**號碼，像(010)88886666，或022-22334455，或02912345678等。我們對它進行一些分析吧：首先是乙個轉義字元\(,它能出現0次或1次(?),然後是乙個0，後面跟著2個數字(\d)，然後是)或-或空格中的乙個，它出現1次或不出現(?)，最後是8個數字(\d)。

0\d-\d|0\d-\d這個表示式能匹配兩種以連字型大小分隔的**號碼：一種是三位區號，8位本地號(如010-12345678)，一種是4位區號，7位本地號(0376-2233445)。

(\d\.)\d是乙個簡單的ip位址匹配表示式。要理解這個表示式，請按下列順序分析它：\d匹配1到3位的數字，(\d\.)匹配三位數字加上乙個英文句號(這個整體也就是這個分組)重複3次，最後再加上乙個一到三位的數字(\d)。

**/語法

說明\w

匹配任意不是字母，數字，下劃線，漢字的字元

\s匹配任意不是空白符的字元

\d匹配任意非數字的字元

\b匹配不是單詞開頭或結束的位置

[^x]

匹配除了x以外的任意字元

[^aeiou]

匹配除了aeiou這幾個字母以外的任意字元

例子：\s+匹配不包含空白符的字串。

]+>匹配用尖括號括起來的以a開頭的字串。

分類**/語法

說明捕獲

(exp)

匹配exp,並捕獲文字到自動命名的組裡

(?exp)

匹配exp,並捕獲文字到名稱為name的組裡，也可以寫成(?』name』exp)

(?:exp)

匹配exp,不捕獲匹配的文字，也不給此分組分配組號

零寬斷言

(?=exp)

匹配exp前面的位置

(?<=exp)

匹配exp後面的位置

(?!exp)

匹配後面跟的不是exp的位置

(?匹配前面不是exp的位置

注釋(?#comment)

這種型別的分組不對正規表示式的處理產生任何影響，用於提供注釋讓人閱讀

使用小括號指定乙個子表示式後，匹配這個子表示式的文字(也就是此分組捕獲的內容)可以在表示式或其它程式中作進一步的處理。預設情況下，每個分組會自動擁有乙個組號，規則是：從左向右，以分組的左括號為標誌，第乙個出現的分組的組號為1，第二個為2，以此類推。

呃……其實,組號分配還不像我剛說得那麼簡單：

分組0對應整個正規表示式

實際上組號分配過程是要從左向右掃瞄兩遍的：第一遍只給未命名組分配，第二遍只給命名組分配－－因此所有命名組的組號都大於未命名的組號

你可以使用(?:exp)這樣的語法來剝奪乙個分組對組號分配的參與權．

後向引用用於重複搜尋前面某個分組匹配的文字。例如，\1代表分組1匹配的文字。難以理解？請看示例：

\b(\w+)\b\s+\1\b可以用來匹配重複的單詞，像go go, 或者kitty kitty。這個表示式首先是乙個單詞，也就是單詞開始處和結束處之間的多於乙個的字母或數字(\b(\w+)\b)，這個單詞會**獲到編號為1的分組中，然後是1個或幾個空白符(\s+)，最後是分組1中捕獲的內容（也就是前面匹配的那個單詞）(\1)。

你也可以自己指定子表示式的組名。要指定乙個子表示式的組名，請使用這樣的語法：(?\w+)(或者把尖括號換成』也行：(?』word』\w+)),這樣就把\w+的組名指定為word了。要反向引用這個分組捕獲的內容，你可以使用\k,所以上乙個例子也可以寫成這樣：\b(?\w+)\b\s+\k\b。

零寬斷言示例：(?=exp)也叫零寬度正**先行斷言，它斷言自身出現的位置的後面能匹配表示式exp。比如\b\w+(?=ing\b)，匹配以ing結尾的單詞的前面部分(除了ing以外的部分)，如查詢i』m singing while you』re dancing.時，它會匹配sing和danc。

(?<=exp)也叫零寬度正回顧後發斷言，它斷言自身出現的位置的前面能匹配表示式exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re以外的部分)，例如在查詢reading a book時，它匹配ading。

假如你想要給乙個很長的數字中每三位間加乙個逗號(當然是從右邊加起了)，你可以這樣查詢需要在前面和裡面新增逗號的部分：((?<=\d)\d)+\b，用它對1234567890進行查詢時結果是234567890。

注釋示例：小括號的另一種用途是通過語法(?#comment)來包含注釋。例如：2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。

**/語法

說明*?

重複任意次，但盡可能少重複

+?重複1次或更多次，但盡可能少重複

??重複0次或1次，但盡可能少重複

?重複n到m次，但盡可能少重複

?重複n次以上，但盡可能少重複

當正規表示式中包含能接受重複的限定符時，通常的行為是（在使整個表示式能得到匹配的前提下）匹配盡可能多的字元。以這個表示式為例：a.*b，它將會匹配最長的以a開始，以b結束的字串。如果用它來搜尋aabab的話，它會匹配整個字串aabab。這被稱為貪婪匹配。

有時，我們更需要懶惰匹配，也就是匹配盡可能少的字元。前面給出的限定符都可以被轉化為懶惰匹配模式，只要在它後面加上乙個問號?。這樣.*?就意味著匹配任意數量的重複，但是在能使整個匹配成功的前提下使用最少的重複。現在看看懶惰版的例子吧：

a.*?b匹配最短的，以a開始，以b結束的字串。如果把它應用於aabab的話，它會匹配aab（第一到第三個字元）和ab（第四到第五個字元）。

為什麼第乙個匹配是aab（第一到第三個字元）而不是ab（第二到第三個字元）？簡單地說，因為正規表示式有另一條規則，比懶惰／貪婪規則的優先順序更高：最先開始的匹配擁有最高的優先權

正規表示式入門

正規表示式 正則入門

正規表示式入門

正規表示式入門

相關推薦

正規表示式正則入門