正規表示式之反向引用

1.概述

捕獲組捕獲到的內容，不僅可以在正規表示式外部通過程式進行引用，也可以在正規表示式內部進行引用，這種引用方式就是反向引用。要了解反向引用，首先要了解捕獲組，關於捕獲組，參考正則基礎之——捕獲組（capture group）。

反向引用的作用通常是用來查詢或限定重複、查詢或限定指定標識配對出現等等。

對於普通捕獲組和命名捕獲組的引用，語法如下：

普通捕獲組反向引用：\k，通常簡寫為\number

命名捕獲組反向引用：\k或者\k'name'

普通捕獲組反向引用中number是十進位制的數字，即捕獲組的編號；命名捕獲組反向引用中的name為命名捕獲組的組名。

2.反向引用匹配原理

捕獲組(expression)在匹配成功時，會將子表示式匹配到的內容，儲存到記憶體中乙個以數字編號的組裡，可以簡單的認為是對乙個區域性變數進行了賦值，這時就可以通過反向引用方式，引用這個區域性變數的值。乙個捕獲組(expression)在匹配成功之前，它的內容可以是不確定的，一旦匹配成功，它的內容就確定了，反向引用的內容也就是確定的了。

反向引用必然要與捕獲組一同使用的，如果沒有捕獲組，而使用了反向引用的語法，不同語言的處理方式不一致，有的語言會拋異常，有的語言會當作普通的轉義處理。

3.舉例說明一

源字串：abcdebbcde

正規表示式：([ab])\1

對於正規表示式「([ab])\1」，捕獲組中的子表示式「[ab]」雖然可以匹配「a」或者「b」，但是捕獲組一旦匹配成功，反向引用的內容也就確定了。如果捕獲組匹配到「a」，那麼反向引用也就只能匹配「a」，同理，如果捕獲組匹配到的是「b」，那麼反向引用也就只能匹配「b」。由於後面反向引用「\1」的限制，要求必須是兩個相同的字元，在這裡也就是「aa」或者「bb」才能匹配成功。

考察一下這個正規表示式的匹配過程，在位置0處，由「([ab])」匹配「a」成功，將捕獲的內容儲存在編號為1的組中，然後把控制權交給「\1」，由於此時捕獲組已記錄了捕獲內容為「a」，「\1」也就確定只有匹配到「a」才能匹配成功，這裡顯然不滿足，「\1」匹配失敗，由於沒有可供回溯的狀態，整個表示式在位置0處匹配失敗。

正則引擎向前傳動，在位置5之前，「([ab])」一直匹配失敗。傳動到位置5處時，，「([ab])」匹配到「b」，匹配成功，將捕獲的內容儲存在編號為1的組中，然後把控制權交給「\1」，由於此時捕獲組已記錄了捕獲內容為「b」，「\1」也就確定只有匹配到「b」才能匹配成功，滿足條件，「\1」匹配成功，整個表示式匹配成功，匹配結果為「bb」，匹配開始位置為5，結束位置為7。

擴充套件一下，正規表示式「([a-z])\1」也就表達連續三個相同的小寫字母，「([a-z])\1+」表示連續的n個相同的小寫字母。

4.舉例說明二

詳細的分析討論參考：正規表示式正向預搜尋的問題。

源字串：aaa bbbb ffffff 999999999

正規表示式：(\w)((?=\1\1\1)(\1))+

測試**：

string test = "aaa bbbb ffffff 999999999";

regex reg = new regex(@"(\w)((?=\1\1\1)(\1))+");

matchcollection mc = reg.matches(test);

foreach (match m in mc)

//輸出

匹配結果：bb 匹配開始位置：4

匹配結果：ffff 匹配開始位置：9

匹配結果：9999999 匹配開始位置：16

匹配結果分析：

正規表示式(\w)((?=\1\1\1)(\1))+從匹配結果上分析，其實就等價於(\w)(\1)*(?=\1\1\1)(\1)，這個會相對好理解一些，下面討論下分析過程。

因為「+」等價於「」，表示至少匹配1次，下面把子表示式「((?=\1\1\1)(\1))+」展開來看下規律，下表中的「次數」表示子表示式「((?=\1\1\1)(\1))+」匹配成功的次數。

次數

等價表示式

(\w)((?=\1\1\1)(\1))

(\w)((?=\1\1\1)(\1))((?=\1\1\1)(\1))

(\w)((?=\1\1\1)(\1))((?=\1\1\1)(\1))((?=\1\1\1)(\1))

…

如果最後乙個「((?=\1\1\1)(\1))」匹配成功，那麼中間的「((?=\1\1\1)(\1))」一定可以匹配成功，所以中間的限制條件(?=\1\1\1)就沒有意義了，這時就可以簡寫為「(\1)」，也就是

次數

等價表示式

(\w)((?=\1\1\1)(\1))

(\w)(\1)((?=\1\1\1)(\1))

(\w)(\1)(\1)((?=\1\1\1)(\1))

…

可以歸納為等價於

(\w)(\1)*((?=\1\1\1)(\1))

因為「((?=\1\1\1)(\1))」開始和結尾的()原來是用作量詞+修飾範圍的，這裡已經沒有什麼意義了，所以表示式最後可以歸納為等價於

(\w)(\1)*(?=\1\1\1)(\1)

分析這個表示式就容易多了。「(\w)」匹配乙個字元，佔一位，「\1」是對「\w」匹配內容的引用，「(\1)*」可以匹配0到無窮多個「(\w)」匹配到的字元，「(?=\1\1\1)(\1)」只佔一位，但是「(?=\1\1\1)」要求所在位置右側有三個連續相同的「(\w)」匹配到的字元，所以在「(?=\1\1\1)」這個位置右側應該有三個字元，不過只有這個位置右側的乙個字元計入最後的匹配結果，最後兩個只作為限制條件，不計入最後的匹配結果。

以「999999999」為例，第乙個「9」由「(\w)」匹配，第二到第六個「9」由「(\1)*」來匹配，第七個「9」由「(?=\1\1\1)(\1)」中最後的「(\1)」來匹配，而第

七、八、九這三個「9」是用來保證滿足「(?=\1\1\1)」這個條件的。

詳細描述參考：正則基礎之——反向引用

正規表示式之反向引用

正規表示式反向引用

表示式反向解析正規表示式反向引用

正規表示式的反向引用

正規表示式之反向引用

正規表示式反向引用

表示式反向解析 正規表示式 反向引用

正規表示式的反向引用

相關推薦

表示式反向解析正規表示式反向引用