正規表示式基礎(稍微了解下)

2021-09-30 07:13:42 字數 3257 閱讀 2511

【摘自《正規表示式之道》】

正規表示式由一些普通字元和一些元字元(metacharacters)組成。普通字元包括大小寫的字母和數字,而元字元則具有特殊的含義,我們下面會給予解釋。

在最簡單的情況下,乙個正規表示式看上去就是乙個普通的查詢串。例如,正規表示式"testing"中沒有包含任何元字元,它可以匹配"testing"和"123testing"等字串,但是不能匹配"testing"。

要想真正的用好正規表示式,正確的理解元字元是最重要的事情。下表列出了所有的元字元和對它們的乙個簡短的描述。

元字元

描述

.點 匹配任何單個字元。例如正規表示式r.t匹配這些字串:rat、rut、r t,但是不匹配root。

$匹配行結束符。例如正規表示式weasel$ 能夠匹配字串"he's a weasel"的末尾   但是不能匹配字串"they are a bunch of weasels."

^匹配一行的開始。例如正規表示式^when in能夠匹配字串"when in the course of human events"的開始,但是不能匹配"what and when in the"

*匹配0或多個正好在它之前的那個字元。例如正規表示式.*意味著能夠匹配任意數量的任何字元。

/ 這是引用符,用來將這裡列出的這些元字元當作普通的字元來進行匹配。例如正規表示式/$被用來匹配美元符號,而不是行尾,類似的,正規表示式/.用來匹配點字元,而不是任何字元的萬用字元。

[ ]   [c1-c2]   [^c1-c2]

匹配括號中的任何乙個字元。例如正規表示式r[aou]t匹配rat、rot和rut,但是不匹配ret。可以在括號中使用連字元-來指定字元的區間,例如正規表示式[0-9]可以匹配任何數字字元;還

可以制定多個區間,例如正規表示式[a-za-z]可以匹配任何大小寫字母。另乙個重要的用法是「排除」,

要想匹配除了指定區間之外的字元——也就是所謂的補集——在左邊的括號和第乙個字元之間使用^字元,例如正規表示式[^269a-z] 將匹配除了2、6、9和所有大寫字母之外的任何字元

。/< />

匹配詞(word)的開始(/<)和結束(/>)。例如正規表示式/能夠匹配字串"for the wise"中的"the",但是不能匹配字串"otherwise"中的"the"。注意:這個元字元不是所有的軟體都支援的。

/( /)

將 /( 和 /) 之間的表示式定義為「組」(group),並且將匹配這個表示式的字元儲存到乙個臨時區域(乙個正規表示式中最多可以儲存9個),它們可以用 /1 到/9 的符號來引用。

|將兩個匹配條件進行邏輯「或」(or)運算。例如正規表示式(him|her) 匹配"it belongs to him"和"it belongs to her",但是不能匹配"it belongs to them."。注意:這個元字元不是所有的軟體都支援的。

+匹配1或多個正好在它之前的那個字元。例如正規表示式9+匹配9、99、999等。注意:這個元字元不是所有的軟體都支援的。

?匹配0或1個正好在它之前的那個字元。注意:這個元字元不是所有的軟體都支援的。

/   /

匹配指定數目的字元,這些字元是在它之前的表示式定義的。例如正規表示式a[0-9]/ 能夠匹配字元"a"後面跟著正好3個數字字元的串,例如a123、a348等,但是不匹配a1234。而正規表示式[0-9]/ 匹配連續的任意4個、5個或者6個數字字元。

注意:這個元字元不是所有的軟體都支援的。

最簡單的元字元是點,它能夠匹配任何單個字元(注意不包括換行符)。假定有個檔案test.txt包含以下幾行內容:

he is a rat

he is in a rut

the food is rotten

i like root beer

我們可以使用grep命令來測試我們的正規表示式,grep命令使用正規表示式去嘗試匹配指定檔案的每一行,並將至少有一處匹配表示式的所有行顯示出來。命令

grep r.t test.txt

在test.txt檔案中的每一行中搜尋正規表示式r.t,並列印輸出匹配的行。正規表示式r.t匹配乙個r接著任何乙個字元再接著乙個t。所以它將匹配檔案中的rat和rut,而不能匹配rotten中的rot,因為正規表示式是大小寫敏感的

。要想同時匹配大寫和小寫字母,應該使用字元區間元字元(方括號)。正規表示式[rr]能夠同時匹配r和r。所以,要想匹配乙個大寫或者小寫的r接著任何乙個字元再接著乙個t就要使用這個表示式:[rr].t。

要想匹配行首的字元要使用抑揚字元(^)——又是也被叫做插入符。例如,想找到text.txt中行首"he"打頭的行,你可能會先用簡單表示式he,但是這會匹配第三行的the,所以要使用正規表示式^he,它只匹配在行首出現的h。

有時候指定「除了×××都匹配」會比較容易達到目的,當抑揚字元(^)出現在方括號中是,它表示「排除」,例如要匹配he ,但是排除前面是t or s的情性(也就是the和she),可以使用:[^st]he。

可以使用方括號來指定多個字元區間。例如正規表示式[a-za-z]匹配任何字母,包括大寫和小寫的;正規表示式[a-za-z][a-za-z]* 匹配乙個字母後面接著0或者多個字母(大寫或者小寫)。當然我們也可以用元字元+做到同樣的事情,也就是:[a-za-z]+ ,和[a-za-z][a-za-z]*完全等價。但是要注意元字元+ 並不是所有支援正規表示式的程式都支援的。關於這一點可以參考後面的正規表示式語法支援情況。

要指定特定數量的匹配,要使用大括號(注意必須使用反斜槓來轉義)。想匹配所有100和1000的例項而排除10和10000,可以使用:10/,這個正規表示式匹配數字1後面跟著2或者3個0的模式。在這個元字元的使用中乙個有用的變化是忽略第二個數字,例如正規表示式0/ 將匹配至少3個連續的0。

這裡有一些有代表性的、比較簡單的例子。

vi 命令

作用

:%s/ */ /g

把乙個或者多個空格替換為乙個空格

:%s/ *$//

去掉行尾的所有空格

:%s/^/ /

在每一行頭上加入乙個空格

:%s/^[0-9][0-9]* //

去掉行首的所有數字字元

:%s/b[aeio]g/bug/g

將所有的bag、beg、big和bog改為bug。

:%s/t/([aou]/)g/h/1t/g

將所有tag、tog和tug分別改為hat、hot和hug(注意用group的用法和使用/1引用前面被匹配的字元)

正規表示式基礎(稍微了解下)

摘自 正規表示式之道 正規表示式由一些普通字元和一些元字元 metacharacters 組成。普通字元包括大小寫的字母和數字,而元字元則具有特殊的含義,我們下面會給予解釋。在最簡單的情況下,乙個正規表示式看上去就是乙個普通的查詢串。例如,正規表示式 testing 中沒有包含任何元字元,它可以匹配...

正規表示式基礎了解

參考博文 稱為規則字串,用來匹配字串,可以用來搜尋,驗證或者替換符合規則的字串 那麼怎麼來制定這個規則呢 比如字串中有數字,字母,各種符號,空格等。發現沒有中文的匹配規則好像 中文太多?數字0 9,字母a z,各種符號也有限 就是和字串一樣的 r n 回車和換行 t 製表符 d 數字0 9中任意乙個...

了解正規表示式

摘要 相信大家都聽說過正規表示式,用它可以在字段中進行高速查詢 替換等功能。使用正規表示式可以輕鬆的對文字進行控制。比如,如果您想知道乙個字串的數字表示式是否在 0.1 9.9 之間 注意,只有一位小數 您會用什麼方法辦到這個需求呢?我想您會乙個 char 乙個char 的檢測,這樣會很麻煩,需要很...