正規表示式之語法篇

2021-10-03 02:22:10 字數 4001 閱讀 8146

runoo+b,可以匹配 runoob、runooob、runoooooob 等,+ 號代表前面的字元必須至少出現一次(1次或多次)。

runoo*b,可以匹配 runob、runoob、runoooooob 等,* 號代表字元可以不出現,也可以出現一次或者多次(0次、或1次、或多次)。

colou?r可以匹配 color 或者 colour,? 問號代表前面的字元最多隻可以出現一次(0次、或1次)。

正規表示式的元件可以是單個的字元、字元集合、字元範圍、字元間的選擇或者所有這些元件的任意組合。

正規表示式是由普通字元(例如字元 a 到 z)以及特殊字元(稱為"元字元")組成的文字模式。

字元描述

\w匹配字母或數字或下劃線或漢字 等價於 『[^a-za-z0-9_]』。

\d匹配數字

字元描述

\cx匹配由x指明的控制字元。例如, \cm 匹配乙個 control-m 或回車符。x 的值必須為 a-z 或 a-z 之一。否則,將 c 視為乙個原義的 『c』 字元。

\f匹配乙個換頁符。等價於 \x0c 和 \cl。

\n匹配乙個換行符。等價於 \x0a 和 \cj。

\r匹配乙個回車符。等價於 \x0d 和 \cm。

\s匹配任何空白字元,包括空格、製表符、換頁符等等。等價於 [ \f\n\r\t\v]。注意 unicode 正規表示式會匹配全形空格符。

\s匹配任何非空白字元。等價於 [^ \f\n\r\t\v]。

\t匹配乙個製表符。等價於 \x09 和 \ci。

\v匹配乙個垂直製表符。等價於 \x0b 和 \ck。

特別字元描述$

匹配輸入字串的結尾位置。如果設定了 regexp 物件的 multiline 屬性,則 $ 也匹配 『\n』 或 『\r』。要匹配 $ 字元本身,請使用 \$。

( )標記乙個子表示式的開始和結束位置。子表示式可以獲取供以後使用。要匹配這些字元,請使用 \( 和 \)。

*匹配前面的子表示式零次或多次。要匹配 * 字元,請使用 \*。

+匹配前面的子表示式一次或多次。要匹配 + 字元,請使用 \+。

.匹配除換行符 \n 之外的任何單字元。要匹配 . ,請使用 \. 。

[標記乙個中括號表示式的開始。要匹配 [,請使用 \[。

?匹配前面的子表示式零次或一次,或指明乙個非貪婪限定符。要匹配 ? 字元,請使用 \?。

\將下乙個字元標記為或特殊字元、或原義字元、或向後引用、或八進位制轉義符。例如, 『n』 匹配字元 『n』。』\n』 匹配換行符。序列 『\』 匹配 「\」,而 『\(』 則匹配 「(」。

^匹配輸入字串的開始位置,除非在方括號表示式中使用,當該符號在方括號表示式中使用時,表示不接受該方括號表示式中的字元集合。要匹配 ^ 字元本身,請使用 \^。。+

匹配前面的子表示式一次或多次。例如,『zo+』 能匹配 「zo」 以及 「zoo」,但不能匹配 「z」。+ 等價於 。

?匹配前面的子表示式零次或一次。例如,「do(es)?」 可以匹配 「do」 、 「does」 中的 「does」 、 「doxy」 中的 「do」 。? 等價於 。

n 是乙個非負整數。匹配確定的 n 次。例如,『o』 不能匹配 「bob」 中的 『o』,但是能匹配 「food」 中的兩個 o。

n 是乙個非負整數。至少匹配n 次。例如,『o』 不能匹配 「bob」 中的 『o』,但能匹配 「foooood」 中的所有 o。『o』 等價於 『o+』。『o』 則等價於 『o*』。

m 和 n 均為非負整數,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,「o」 將匹配 「fooooood」 中的前三個 o。『o』 等價於 『o?』。請注意在逗號和兩個數之間不能有空格。

字元描述

^匹配輸入字串開始的位置。如果設定了 regexp 物件的 multiline 屬性,^還會與 \n 或 \r 之後的位置匹配。

$匹配輸入字串結尾的位置。如果設定了 regexp 物件的 multiline 屬性,$還會與 \n 或 \r 之前的位置匹配。

\b匹配乙個單詞邊界,即字與空格間的位置。

\b非單詞邊界匹配。

用圓括號將所有選擇項括起來,相鄰的選擇項之間用|分隔。但用圓括號會有乙個***,使相關的匹配會被快取,此時可用?:放在第乙個選項前來消除這種***。

其中?:是非捕獲元之一,還有兩個非捕獲元是?=?!,這兩個還有更多的含義,前者為正向預查,在任何開始匹配圓括號內的正規表示式模式的位置來匹配搜尋字串,後者為負向預查,在任何開始不匹配該正規表示式模式的位置來匹配搜尋字串。

對乙個正規表示式模式或部分模式兩邊新增圓括號將導致相關匹配儲存到乙個臨時緩衝區中,所捕獲的每個子匹配都按照在正規表示式模式中從左到右出現的順序儲存。緩衝區編號從 1 開始,最多可儲存 99 個捕獲的子表示式。每個緩衝區都可以使用 \n 訪問,其中 n 為乙個標識特定緩衝區的一位或兩位十進位制數。

可以使用非捕獲元字元?:?=?!來重寫捕獲,忽略對相關匹配的儲存。

反向引用的最簡單的、最有用的應用之一,是提供查詢文字中兩個相同的相鄰單詞的匹配項的能力。以下面的句子為例:

is is the cost of of gasoline going up up?

上面的句子很顯然有多個重複的單詞。如果能設計一種方法定位該句子,而不必查詢每個單詞的重複出現,那該有多好。下面的正規表示式使用單個子表示式來實現這一點:

查詢重複的單詞:

var str =

"is is the cost of of gasoline going up up"

;var patt1 =

/\b([a-z]+) \1\b/ig

;document.

write

(str.

match

(patt1)

);

捕獲的表示式,正如[a-z]+指定的,包括乙個或多個字母。正規表示式的第二部分是對以前捕獲的子匹配項的引用,即,單詞的第二個匹配項正好由括號表示式匹配。\1指定第乙個子匹配項。

單詞邊界元字元確保只檢測整個單詞。否則,諸如 「is issued」 或 「this is」 之類的片語將不能正確地被此表示式識別。

正規表示式後面的全域性標記g指定將該表示式應用到輸入字串中能夠查詢到的盡可能多的匹配。

表示式的結尾處的不區分大小寫i標記指定不區分大小寫。

多行標記指定換行符的兩邊可能出現潛在的匹配。

下面的正規表示式提供該功能:

輸出所有匹配的資料:

var str =

"";var patt1 =

/(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/

;arr = str.

match

(patt1)

;for

(var i =

0; i < arr.length ; i++

)

第三行**str.match(patt1)返回乙個陣列,例項中的陣列包含 5 個元素,索引 0 對應的是整個字串,索引 1 對應第乙個匹配符(括號內),以此類推。

第乙個括號子表示式捕獲 web 位址的協議部分。該子表示式匹配在冒號和兩個正斜槓前面的任何單詞。

第二個括號子表示式捕獲位址的域位址部分。子表示式匹配非:/之後的乙個或多個字元。

第三個括號子表示式捕獲埠號(如果指定了的話)。該子表示式匹配冒號後面的零個或多個數字。只能重複一次該子表示式。

最後,第四個括號子表示式捕獲 web 位址指定的路徑和 / 或頁資訊。該子表示式能匹配不包括 # 或空格字元的任何字串行。

將正規表示式應用到上面的 uri,各子匹配項包含下面的內容:

正規表示式入門語法篇

正規表示式 使用單個字串來描述,匹配一系列符合某個語法規則的字串 例項化rexexp語法 1.var reg 此處為正規表示式 eg var reg d 2.var ref new 此處為正規表示式 eg var reg new d 正規表示式語法概念 正規表示式由兩種基本字元型別組成 原義文字字元...

Javascript正規表示式 語法篇

使用正則的過程中可能對js正則的語法記得不太牢,順便也整理了一下,列在這裡。1 建構函式方式 var reg new regexp abc gi 第乙個引數是正則的內容,第二個引數是修飾符,修飾符通常有三種,i,g,m,i表示的含義是忽略大小寫進行匹配,g表示全域性匹配即匹配到第乙個之後不停止繼續匹...

正規表示式語法

jscript 8.0 正規表示式語法 正規表示式是一種文字模式,包括普通字元 例如,a 到 z 之間的字母 和特殊字元 稱為 元字元 模式描述在搜尋文字時要匹配的乙個或多個字串。表示式 匹配 s 匹配空行。d d 驗證由兩位數字 乙個連字元再加 5 位數字組成的 id 號。s s 匹配 html ...