正規表示式筆記

2022-05-10 23:22:00 字數 4225 閱讀 4070

字元

字元類

預定義字元類

邊界匹配器

greedy 數量詞

正規表示式特殊符號及用法, 其中例子部分用到了python的語法

字元含義

.表示匹配除了換行符外的任何字元 注:通過設定 re.dotall 標誌可以使 . 匹配任何字元(包含換行符)

|a | b,表示匹配正規表示式 a 或者 b

^1. (脫字元)匹配輸入字串的開始位置

2. 如果設定了 re.multiline 標誌,^ 也匹配換行符之後的位置(python)

$1. 匹配輸入字串的結束位置

2. 如果設定了 re.multiline 標誌,$ 也匹配換行符之前的位置

\1. 轉義,將乙個普通字元變成特殊字元,例如 \d 表示匹配所有十進位制數字

2. 解除元字元的特殊功能,例如 . 表示匹配點號本身

3. 引用序號對應的子組所匹配的字串 4. 詳見下方列舉

[...]

字元類,匹配所包含的任意乙個字元

1:連字元 - 如果出現在字串中間表示字元範圍描述;如果如果出現在首位則僅作為普通字元

2:特殊字元僅有反斜線 \ 保持特殊含義,用於轉義字元。其它特殊字元如 *、+、? 等均作為普通字元匹配

3:脫字元 ^ 如果出現在首位則表示匹配不包含其中的任意字元;如果 ^ 出現在字串中間就僅作為普通字元匹配

m 和 n 均為非負整數,其中 m <= n,表示前邊的 re 匹配 m ~ n 次

1: 表示至少匹配 m 次

2: 等價於

3: 表示需要匹配 n 次

*匹配前面的子表示式零次或多次,等價於

+匹配前面的子表示式一次或多次,等價於

?匹配前面的子表示式零次或一次,等價於

*?, +?, ??

預設情況下 、+ 和 ? 的匹配模式是貪婪模式(即會盡可能多地匹配符合規則的字串);?、+? 和 ?? 表示啟用對應的非貪婪模式。

舉個栗子:對於字串 "fishccc",正規表示式 fishc+ 會匹配整個字串,而 fishc+? 則匹配 "fishc"。

?同上,啟用非貪婪模式,即只匹配 m 次

(...)

匹配圓括號中的正規表示式,或者指定乙個子組的開始和結束位置

注:子組的內容可以在匹配之後被 \數字 再次引用

舉個栗子:(\w+) \1 可以匹配字串 "fishc fishc.com" 中的 "fishc fishc"(注意有空格)

以下以python語言為例子, 對正則進行講解

字元含義

\下邊列舉了由字元 '' 和另乙個字元組成的特殊含義。注意,'' + 元字元的組合可以解除元字元的特殊功能

\序號1. 引用序號對應的子組所匹配的字串,子組的序號從 1 開始計算

2. 如果序號是以 0 開頭,或者 3 個數字的長度。那麼不會被用於引用對應的子組,而是用於匹配八進位制數字所表示的 ascii 碼值對應的字元

舉個栗子:(.+) \1 會匹配 "fishc fishc" 或 "55 55",但不會匹配 "fishcfishc"(注意,因為子組後邊還有乙個空格)

\a匹配輸入字串的開始位置

\z匹配輸入字串的結束位置

\b匹配乙個單詞邊界,單詞被定義為 unidcode 的字母數字或下橫線字元

舉個栗子:\bfishc\b 會匹配字串 "love fishc"、fishc." 或 "(fishc)"

\b匹配非單詞邊界,其實就是與 \b 相反

舉個栗子:py\b 會匹配字串 "python"、"py3" 或 "py2",但不會匹配 "py "、"py." 或 "py!"

\d1. 對於 unicode(str 型別)模式:匹配任何乙個數字,包括 [0-9] 和其他數字字元;如果開啟了 re.ascii 標誌,就只匹配 [0-9]

2. 對於 8 位(bytes 型別)模式:匹配 [0-9] 中任何乙個數字

\d匹配任何非 unicode 的數字,其實就是與 \d 相反;如果開啟了 re.ascii 標誌,則相當於匹配 [^0-9]

\s1. 對於 unicode(str 型別)模式:匹配 unicode 中的空白字元(包括 [ \t\n\r\f\v] 以及其他空白字元);如果開啟了 re.ascii 標誌,就只匹配 [ \t\n\r\f\v]

2. 對於 8 位(bytes 型別)模式:匹配 ascii 中定義的空白字元,即 [ \t\n\r\f\v]

\s匹配任何非 unicode 中的空白字元,其實就是與 \s 相反;如果開啟了 re.ascii 標誌,則相當於匹配 [^ \t\n\r\f\v]

\w1. 對於 unicode(str 型別)模式:匹配任何 unicode 的單詞字元,基本上所有語言的字元都可以匹配,當然也包括數字和下橫線;如果開啟了 re.ascii 標誌,就只匹配 [a-za-z0-9_]

2. 對於 8 位(bytes 型別)模式:匹配 ascii 中定義的字母數字,即 [a-za-z0-9_]

\w匹配任何非 unicode 的單詞字元,其實就是與 \w 相反;如果開啟了 re.ascii 標誌,則相當於 [^a-za-z0-9_]

轉義符號

正規表示式還支援大部分 python 字串的轉義符號:\a,\b,\f,\n,\r,\t,\u,\u,\v,\x,\

1:\b 通常用於匹配乙個單詞邊界,只有在字元類中才表示「退格」

2:\u 和 \u 只有在 unicode 模式下才會被識別

3:八進位制轉義(\數字)是有限制的,如果第乙個數字是 0,或者如果有 3 個八進位制數字,那麼就被認為是八進位制數;其他情況則被認為是子組引用;至於字串,八進位制轉義總是最多只能是 3 個數字的長度

(?...)

(? 開頭的表示為正規表示式的擴充套件語法(下邊這些是 python 支援的所有擴充套件語法)

(?ailmsux)

1. (? 後可以緊跟著 'a','i','l','m','s','u','x' 中的乙個或多個字元,只能在正規表示式的開頭使用

2. 每乙個字元對應一種匹配標誌:re-a(只匹配 ascii 字元),re-i(忽略大小寫),re-l(區域設定),re-m(多行模式), re-s(. 匹配任何符號),re-x(詳細表示式),包含這些字元將會影響整個正規表示式的規則

3. 當你不想通過 re.compile() 設定正規表示式標誌,這種方法就非常有用啦 注意,由於 (?x) 決定正規表示式如何被解析,所以它應該總是被放在最前邊(最多允許前邊有空白符)。如果 (?x) 的前邊是非空白字元,那麼 (?x) 就發揮不了作用了。

(?:...)

非捕獲組,即該子組匹配的字串會進行正則匹配, 但不會放到返回結果中

(?p...)

命名組,通過組的名字(name)即可訪問到子組匹配的字串

(?p=name)

反向引用乙個命名組,它匹配指定命名組匹配的任何內容

(?#...)

注釋,括號中的內容將被忽略

(?=...)

前向肯定斷言。如果當前包含的正規表示式(這裡以 ... 表示)在當前位置成功匹配,則代表成功,否則失敗。一旦該部分正規表示式被匹配引擎嘗試過,就不會繼續進行匹配了;剩下的模式在此斷言開始的地方繼續嘗試。

舉個栗子:love(?=fishc) 只匹配後邊緊跟著 "fishc" 的字串 "love"

(?!...)

前向否定斷言。這跟前向肯定斷言相反(不匹配則表示成功,匹配表示失敗)。

舉個栗子:fishc(?!.com) 只匹配後邊不是 ".com" 的字串 "fishc"

(?<=...)

後向肯定斷言。跟前向肯定斷言一樣,只是方向相反。

舉個栗子:(?<=love)fishc 只匹配前邊緊跟著 "love" 的字串 "fishc"

(?後向否定斷言。跟前向肯定斷言一樣,只是方向相反。

舉個栗子:(?

(?(id/name)yes-pattern|no-pattern)

1. 如果子組的序號或名字存在的話,則嘗試 yes-pattern 匹配模式;否則嘗試 no-pattern 匹配模式

2. no-pattern 是可選的

舉個栗子:(<)?(\w+@\w+(?:.\w+)+)(?(1)>|$) 是乙個匹配郵件格式的正規表示式,可以匹配 [email protected] 和 '[email protected]',但是不會匹配 ''

正規表示式 正規表示式函式 筆記

筆記直接使用pycharm製作,需要原始檔請私聊。正規表示式函式 1.match 2.search 3.全域性匹配函式 全域性匹配 re.compile 正規表示式 findall 資料 import re string poythonydasadcasa pat2 p.y 懶惰模式執行 較精準 r...

正規表示式筆記

不同的語系編碼的順序不一樣 lang c 0 1 2 3 a b c d z a b c d z lang zh cn 0 1 2 3 4 a a b b c c z z 使用正規表示式時,需要留意環境的語系是什麼,否則會有不同的結果 alnum 英文大小寫字元及數字 0 9 a z a z alp...

正規表示式筆記

d 0 9中的任意乙個數字 w a z,a z,0 9,中的任意乙個,即字母數字下劃線 s 空格,製表符,換頁符等空白字元的其中任意乙個 小數點可以匹配換行符 n 以外的任意乙個字元 匹配某範圍內的任意乙個字元 ab9 匹配 a b 9 中的任意乙個 abc 匹配abc之外的任意乙個字元 a g 匹...