Python爬蟲實戰基礎篇（1）正規表示式

在學習python來做乙個爬蟲時，是一定要知道正規表示式的，今天我就把學到的關於正規表示式的知識分享給大家，希望可以對你們有所幫助

字元

一般字元匹配自身 . 匹配任意除換行符以外的字元 \ 轉義字元，使後乙個字元改變原來的意思

字符集，對應的位置可以是字符集中任意字元 ^表示取反，意思是除過這些字元之外的其他字元

預定義字符集（可以寫在字符集[…]中）

\d          匹配數字0-9
\d 匹配非數字
\s 空白字元 [
《空格》\t
\r\n
\f\v
]\s 非空白字元[^\s
]\w 單詞字元[a-z a-z 0-9]
\w 非單詞字元[^\w
]

數量詞（用在字元或(…)之後）

* 匹配前乙個字元0或無限次 + 匹配前乙個字元1次或無限次 ? 匹配前乙個字元0次或一次匹配前乙個字元m次匹配前乙個字元m-n次，若省略m，則匹配0-n次，若省略n，匹配m到無限次

*?+???? 使*+?變成非貪婪模式

邊界匹配

^ 匹配字串開頭，在多行模式匹配每一行的開頭 $ 匹配字串末尾，在多行模式匹配每一行的末尾 \a 僅匹配字串開頭 \z 僅匹配字串末尾 /b 匹配\w和\w之間 /b [^/b]

邏輯分組

| **左右表示式任意匹配乙個，總是先嘗試左邊的表示式，一旦匹配成功則跳過匹配右邊的表示式，如果|沒有被包括在()中，範圍就是整個正規表示式 (...) 被括起來的表示式將作為分組，從表示式左邊開始每遇到乙個分組的左括號'('，編號加1，另外，分組表示式作為乙個整體，可以後接數量詞，表示式中的|僅在改組有效') (?p...) 分組，除了原來的編號外再指定乙個額外的別名 \引用編號為的分組匹配到的字串 (?p = name) 引用別名的分組匹配到的字串

特殊構造（不作為分組）

(?:...)   (...)的不分組版本，用於使用|或後接數量詞
(?ilmsux) ilmsux的每個字元代表乙個匹配模式，只能用在正規表示式的開頭，可選多個
(?#...) #後的內容將作為注釋被忽略
(?!...) 之後的表示式內容需要不匹配表示式才能成功匹配
(?<=...) 之前的字串需要匹配表示式才能成功匹配
(?...) 之前的字串內容需要不匹配表示式才能成功匹配
(?(id/name)yes-pattern|no-pattern) 如果編號為id/別名為name的組匹配到字元，則需要匹配yes-pattern，否則需要匹配no-pattern |no-pattern 可以省略

1.2數量詞的貪婪模式和非貪婪模式

關於反斜槓

Python爬蟲實戰基礎篇（1）正規表示式

python網路爬蟲實戰1 基礎篇

Python爬蟲基礎 1

Python爬蟲基礎1

Python爬蟲實戰基礎篇（1）正規表示式

python網路爬蟲實戰1 基礎篇

Python爬蟲基礎 1

Python爬蟲基礎1

相關推薦