看完這篇文章，相信我，你已經掌握正規表示式了！

如果說什麼是我學習程式設計來最好用，最常用的知識點，那應該就是正規表示式了。嚴謹的說，正規表示式並不是一門程式語言，也不是為了一種程式語言而服務的知識。但他確實足夠好用，應用也足夠廣泛。

例如可以在文字中提取規則的**號碼，電子郵箱。在office中的萬用字元也是正規表示式哦，這樣在office中做規則的搜尋和替換，也是能極高的提公升工作效率。

正規表示式在爬蟲中也經常使用到，例如只需要簡單的幾行**，就可以獲取h1標籤下的所有內容。

html = '''

'''content = re.findall('', html)

print(content)

#result [' test1 ', ' test2 ', ' test3 ']

那正規表示式到底是什麼，又該如何使用，為什麼我們爬蟲中老是使用(.*?)，它到底起到了什麼作用，這篇文章就詳細告訴你。

正規表示式(regular expression)描述了一種字串匹配的模式（pattern），聽起來確實不是很好理解。

所以用大白話來說，正規表示式就是一些人為定義的規則，進行組合，使其具有快速匹配字串的功能。

前面說到正規表示式就是一些定義好的規則的組合，這個規則背後就是元字元。

元字元有很多，我們按用途將他們分為5類，便於理解和使用。

在集合中使用-，可以匹配乙個範圍內的字元，例如[a-z]可以匹配a到z任意乙個字元。

使用 ^ 可以匹配補集，例如[^p]ython，就能匹配除了p之外的字元。

（2）次數字元上面的正規表示式只能匹配乙個字元，這時你就需要次數相關的字元。

例如，匹配11個字元的**號碼。

這個使用方法很簡單，大家多練習使用即可。但這裡有乙個很重要的知識點需要和大家講解下。那就是貪婪模式和非貪婪模式。

以*為例，它可以匹配0個或多個字元，那到底是匹配多少個字元了？貪婪模式就是保證匹配成功的情況下，盡可能多的匹配，非貪婪模式則反之。預設情況下是貪婪模式，如果需要切換為非貪婪模式，就需要在*後面加上？號。

以為例，如果我們使用<.>，就會匹配到（.是匹配除換行符之外的任何單個字元）。

如果使用<.>，就會匹配到。

（3）並列（|）並列字元很好理解，當需要匹配兩個字元中的乙個的時候，就用|。a|b，匹配到了a，就不會查詢b。

這裡就是匹配到的就是c或者是python。

（4）提取() 如果需要把匹配的字串提取出來，就需要使用小括號。這主要使用在程式設計中，對資料的提取。正如前面的爬蟲**，用上括號後，就能將h1標籤中的內容提取出來。

html = '''

'''content = re.findall('', html)

print(content)

#result [' test1 ', ' test2 ', ' test3 ']

在 () 中最前面加入 ?:，代表只匹配不獲取（non-capturing）。

html = '''

'''content = re.findall('', html)

print(content)

#result ['', '', '']

其實這裡的?:是是非捕獲元之一，還有兩個非捕獲元是 ?= 和 ?!，前者為正向預查，後者為負向預查。這兩個又衍生出?<=和?a(?=b)，匹配符合b條件的a；(?<=b)a，匹配符合b條件的a。前者是匹配的是括號前面的，後者匹配的是後面的。

windows(?=7|xp|2000|10)，能匹配windows7，windowsxp，windows2000，windows10前的windows。

a(?!b)，匹配不符合b條件的a；(?

（5）特定意義符號就是說固定的寫法來代表特定的意義，例如\d代表的就是匹配乙個數字字元，等同於[0-9]。

以下就是常用的特定意義符號：

字串含義

^匹配輸入字串的開始位置。

$匹配輸入字串的結束位置。

.匹配除換行符（\n、\r）之外的任何單個字元。

\b匹配乙個單詞邊界，也就是指單詞和空格間的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。

\b匹配非單詞邊界。'er\b' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。

\d匹配乙個數字字元。等價於 [0-9]。

\d匹配乙個非數字字元。等價於 [^0-9]。

\f匹配乙個換頁符。

\n匹配乙個換行符

\r匹配乙個回車符。

\t匹配乙個製表符。

\v匹配乙個垂直製表符。

\s匹配任何空白字元，包括空格、製表符、換頁符等等。等價於 [ \f\n\r\t\v]。

\s匹配任何非空白字元。等價於 [^ \f\n\r\t\v]。

\w匹配字母、數字、下劃線。等價於'[a-za-z0-9_]'。

\w匹配非字母、數字、下劃線。等價於 '[^a-za-z0-9_]'。

\為轉義字元，例如\*，就可以匹配*本身。

學完前面的元字元後，就算是完成了大部分正規表示式的知識點了，也能獨立使用正規表示式來完成日常工作了。之前的截圖中，可以看到gm，他們其實是修飾符。

修飾符不寫在正規表示式裡，標記位於表示式之外，我們來看下他們代表的意義。

修飾符含義

具體解釋

iignore

匹配時不區分大寫小

gglobal

全域性匹配，查詢所有的匹配項。

mmulti line

多行匹配，使邊界字元 ^ 和 $ 匹配每一行的開頭和結尾。

s特殊字元圓點 . 中包含換行符 \n

預設情況下的圓點 . 是匹配除換行符 \n 之外的任何字元，加上 s 修飾符之後, . 中包含換行符 \n。

看完這篇文章，相信我，你已經掌握正規表示式了！

看完這篇文章，Class的相關知識你就都懂了。

看完這篇文章你就能完全明白web專案中的路徑問題了

如果你真心想學SEO，不妨先把這篇文章看完

看完這篇文章，相信我，你已經掌握正規表示式了！

看完這篇文章，Class的相關知識你就都懂了。

看完這篇文章你就能完全明白web專案中的路徑問題了

如果你真心想學SEO，不妨先把這篇文章看完

相關推薦