從零開始的python爬蟲教程 Day03

re庫的部分方法

詳細匹配規則請參考菜鳥教程。

在正規表示式裡面寫入普通字元，則可以直接匹配出來。

字元作用

\w匹配字母、數字、下劃線

\w匹配非字母、非數字、非下劃線

\s匹配空白字元

\s匹配非空白字元

\d匹配數字

\d匹配非數字

\a匹配字串開頭

\z匹配字串結尾(包括換行)

\z匹配字串結尾(不包括換行)

\n匹配換行符

\t匹配製表符

^匹配字串開頭

$匹配字串結尾

*匹配0個以上的任意字元

+匹配1個以上的任意字元

字元作用

匹配一組字元，匹配內的任意字元

()匹配括號內的表示式，或乙個組

|a|b匹配a或b

匹配n個前面的表示式

?匹配0-1個前面的表示式定義的片段

匹配m-n個前面的表示式定義的片段

由於正規表示式裡面的很多字元都有其獨特的作用，故此，需要用一種方式來匹配這些有作用的字元。

就是在這些字元前面加上「\」。

這些字元包括：

特殊字元

匹配方法^\^

*\*+\+

.\.?\?

|\|\[{}

\{()

\ ( \ )\\\

修飾符為正規表示式裡面新增的標誌，用於控制匹配模式。

修飾符作用

re.i

匹配對大小寫不敏感

re.m

可以匹配多行

re.s

使.可以匹配換行

re.u

匹配unicode解析字元

match會從字串的頭開始進行匹配，如果開頭不匹配，則返回none。

sentence =
"hello! i'm 12218. ✧٩(ˊωˋ*)و✧"

text = re.match(r'^hello.*?(\d+).*'
, sentence)
print
(text)
print
(text.group())
print
(text.group(0)
)# group()和group(0)作用一樣，都是匹配到的全部字串
print
(text.group(1)
)# group(1)是取匹配到的第乙個字串

search會從字串的任意位置開始進行匹配，如果非發現匹配部分，則返回none。

text = re.search(r'ello.*?(\d+).*'
, sentence)
# search會從字串的任意位置開始進行匹配
print
(text)
print
(text.group())
print
(text.group(0)
)print
(text.group(1)
)

findall是從字串裡面尋找所有符合條件的匹配部分，匹配部分返回乙個列表型別，如果非發現匹配部分，則返回空列表。

text = re.findall(r'\d'
, sentence)
# findall是從字串裡面尋找所有符合條件的匹配部分
print
(text)
print
(type
(text)
)

compile的方法是用於將乙個正規表示式編譯成乙個正規表示式物件，以便重複使用。

content = re.
compile
(r'.*?(\d+).*?'
)# 將乙個正規表示式編譯成乙個正規表示式物件，可以更方便地使用
text = re.findall(content, sentence)
print
(text)

完整版**請移步我的github。

從零開始的python爬蟲教程 Day03

re庫的部分方法詳細匹配規則請參考菜鳥教程。在正規表示式裡面寫入普通字元，則可以直接匹配出來。字元作用 w匹配字母數字下劃線 w匹配非字母非數字非下劃線 s匹配空白字元 s匹配非空白字元 d匹配數字 d匹配非數字 a匹配字串開頭 z匹配字串結尾包括換行 z匹配字串結尾不包括換行 n匹配...

從零開始的python爬蟲教程 Day05

beautiful soup 是乙個可以從html或xml檔案中提取資料的python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式.beautiful soup會幫你節省數小時甚至數天的工作時間.摘自beautifulsoup中文文件和lxml庫一樣，beautifulso...

C C 從零開始的Make教程

include int main 為了編譯生成對應的可執行檔案，你可能會使用下面的命令 cc o hello hello.c hello hello,world 但是，如果使用make 前提是你的作業系統已經安裝了gcc和gnu make 會顯得更清爽一些。make hello cc hello.c...

從零開始的python爬蟲教程 Day03

從零開始的python爬蟲教程 Day03

從零開始的python爬蟲教程 Day05

C C 從零開始的Make教程

相關推薦