Python 爬蟲 正規表示式

2021-09-24 20:41:12 字數 561 閱讀 7105

常見的正則字元和含義如下:

. 匹配任意字元,除了換行符

^ 匹配字串開頭

$ 匹配字串末尾

() 匹配括號內表示式,也表示乙個組

\s 匹配空白字元

\s 匹配任何非空白字元

\d 匹配數字,等價於[0-9]

\d 匹配任何非數字,等價於[^0-9]

\w 匹配字母數字,等價於[a-za-z0-9]

\w 匹配非字母數字,等價於[^a-za-z0-9]

用來表示一組字元

python 正規表示式有以下 3 種方法:

re.match 方法:從字串起始位置匹配乙個模式,如果從起始位置匹配了,match()就返回none。

語法 re.match(pattern, string, flags=0)

pattern:正規表示式

string:要匹配的字串

flags:控制正規表示式的匹配方式,如 是否區分大小寫、多行匹配等

re.search方法:只能從字串的起始位置進行匹配。

find_all方法:可以找到所有的匹配。

python爬蟲 正規表示式

正規表示式是十分高效而優美的匹配字串工具,一定要好好掌握。利用正規表示式可以輕易地從返回的頁面中提取出我們想要的內容。1 貪婪模式與非貪婪模式 python預設是貪婪模式。貪婪模式,總是嘗試匹配盡可能多的字元 非貪婪模式,總是嘗試盡可能少的字元。一般採用非貪婪模式來提取。2 反斜槓問題 正規表示式裡...

Python爬蟲 正規表示式

一般的正規表示式都可直接到正則生成工具處生成,常見匹配字元 re.match及其常規匹配 re.match 嘗試從字串的起始位置匹配乙個模式,如果不是起始位置匹配成功的話,match 就返回none。re.match pattern,string,flags 0 返回的為乙個物件,其中span代表長...

Python爬蟲 正規表示式

正規表示式就是使用簡潔的特徵表示一組很長的字串。比如 lpppppppp 是一串很長的字串,用正規表示式表示為 lp 操作符說明例項.表示任何單個字元 字符集,對單個字元給出取值範圍 a,s 表示字元a,s,a s 表示從a到s的字元 非字符集,對單個字元給出排除範圍 與上乙個操作符相反,表示排除方...