python爬蟲學習 正規表示式的使用

2021-08-16 05:08:10 字數 1315 閱讀 1837

#正規表示式實現字串的提取處理等等操作

#正則不是python獨有的,只是python使用re模組進行了支援

#常見的匹配模式參加開發文件

#re.match,從頭開始匹配,中間匹配不到

import re

str='wqgeygewgfywgqfhdsakdgsafgdsah'

result=re.match("wq",str)

print(result)

#.*可以匹配所有的字元

result=re.match("wq.*h",str)

print(result)

#使用小括號,可以僅僅匹配小括號裡的內容

result=re.match("wq(.*)f",str)

print(result)

print(result.group(1))#group指的是第幾個括號裡的字串

#貪婪模式.*盡可能多的匹配

#懶惰模式.*?盡可能短的匹配

result=re.match("wq(.*?)f",str)

print(result)

print(result.group(1))#貪婪模式比較常用,因為比較精準

#匹配模式,使之可以匹配到換行符

str='wqgeygewgfywgqfhds\

akdgsafgdsah'

result=re.match("wq.*h",str,re.s)

print(result)

#轉義遇到像$這樣的有意義的字元,可以在特殊字元前加\進行轉義,即可以匹配

#re.search掃瞄整個字串,返回第乙個匹配成功的結果

str='wqgeygewgfywgqfhdsakdgsafgdsah'

result=re.match("wg",str)

result_search=re.search("wg",str)

print(result)

print(result_search)

#re.findall以列表的形式返回全部的匹配字串

#re.sub(規則,替換內容,替換的字串)替換字串中每乙個匹配的子串返回替換後的字串

#re.compile將正規表示式編譯成正則物件

str=""

pattern=re.compile("",re.s)

result=re.match(pattern,str)

#用於**復用

這其中有不合適或者不正確的地方歡迎指正,我的qq號碼:2867221444(喬金明),謝謝,也可以相互交流下,備註資訊隨意,只要能看得出是開發者或者學習者即可。

python爬蟲 正規表示式

正規表示式是十分高效而優美的匹配字串工具,一定要好好掌握。利用正規表示式可以輕易地從返回的頁面中提取出我們想要的內容。1 貪婪模式與非貪婪模式 python預設是貪婪模式。貪婪模式,總是嘗試匹配盡可能多的字元 非貪婪模式,總是嘗試盡可能少的字元。一般採用非貪婪模式來提取。2 反斜槓問題 正規表示式裡...

Python爬蟲 正規表示式

一般的正規表示式都可直接到正則生成工具處生成,常見匹配字元 re.match及其常規匹配 re.match 嘗試從字串的起始位置匹配乙個模式,如果不是起始位置匹配成功的話,match 就返回none。re.match pattern,string,flags 0 返回的為乙個物件,其中span代表長...

Python 爬蟲 正規表示式

常見的正則字元和含義如下 匹配任意字元,除了換行符 匹配字串開頭 匹配字串末尾 匹配括號內表示式,也表示乙個組 s 匹配空白字元 s 匹配任何非空白字元 d 匹配數字,等價於 0 9 d 匹配任何非數字,等價於 0 9 w 匹配字母數字,等價於 a za z0 9 w 匹配非字母數字,等價於 a z...