python3網路爬蟲 正規表示式1(四)

2021-08-20 08:17:47 字數 1684 閱讀 3482

'''

正規表示式

'''import re #匯入正規表示式類

#search方法匹配字元有兩個引數,第乙個引數是匹配規則(第乙個引數左邊的r表示原始字元,如果有反斜槓,代**式化這些反斜槓輸出原始字元),

# 第二個引數是被匹配的資料。

r = re.search(r'i love you','i love you')

print(r) #結果匹配到 match='i love you'>

#(1)匹配除換行符以外的所以字元

r = re.search('i lov.','i love you') #點: 匹配除換行符以外的所以字元

print(r) #match='i love'>

#(2)需要匹配點

r = re.search(r'\.','i love you .') #如果需要匹配點,則使用格式化\. 輸出原始字元點

print(r) # match='.'>

#(3)匹配第乙個出現的數字 \d

r = re.search(r'\d','i love 123')

print(r) #match='1'>

#(4)匹配多個數字:每乙個\d代表乙個數字

r = re.search(r'\d\d\d','i love you 123')

print(r) #match='123'>

#(5)匹配給定範圍任意的字元

r = re.search(r'[a-z]','you love you')

print(r) # match='y'>

#(6)匹配給定範圍的任意數字

r = re.search(r'[1-5]','987654321') #匹配出現第乙個符合1到5的任意乙個數字

print(r) #match='5'>

#(7)匹配次數用{}表示

r = re.search(r'[1-5]','987654321')

print(r) #match='543'>

#(8)匹配乙個範圍內的次數

r = re.search(r'[1-5]','987654321') #匹配1-5的數字,最少匹配3次,最多匹配5次

print(r) #match='54321'>

#(9)匹配乙個百位數字,因匹配符自身是不認識百十千萬的數字,只是把它們當成一串數字。

# 所以匹配百位數字的時候,需要對每一位數字都給出乙個匹配範圍,逐個位數進行匹配。

'''例如匹配0-255的數字

[01]\d\d|2[0-4]\d|25[0-5]'表示式解釋。

[01]\d\d 表示百位為0到1的時候,十位和個位任何數字都可以。

2[0-4]\d 表示百位為2的時候十位只能是0到4的任意數字,個位任意數

25[0-5] 表示百位和十位為25時候,個位只能是0到5的任意數字

'''r = re.search(r'[01]\d\d|2[0-4]\d|25[0-5]','100')

print(r) #match='200'

#(10)匹配乙個ip

r = re.search(r'(([01]\d\d|2[0-4]\d|25[0-5])\.)([01]\d\d|20-4\d|25[0-5])','192.168.1.1')

print(r)

Python 3 網路爬蟲

python 原來還可以這樣玩 python爬蟲,破解有道翻譯介面引數 破解有道翻譯反爬蟲機制 python3網路爬蟲快速入門實戰解析 article details 78123502 python3網路爬蟲 五 python3安裝scrapy article details 60156205 py...

Python3 網路爬蟲 1

準備開始寫一些python3關於爬蟲相關的東西,主要是一些簡單的網頁爬取,給身邊的同學入門看。首先我們向網路伺服器傳送get請求以獲取具體的網頁,再從網頁中讀取html內容。python view plain copy print?coding utf 8 from urllib.request i...

初識Python3網路爬蟲

定義 網路爬蟲 web spider 又被稱為網頁蜘蛛,是一種按照一定的規則,自動地抓取 資訊的程式或者指令碼。爬蟲其實是通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 抓取網際網路上的資料,為我所用,有了大量的資料,就如同有了乙個資料銀行一樣,下一步就是如何將這些資料...