爬蟲常用正規表示式

2022-03-22 04:07:03 字數 1369 閱讀 4234

1.指定開頭,指定結尾

str1 = "

background-image: url("#

\b開頭字元.*?結尾字元\b

# 或者

2.匹配所有整型數字

inventory_count = "庫存5000"

res = re.search("

\d+", inventory_count)

3.匹配所有浮點數

price = 565656.23223  

price = re.search('

[-+]?[0-9]*\.?[0-9]+

', price)

4.匹配無視空格和換行

str1 ="instrt into inswate"

text_data = "hjkshcsdk dsehfhk instrt into

inswate "

str1_list = str1.split("")

str2 = ""

for i in

str1_list:

str2 = str2 + r"

%s(\s*)(?i)

" %i

str3 = "

(?s)(?i)

" +str2

response = re.search(str3.rstrip("

(\s*)(?i)

"), text_data)

5.匹配或者

(png|jpg|jpeg) 就是或的關係
images = re.search(r"

6.匹配所有中文

text1_list = re.findall('

[^\x00-\xff]

',text1)

7.匹配小數或者整數

count_list = re.findall('

(\d+\.\d+|\d+)

',desc1)

爬蟲 正規表示式

正規表示式 regular expression 是一種字串匹配的模式 pattern 它可以檢查乙個字串是否含有某種子串 替換匹配的子串 提取某個字串中匹配的子串。匯入正則模組 importre 字元匹配 rs re.findall abc adc print rs rs re.findall a...

正規表示式 常用正規表示式

一 校驗數字的表示式 1 數字 0 9 2 n位的數字 d 3 至少n位的數字 d 4 m n位的數字 d 5 零和非零開頭的數字 0 1 9 0 9 6 非零開頭的最多帶兩位小數的數字 1 9 0 9 0 9 7 帶1 2位小數的正數或負數 d d 8 正數 負數 和小數 d d 9 有兩位小數的...

正規表示式 常用正規表示式

網域名稱 a za z0 9 a za z0 9 a za z0 9 a za z0 9 interneturl a za z s 或 http w w w 手機號碼 13 0 9 14 5 7 15 0 1 2 3 4 5 6 7 8 9 18 0 1 2 3 5 6 7 8 9 d 或者 1 3...