python3正則模組re的使用方法詳解

2022-09-27 03:51:12 字數 3503 閱讀 9232

正則就是用一些具有特殊含義的符號組合到一起(稱為正規表示式)來描述字元或者字串的方法。或者說:正則就是用來描述一類事物的規則。(在python中)它內嵌在python中,並通過 re 模組實現。正規表示式模式被編譯成一系列的位元組碼,然後由用 c 編寫的匹配引擎執行。

給定乙個正規表示式和另乙個字串,我們可以達到如下的目的:

給定的字串是否符合正規表示式的過濾邏輯(稱作「匹配」):

可以通過正規表示式,從字串中獲取我們想要的特定部分。

靈活性、邏輯性和功能性非常強;

可以迅速地用極簡單的方式達到字串的複雜控制。

由於正規表示式主要應用物件是文字,因此它在各種文字編輯器場合都有應用,小到著名編輯器editplus,大到microsoft word、visual studio等大型編輯器,都可以使用正規表示式來處理文字內容。

正規表示式通常用於在文字中查詢匹配的字串。python裡數量詞預設是貪婪的(在少數語言裡也可能是預設非貪婪),總是嘗試匹配盡可能多的字元;非貪婪的則相反,總是嘗試匹配盡可能少的字元。例如:正規表示式"ab*「如果用於查詢"abbbc」,將找到"a程式設計客棧bbb"。而如果使用非貪婪的數量詞"ab*?",將找到"a"。

與大多數程式語言相同,正規表示式裡使用"「作為轉義字元,這就可能造成反斜槓困擾。假如你需要匹配文字中的字元」",那麼使用程式語言表示的正規表示式裡將需要4個反斜槓"\\":前兩個和後兩個分別用於在程式語言裡轉義成反斜槓,轉換成兩個反斜槓後再在正規表示式裡轉義成乙個反斜槓。python裡的原生字串很好地解決了這個問題,這個例子中的正規表示式可以使用r"\「表示。同樣,匹配乙個數字的」\d"可以寫成r"\d"。有了原生字串,你再也不用擔心是不是漏寫了反斜槓,寫出來的表示式也更直觀。

match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]):

match物件是一次匹配的結果,包含了很多關於此次匹配的資訊,可以使用match提供的可讀屬性或方法來獲取這些資訊。

屬性:string: 匹配時使用的文字。

re: 匹配時使用的pattern物件。

pos: 文字中正規表示式開始搜尋的索引。值與pattern.match()和pattern.seach()方法的同名引數相同。

endpos: 文字中正規表示式結束搜尋的索引。值與pattern.match()和pattern.seach()方法的同名引數相同。

lastindex: 最後乙個**獲的分組在文字中的索引。如果沒有**獲的分組,將為none。

lastgroup: 最後乙個**獲的分組的別名程式設計客棧。如果這個分組沒有別名或者沒有**獲的分組,將為none。

方法:group([group1, …])

獲得乙個或多個分組截獲的字串;指定多個引數時將以元組形式返回。group1可以使用編號也可以使用別名;編號0代表整個匹配的子串;不填寫引數時,返回group(0);沒有截獲字串的組返回none;截獲了多次的組返回最後一次截獲的子串。

groups([default])

以元組形式返回全部分組截獲的字串。相當於呼叫group(1,2,…last)。default表示沒有截獲字串的組以這個值替代,預設為none。

groupdict([default])

返回以有別名的組的別名為鍵、以該組截獲的子串為值的字典,沒有別名的組不包含在內。default含義同上。

start([group])

返回指定的組截獲的子串在string中的起始索引(子串第乙個字元的索引)。group預設值為0。

end([group])

返回指定的組截獲的子串在string中的結束索引(子串最後乙個字元的索引+1)。group預設值為0。

span([group])

返回(start(group), end(group))。

expand(template)

將匹配到的分組代入template中然後返回。template中可以使用\id或\g、\g引用分組,但不能使用編號0。\id與\g是等價的;但\10將被認為是第10個分組,如果你想表達\1之後是字元'0',只能使用\g<1>0。

import re

ret1 = re.match('t.w', 'taaa333w123')

try:

print('匹配到的資料是:', ret1.group()) # 匹配的是乙個group

except:

print('沒有匹配到資料')

search(string[, pos[, endpos]]) | re.search(pattern, string[,flags])

這個方法用於查詢字串中可以匹配成功的子串。從string的pos下標處起嘗試匹配pattern,如果pattern結束時仍可匹配,則返回乙個match物件;若無法匹配,則將pos加1後重新嘗試匹配;直到pos=endpos時仍無法匹配則返回none。

pos和endpos的預設值分別為0和len(string));re.search()無法指定這兩個引數,引數flags用於編譯pattern時指定匹配模式。

ret5 = re.search('^[0-9].*', '1hello python') # ^代表以什麼開頭

print(ret5.group())

split類似string中的split方法,不多解釋

findall()方法搜尋string,以列表形式返回全部能匹配的子串。 例項:

import re

p = re.compile(r'\d+')

print(p.findall('one1two2three3four4'))

輸出['1', '2', '3', '4']

finditer()方法搜尋string,返回乙個順序訪問每乙個匹配結果(match物件)的迭代器。例項:

import re

p = re.compile(r'\d+')

for m in p.finditer('one1two2three3four4'程式設計客棧):

print(m.group(),)

輸出123

4sub(repl, string[, count]) | re.sub(pattern, repl, string[, count])

使用repl替換string中每乙個匹配的子串後返回替換後的字串。

當repl是乙個字串時,可以使用\id或\g、\g引用分組,但不能使用編號0。

當repl是乙個方法時,這個方法應當只接受乙個引數(match物件),並返回乙個字串用於替換(返回的字串中不能再引用分組)。

count用於指定最多替換次數,不指定時全部替換。

import re

p = re.compile(r'(\w+) (\w+)')

s = 'i say, hello world!'

print(p.sub(r'\2 \1', s))

def func(m):

return m.group(1).title() + ' ' + m.group(2).title()

print(p.sub(func, s))

輸出say i, world hello!

python3 牛逼的正則模組re

牛刀小試 兼職模特空姐 txt encoding utf 8 phone number re.findall 0 9 f.read print phone number re 匹配語法 講解 1 re.split 匹配到的字元就是分隔點,沒有匹配到的就 表示,print re.split 0 9 s...

python3 常用模組 RE模組

一.常用正規表示式符號和語法 匹配所有字串,除 n以外 表示範圍 0 9 匹配前面的子表示式零次或多次。要匹配 字元,請使用 匹配前面的子表示式一次或多次。要匹配 字元,請使用 匹配字串開頭 匹配字串結尾 re 轉義字元,使後乙個字元改變原來的意思,如果字串中有字元 需要匹配,可以 或者字符集 re...

python3 常用模組 RE模組

一.常用正規表示式符號和語法 匹配所有字串,除 n以外 表示範圍 0 9 匹配前面的子表示式零次或多次。要匹配 字元,請使用 匹配前面的子表示式一次或多次。要匹配 字元,請使用 匹配字串開頭 匹配字串結尾 re 轉義字元,使後乙個字元改變原來的意思,如果字串中有字元 需要匹配,可以 或者字符集 re...