Python中的正規表示式

2022-03-19 06:26:59 字數 2177 閱讀 7997

原子

原子是正規表示式中最基本的組成單位,每個正規表示式中至少要包含乙個原子。常見的原子型別有:

a普通字元作為原子

b非列印字元作為原子

c通用字元作為原子

d原子表。

import

re string="

taoyunjiaoyu"#

普通字元作為原子

pat="

yum"

rst=re.search(pat,string)

print

(rst)

#非列印字元作為原子

#\n換行符\t製表符

#通用字元作為原子

\w字母、數字、下劃線

\w除字母、數字、下劃線

\d 十進位制數字

\d除十進位制數字

\s 空白字元

\s除空白字元

#原子表

元字元

所謂的元字元,就是正規表示式中具有一些特殊含義的字元,比如重複n次前面的字元等。

.  除換行外任意乙個字元

^開始位置

$ 結束位置

* 0\1\多次

?01次

+ 1\多次

恰好n次

至少n次

in,m}至少n,至多m次

|模式選擇符或

() 模式單元

view code

模式修政符

所謂的模式修正符,即可以在不改變正規表示式的情況下,通過模式修正符改變正規表示式的含義,從而實現一些匹配結果的調整等功能。

i匹配時忽略大小寫

string="

python

"pat="

pyt"

rst=re.search(pat,string,re.i)

print(rst)

view code

m多行匹配

l本地化識別匹配

u unicode

s讓.匹配包括換行符

貪婪模式&懶惰模式

貪婪模式的核心點就是盡可能多的匹配,而懶惰模式的核心點就是盡可能少的匹配。

#

貪婪模式與懶惰模式

string="

povthonyhjskjsa

"pat1="

p.*y"#

貪婪模式

pat2="

p.*?y"#

懶惰模式

rst=re.search(pat1,string,re.l)

rst2=re.search(pat2,string,re.l)

print

(rst)

print(rst2)

view code

正規表示式函式

re.match()函式:從頭開始匹配,匹配乙個

re.search()函式:從任意位置開始匹配,匹配乙個

全域性匹配函式

全域性匹配格式:       re.compile(正規表示式).findall(資料)

python中的正規表示式

正規表示式是一種用來匹配字串的強有力的 它的設計思想是用一種描述性的語言來給字串定義乙個規則,凡是符合規則的字串,我們就認為它 匹配 了,否則,該字串就是不合法的。因為正規表示式也是用字串表示的,所以,我們要首先了解如何用字元來描述字元。在正規表示式中,如果直接給出字元,就是精確匹配。用 d可以匹配...

Python中的正規表示式

在使用python製作爬蟲之前,我們必須要對python的正規表示式有一定的了解,在python中使用正規表示式要匯入re包 d匹配數字1 9 w匹配字元 匹配集合裡面的字元 匹配前面出現的正規表示式1次或多次 表示匹配任意乙個字元,除換行符除外,x.匹配xy23中的xy,若是x.則匹配出xy2 表...

Python中的正規表示式

對應 abc 001 s r abc 001 加r字首,就不用考慮轉義的問題了。print re.match d d 010 12345 匹配成功返回乙個match物件,否則返回none.re.match 的常見寫法 test 輸入字串 if re.match 正規表示式 test print ok...