python之正規表示式

2021-09-24 17:36:04 字數 4050 閱讀 6723

python 的 re 模組(regular expression 正規表示式)提供各種正規表示式的匹配操作,和 perl 指令碼的正規表示式功能類似,使用這一內嵌於 python 的語言工具,儘管不能滿足所有複雜的匹配情況,但足夠在絕大多數情況下能夠有效地實現對複雜字串的分析並提取出相關資訊。python 會將正規表示式轉化為位元組碼,利用 c 語言的匹配引擎進行深度優先的匹配。

表 2. 正規表示式特殊序列

正規表示式例項

數字: ^ [0-9]*$

n位的數字:^\d$

至少n位的數字:^\d$

m-n位的數字:^\d$

零和非零開頭的數字:^(0|[1-9][0-9]*)$

非零開頭的最多帶兩位小數的數字:^([1-9][0-9]*)+(.[0-9])?$

帶1-2位小數的正數或負數:^(-)?\d+(.\d)?$

正數、負數、和小數:^(-|+)?\d+(.\d+)?$

有兩位小數的正實數:^ [0-9]+(.[0-9])?$

有1~3位小數的正實數:^ [0-9]+(.[0-9])?$

非零的正整數:^ [1-9]\d*$ 或 ^([1-9][0-9])$ 或 ^+?[1-9][0-9]$

非零的負整數:^-[1-9]0-9"$ 或 ^-[1-9]\d$

非負整數:^\d+$ 或 ^ [1-9]\d*|0$

非正整數:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

非負浮點數:^\d+(.\d+)?$ 或 ^ [1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0$

非正浮點數:^((-\d+(.\d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]\d*.\d*|0.\d*[1-9]\d*))|0?.0+|0$

正浮點數:^ [1-9]\d*.\d*|0.\d*[1-9]\d*$ 或 ^(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))$

負浮點數:^-([1-9]\d*.\d*|0.\d*[1-9]\d*)$ 或 ^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))$

浮點數:^(-?\d+)(.\d+)?$ 或 ^-?([1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0)$

校驗字元的表示式

漢字:^ [\u4e00-\u9fa5]$

英文和數字:^ [a-za-z0-9]+$ 或 ^ [a-za-z0-9]$

長度為3-20的所有字元:^.$

由26個英文本母組成的字串:^ [a-za-z]+$

由26個大寫英文本母組成的字串:^ [a-z]+$

由26個小寫英文本母組成的字串:^ [a-z]+$

由數字和26個英文本母組成的字串:^ [a-za-z0-9]+$

由數字、26個英文本母或者下劃線組成的字串:^\w+$ 或 ^\w$

中文、英文、數字包括下劃線:^ [\u4e00-\u9fa5a-za-z0-9_]+$

中文、英文、數字但不包括下劃線等符號:^ [\u4e00-\u9fa5a-za-z0-9]+$ 或 ^ [\u4e00-\u9fa5a-za-z0-9]$

可以輸入含有^%&』,;=?katex parse error: can't use function '\"' in math mode at position 1: \̲"̲等字元:[^%&',;=?\x22]+ 12 禁止輸入含有的字元:[^\x22]+

特殊需求表示式

網域名稱:[a-za-z0-9][-a-za-z0-9](/.[a-za-z0-9][-a-za-z0-9])+/.?

interneturl:[a-za-z]+://[^\s]* 或 ^http://([\w-]+.)+[\w-]+(/[\w-./?%&=]*)?$

手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d$

**號碼(「***-******x」、「***x-******xx」、「***-******x」、「***-******xx」、"******x"和"******xx):^((\d-)|\d-)?\d$

國內**號碼(0511-4405222、021-87888822):\d-\d|\d-\d

身份證號(15位、18位數字):^\d|\d$

短身份證號碼(數字、字母x結尾):^([0-9])(x|x)?$ 或 ^\d|[0-9x]|[0-9x]?$

帳號是否合法(字母開頭,允許5-16位元組,允許字母數字下劃線):^ [a-za-z][a-za-z0-9_]$

密碼(以字母開頭,長度在6~18之間,只能包含字母、數字和下劃線):^ [a-za-z]\w$

強密碼(必須包含大小寫字母和數字的組合,不能使用特殊字元,長度在8-10之間):^(?=.\d)(?=.[a-z])(?=.*[a-z]).$

日期格式:^\d-\d-\d

一年的12個月(01~09和1~12):^(0?[1-9]|1[0-2])$

乙個月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$

錢的輸入格式:

1.有四種錢的表示形式我們可以接受:「10000.00」 和 「10,000.00」, 和沒有 「分」 的 「10000」 和 「10,000」: ^ [1-9][0-9]*$

2.這表示任意乙個不以0開頭的數字,但是,這也意味著乙個字元"0"不通過,所以我們採用下面的形式:^(0|[1-9][0-9]*)$

3.乙個0或者乙個不以0開頭的數字.我們還可以允許開頭有乙個負號:^(0|-?[1-9][0-9]*)$

4.這表示乙個0或者乙個可能為負的開頭不為0的數字.讓使用者以0開頭好了.把負號的也去掉,因為錢總不能是負的吧.下面我們要加的是說明可能的小數部分:^ [0-9]+(.[0-9]+)?$

5.必須說明的是,小數點後面至少應該有1位數,所以"10."是不通過的,但是 「10」 和 「10.2」 是通過的:^ [0-9]+(.[0-9])?$

6.這樣我們規定小數點後面必須有兩位,如果你認為太苛刻了,可以這樣:^ [0-9]+(.[0-9])?$

7.這樣就允許使用者只寫一位小數.下面我們該考慮數字中的逗號了,我們可以這樣:^ [0-9](,[0-9])*(.[0-9])?$

23 8.1到3個數字,後面跟著任意個 逗號+3個數字,逗號成為可選,而不是必須:^([0-9]+|[0-9](,[0-9])*)(.[0-9])?$

備註:這就是最終結果了,別忘了"+「可以用」*"替代如果你覺得空字串也可以接受的話(奇怪,為什麼?)最後,別忘了在用函式時去掉去掉那個反斜槓,一般的錯誤都在這裡

xml檔案:^ ([a-za-z]±?)+[a-za-z0-9]+\.[x|x][m|m][l|l]$

中文字元的正規表示式:[\u4e00-\u9fa5]

雙位元組字元:[^ \x00-\xff] (包括漢字在內,可以用來計算字串的長度(乙個雙位元組字元長度計2,ascii字元計1))

空白行的正規表示式:\n\s*\r (可以用來刪除空白行)

html標記的正規表示式:]>.?|<.> (網上流傳的版本太糟糕,上面這個也僅僅能部分,對於複雜的巢狀標記依舊無能為力)

首尾空白字元的正規表示式:^\s*|\s*katex parse error: expected group after '^' at position 3: 或(^̲\s*)|(\s*) (可以用來刪除行首行尾的空白字元(包括空格、製表符、換頁符等等),非常有用的表示式)

Python之正規表示式

正規表示式正規表示式主要用來匹配字串,例如 判斷乙個字串是否是乙個合法的 思想是用描述性的語言給字串乙個規則。re模組中的match函式提供了這種功能,若匹配成功則返回匹配物件,否則返回none。一 語法 d 表示匹配數字 w 表示匹配字母或數字 可以匹配任意字元 s可以匹配乙個空格或者tab 特殊...

Python之正規表示式

正規表示式元字元如下 匹配除換行符以外的所以字元 規定匹配模式必須出現在目標字串的開頭,例如 hell hello hellboy 規定匹配模式必須出現在目標字串的結尾,例如 ar car bar 其前乙個字元必須在目標物件中連續出現零次或多次 其前乙個字元必須在目標物件中連續出現一次或多次 其前乙...

Python之正規表示式

匯入re模組 檢索和替換 re.sub re.sub pattern,repl,string,count 0,flags 0 pattern 正則中的模式字串 repl 替換的字串,也可為乙個函式 string 要被查詢替換的原始字串 count 模式匹配後替換的最大次數,預設 0 表示替換所有的匹...