Perl 常用正規表示式整理

2021-10-04 07:40:13 字數 3910 閱讀 5209

前言:正規表示式,又稱規則表示式。(英語:regular expression,在程式碼中常簡寫為regex、regexp或re),電腦科學的乙個概念。正則表通常被用來檢索、替換那些符合某個模式(規則)的文字。

許多程式語言都支援利用正規表示式進行字串操作。例如,在perl中就內建了乙個功能強大的正規表示式引擎。正規表示式這個概念最初是由unix中的工具軟體(例如sed和grep)普及開的。正規表示式通常縮寫成「regex」,單數有regexp、regex,複數有regexps、regexes、regexen。

一、校驗數字的表示式

數字:^[0-9]*$

n位的數字:^\d$

至少n位的數字:^\d$

m-n位的數字:^\d$

零和非零開頭的數字:^(0|[1-9][0-9]*)$

非零開頭的最多帶兩位小數的數字:^([1-9][0-9]*)+(.[0-9])?$

帶1-2位小數的正數或負數:^(\-)?\d+(\.\d)?$

正數、負數、和小數:^(\-|\+)?\d+(\.\d+)?$

有兩位小數的正實數:^[0-9]+(.[0-9])?$

有1~3位小數的正實數:^[0-9]+(.[0-9])?$

非零的正整數:^[1-9]\d*$ 或 ^([1-9][0-9]*)$ 或 ^\+?[1-9][0-9]*$

非零的負整數:^\-[1-9]0-9″*$ 或 ^-[1-9]\d*$

非負整數:^\d+$ 或 ^[1-9]\d*|0$

非正整數:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

非負浮點數:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

非正浮點數:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

正浮點數:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

負浮點數:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

浮點數:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

二、校驗字元的表示式

漢字:^[\u4e00-\u9fa5]$

英文和數字:^[a-za-z0-9]+$ 或 ^[a-za-z0-9]$

長度為3-20的所有字元:^.$

由26個英文本母組成的字串:^[a-za-z]+$

由26個大寫英文本母組成的字串:^[a-z]+$

由26個小寫英文本母組成的字串:^[a-z]+$

由數字和26個英文本母組成的字串:^[a-za-z0-9]+$

由數字、26個英文本母或者下劃線組成的字串:^\w+$ 或 ^\w$

中文、英文、數字包括下劃線:^[\u4e00-\u9fa5a-za-z0-9_]+$

中文、英文、數字但不包括下劃線等符號:^[\u4e00-\u9fa5a-za-z0-9]+$ 或 ^[\u4e00-\u9fa5a-za-z0-9]$

可以輸入含有^%&',;=?$\」等字元:[^%&',;=?$\x22]+

禁止輸入含有~的字元:[^~\x22]+

三、特殊需求表示式

網域名稱:[a-za-z0-9][-a-za-z0-9](/.[a-za-z0-9][-a-za-z0-9])+/.?

interneturl:[a-za-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$

手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d$

電話號碼(「***-******x」、」***x-******xx」、」***-******x」、」***-******xx」、」******x」和」******xx):^($$\d-)|\d-)?\d$國內電話號碼(0511-4405222、021-87888822):\d-\d|\d-\d

身份證號(15位、18位數字):^\d|\d$

短身份證號碼(數字、字母x結尾):^([0-9])(x|x)?$ 或 ^\d|[0-9x]|[0-9x]?$

帳號是否合法(字母開頭,允許5-16位元組,允許字母數字下劃線):^[a-za-z][a-za-z0-9_]$

密碼(以字母開頭,長度在6~18之間,只能包含字母、數字和下劃線):^[a-za-z]\w$

強密碼(必須包含大小寫字母和數字的組合,不能使用特殊字元,長度在8-10之間):^(?=.*\d)(?=.*[a-z])(?=.*[a-z]).$

日期格式:^\d-\d-\d

一年的12個月(01~09和1~12):^(0?[1-9]|1[0-2])$

乙個月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$

四、錢的輸入格式:

有四種錢的表示形式我們可以接受:」10000.00″ 和 「10,000.00″, 和沒有 「分」 的 「10000″ 和 「10,000″:^[1-9][0-9]*$

這表示任意乙個不以0開頭的數字,但是,這也意味著乙個字元」0″不通過,所以我們採用下面的形式:^(0|[1-9][0-9]*)$

乙個0或者乙個不以0開頭的數字.我們還可以允許開頭有乙個負號:^(0|-?[1-9][0-9]*)$

這表示乙個0或者乙個可能為負的開頭不為0的數字.讓使用者以0開頭好了.把負號的也去掉,因為錢總不能是負的吧.下面我們要加的是說明可能的小數部分:^[0-9]+(.[0-9]+)?$

必須說明的是,小數點後面至少應該有1位數,所以」10.」是不通過的,但是 「10″ 和 「10.2″ 是通過的:^[0-9]+(.[0-9])?$

這樣我們規定小數點後面必須有兩位,如果你認為太苛刻了,可以這樣:^[0-9]+(.[0-9])?$

這樣就允許使用者只寫一位小數。下面我們該考慮數字中的逗號了,我們可以這樣:^[0-9](,[0-9])*(.[0-9])?$

1到3個數字,後面跟著任意個 逗號+3個數字,逗號成為可選,而不是必須:^([0-9]+|[0-9](,[0-9])*)(.[0-9])?$

備註:這就是最終結果了,別忘了」+」可以用」*」替代。如果你覺得空字串也可以接受的話(奇怪,為什麼?)最後,別忘了在用函式時去掉去掉那個反斜槓,一般的錯誤都在這裡

xml檔案:^([a-za-z]+-?)+[a-za-z0-9]+\\.[x|x][m|m][l|l]$

五、其他特殊的正規表示式

中文字元的正規表示式:[\u4e00-\u9fa5]

雙位元組字元:[^\x00-\xff] (包括漢字在內,可以用來計算字串的長度(乙個雙位元組字元長度計2,ascii字元計1))

空白行的正規表示式:\n\s*\r (可以用來刪除空白行)

html標記的正規表示式:<(\s*?)[^>]*>.*?|<.*? /> (網上流傳的版本太糟糕,上面這個也僅僅能部分,對於複雜的巢狀標記依舊無能為力)

首尾空白字元的正規表示式:^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字元(包括空格、製表符、換頁符等等),非常有用的表示式)

中國郵政編碼:[1-9]\d(?!\d) (中國郵政編碼為6位數字)

ip位址:\d+\.\d+\.\d+\.\d+ (提取ip位址時有用)

ip位址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.)(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)) (由@飛龍三少 提供,感謝共享)

常用正規表示式(整理)

1。d 注釋 匹配 非負整數 正整數 0 2。0 9 1 9 0 9 注釋 匹配 正整數 3。d 0 注釋 匹配 非正整數 負整數 0 4。0 9 1 9 0 9 注釋 匹配 負整數 5。d 注釋 匹配 整數 正整數和付整數和0 6。d d 注釋 匹配 非負浮點數 正浮點數 0 7。0 9 0 9 ...

常用正規表示式(整理)

1。d 注釋 匹配 非負整數 正整數 0 2。0 9 1 9 0 9 注釋 匹配 正整數 3。d 0 注釋 匹配 非正整數 負整數 0 4。0 9 1 9 0 9 注釋 匹配 負整數 5。d 注釋 匹配 整數 正整數和付整數和0 6。d d 注釋 匹配 非負浮點數 正浮點數 0 7。0 9 0 9 ...

常用正規表示式整理

標記一行的開始 cat 匹配所有以cat 序列開頭的行 標記一行的結尾 cat 匹配所有以cat 序列結尾的行 將不同表示式進行或運算組合 ab ac匹配ab 或者ac 限制運算表示式運算範圍,分隔表示式,可以限制 的作用範圍 ab cd 匹配以ab或cd 開頭的行 列舉取值內容,在字元組 內外,元...