Python 秘籍 多行匹配模式

2021-10-07 16:21:57 字數 1183 閱讀 7469

問題

你正在試著使用正規表示式去匹配一大塊的文字,而你需要跨越多行去匹配。

解決方案

這個問題很典型的出現在當你用點 (.) 去匹配任意字元的時候,忘記了點 (.) 不能匹配換行符的事實。 比如,假設你想試著去匹配 c 語言分割的注釋:

comment = re.compile(r』/*(.?)*/』)

text1 = '/ this is a comment /』

text2 = 『』』/ this is a

… multiline comment */

… 『』』

comment.findall(text1)

[』 this is a comment ']

comment.findall(text2)

為了修正這個問題,你可以修改模式字串,增加對換行的支援。比如:

comment = re.compile(r』/*((?:.|\n)*?)*/』)

comment.findall(text2)

[』 this is a\n multiline comment ']

在這個模式中, (?:.|\n) 指定了乙個非捕獲組 (也就是它定義了乙個僅僅用來做匹配,而不能通過單獨捕獲或者編號的組)。

討論re.compile() 函式接受乙個標誌引數叫 re.dotall ,在這裡非常有用。 它可以讓正規表示式中的點 (.) 匹配包括換行符在內的任意字元。比如:

comment = re.compile(r』/*(.*?)*/』, re.dotall)

comment.findall(text2)

[』 this is a\n multiline comment ']

對於簡單的情況使用 re.dotall 標記引數工作的很好, 但是如果模式非常複雜或者是為了構造字串令牌而將多個模式合併起來, 這時候使用這個標記引數就可能出現一些問題。 如果讓你選擇的話,最好還是定義自己的正規表示式模式,這樣它可以在不需要額外的標記引數下也能工作的很好。

00108 多行匹配模式

需要跨越多行去匹配 當使用 去匹配任意字元的時候,點不能匹配換行符 正規表示式 n 忽略標識 re.dotall import re comment re.compile r text1 this is a comment resval comment.findall text1 print res...

Filebeat 多行日誌匹配處理

在使用 filebeat 採集 tomcat 日誌時,因為預設採集是按照行採集的,在統計的時候會不準確,因此採用 multiline 進行處理。根據業務和日誌級別情況,若日誌級別是配成 error 只需要將錯誤日誌進行合併處理,若日誌級別低於 error 根據日誌分析的要求,我這邊會只將 帶有 er...

匹配多行文字 m用法

1 00 00 09,855 00 00 14,724 britain was an object of desire.200 00 26,295 00 00 31,847 tacitus declared it worth the conquest,300 00 32,015 00 00 35,8...