re正規表示式匹配多行文字

2021-10-13 07:35:38 字數 598 閱讀 9150

今天在寫乙個簡單爬蟲,最後的文字提取部分,卻一直提不出想要的部分。

文字格式是這樣的

="rich-content topic-richtext"

>

"left"

>文字文字文字<

/p>

<

/div>

離文字最近的不固定,只能用上面的來匹配,但是用我僅知道的re的一點皮毛re.findall('(.*?)',text)發現,一直匹配不到

查了半天,才意識到我的問題是,匹配多行文字,順利找到方法:

re.compile()函式可接受乙個有用的標記–re.dotall。這使得正規表示式中的句點(.)可以匹配所有的字元,也包括換行符

新增re.dotall,順利解決

comment = re.

compile

(r'(.*?)'

, flags=re.

dotall

)

比起解決問題,更重要的是知道你在面臨什麼問題

正規表示式 RE

最近一段時間在研究nginx的rewirte重寫機制,因此對re需要有一定的了解,看了想關的文章,因此自己來寫一篇類似總結性的的文章。基本來說,正規表示式是一種用來描述一定數量文字的模式。regex regular express。本文用 regex 來表示一段具體的正規表示式。一段文字就是最基本的...

re正規表示式

1.數字 0 9 2.n位的數字 d 3.至少n位的數字 d 4.m n位的數字 d 5.零和非零開頭的數字 0 1 9 0 9 6.非零開頭的最多帶兩位小數的數字 1 9 0 9 0 9 7.帶1 2位小數的正數或負數 d d 8.正數 負數 和小數 d d 9.有兩位小數的正實數 0 9 0 9...

Re正規表示式

import re 匯入re模組 重複出現的字串 對於重複出現的字串可以用大括號內部加上重複次數的方式表達 r d 分組 使用小括號分組 r d d 重複出現的字串 對於重複出現的字串可以用大括號內部加上重複次數的方式表達 r d 重複出現的字串 對於重複出現的字串可以用大括號內部加上重複次數的方式...