Python 正則匹配標籤中的 中文

2021-10-24 23:53:13 字數 1109 閱讀 3987

有如下內容:

text =

'測試學習正則

'

使用正則 匹配出所有的中文。

p = re.

compile

(r'([^x00-xff]*)\<\/div\>'

)for m in p.finditer(text)

:print

(m.group(1)

)

# 列印結果:

測試學習正則

這樣就是比較的簡單,直接是 匹配ascii碼大於255的那些字元(包括中文符號)

res = re.findall(u"[\u4e00-\u9fa5]+"

,str

(text)

)print

(res)

# 列印結果:

['測試'

,'學習正則'

]

\u4e00-\u9fa5unicode編碼的中文編碼範圍,用它來匹配中文也是非常的合適。

還可以在新增一些優化,使得可以匹配出中文的字元。

text =

'測試,。、【】、

學習正則

'res = re.findall(u"[\u2000-\u206f\u3000-\u303f\u4e00-\u9fef\uff00-\uffef]+"

,str

(text)

print

(res)

# 列印結果:

['測試,。、【】、'

,'學習正則'

]

#  一般標點

# cjk符號和標點

# cjk統一表意文字

# 半寬全寬形狀

"[\u2000-\u206f\u3000-\u303f\u4e00-\u9fef\uff00-\uffef]*"

;

php 正則匹配出a標籤級a標籤中的內容

header content type text html charset utf 8 str file get contents 拿出網頁中所有 a 標籤放到陣列 reg1 a aarray 這個存放的就是正則匹配出來的所有 a 標籤陣列 preg match all reg1,str,aarra...

emv中的 部分匹配 Python中的正規表示式

在python中,我們有 re 模組,我們需要在開始之前匯入它。import re 正規表示式的主要用途 匹配字串 替換字串的一部分 搜尋字串 將字串拆解成子字串 正規表示式的方法 w 匹配字母數字字元 a z,a z,0 9 w 匹配非字母數字字元 d 匹配數字 0 9 d 匹配所有非數字 s 匹...

PHP 正則匹配a標籤

php匹配固定class鏈結的a標籤 使用修飾詞大寫的u轉換為非貪婪模式 要不然會從文中的第乙個a標籤的開頭 匹配到最後乙個a標籤的結尾 c u 還可以直接使用非貪婪的正則.c 這個a標籤不要匹配 asdad str aaa bbbccc c u preg match all c,str,match...