正則匹配的中文包括中文標點符號

2021-10-07 21:00:59 字數 308 閱讀 1909

漢字相關的正規表示式:

1、匹配雙位元組字元(包括漢字在內):[^\x00-\xff] ,注:可以用來計算字串的長度(乙個雙位元組字元長度計2,ascii字元計1)

2、只含有漢字、數字、字母、下劃線,下劃線位置不限:^[a-za-z0-9_\u4e00-\u9fa5]+$

3、/^([\p\pa-za-z0-9])*$/u,其中 \p表示utf-8編碼中的所有中文字元,\p表示中英文標點,a-z表示大寫字母,a-z表示小寫英文本母,0-9表示數字,*表示》=0,,/u 表示按unicode(utf-8)匹配(主要針對多位元組比如漢字)

參考:

將中文標點符號替換成英文標點符號

轉全形的函式 sbc case 任意字串 全形字串 全形空格為12288,半形空格為32 其他字元半形 33 126 與全形 65281 65374 的對應關係是 均相差65248 public string tosbc string input if c i 127 c i char c i 65...

中文技術文件的規範 標點符號

1 中文語句的標點符號,均應該採取全形符號,這樣可以與全形文字保持視覺的一致。2 如果整句為英文,則該句使用英文 半形標點。3 句號 問號 嘆號 逗號 頓號 分號和冒號不得出現在一行之首。1 中文語句的結尾處應該用全形句號 2 句子末尾用括號加註時,句號應在括號之外。錯誤 關於檔案的輸出,請參照第 ...

正規表示式匹配標點符號

value 123 preg replace s pp i value 上面是例項,簡單的說就是 pp 這幾個字串了,可以匹配任何全形或半形的標點符號,參考上面的例子可以得出結果。unicode 編碼並不只是為某個字元簡單定義了乙個編碼,而且還將其進行了歸類。pp 其中的小寫 p 是 propert...