比較準確完整的中文字元正則校驗

2021-08-31 07:05:44 字數 318 閱讀 4823

網上大多數校驗中文的正則都是\u4e00-\u9fa5,經過實際測試,這個正則無法匹配中文標點,如(),。等

仔細研究了unicode的規範,本著盡量寬泛、遵循unicode分類的原則,總結了一套比較準確完整的校驗規則:

//  一般標點

// cjk符號和標點

// cjk統一表意文字

// 半寬全寬形狀

string common_string_regex = "[\u2000-\u206f\u3000-\u303f\u4e00-\u9fef\uff00-\uffef]*";

匹配中文字元的正規表示式

這裡是幾個主要非英文語系字元範圍 google上找到的 2e80 33ffh 中日韓符號區。收容康熙字典部首 中日韓輔助部首 注音符號 日本假名 韓文音符,中日韓的符號 標點 帶圈或帶括符文數字 月份,以及日本的假名組合 單位 年號 月份 日期 時間等。3400 4dffh 中日韓認同表意文字擴充a...

IDA strings view 中文字元的顯示

具體原理不清楚,在網上找了找,記錄下。第一步 將ida.cfg中cpp866 version的asciistringchars注釋掉,把full version的asciistringchars取消注釋,如下圖。第二步,options ascii string style。選擇change enco...

中文字元轉成這種的 新( )

using system using system.collections.generic using system.web using system.text using system.io 執行結果 現在的問題是 我要生成乙個xml檔案,25 個xml檔案中的資料要導 20837 到乙個英文版的...